57 lines
2.3 KiB
Markdown
57 lines
2.3 KiB
Markdown
---
|
||
title: "Local LLM Deployment"
|
||
type: concept
|
||
tags: []
|
||
last_updated: 2026-04-23
|
||
---
|
||
|
||
# Local LLM Deployment
|
||
|
||
## Definition
|
||
在本地机器上离线部署和运行大语言模型(LLM),无需依赖云端 API 服务,实现数据完全私有化且零 API 调用费用。
|
||
|
||
## Key Benefits
|
||
- **隐私安全**:数据不出本地,无需上传至第三方服务器
|
||
- **成本为零**:无需 API Key,无调用费用
|
||
- **离线可用**:无网络连接要求
|
||
- **完全可控**:可自由选择模型、配置参数、定制系统提示词
|
||
|
||
## Core Stack
|
||
| 组件 | 作用 | 代表工具 |
|
||
|------|------|---------|
|
||
| LLM 运行时 | 本地运行大模型 | [[Ollama]], llama.cpp, vLLM |
|
||
| 大模型 | 推理能力 | [[DeepSeek]]-R1, Llama, Qwen |
|
||
| Web 界面 | 图形化交互 | [[Open WebUI]], ChatUI |
|
||
| 知识库 | RAG 增强 | bge-m3, Chroma |
|
||
|
||
## Hardware Requirements
|
||
| 模型参数规模 | 最低 RAM | 推荐显存 | 典型硬件 |
|
||
|------------|---------|---------|---------|
|
||
| 1.5B | 4 GB | 4 GB | 普通笔记本 |
|
||
| 7B | 16 GB | 14 GB | 有独显的电脑 |
|
||
| 32B | 64 GB | 48 GB | Mac Studio M2 Max / 高端工作站 |
|
||
| 70B+ | 128 GB | 140 GB+ | 多 GPU 服务器 |
|
||
|
||
## Implementation Options
|
||
1. **ollama run**:`ollama run deepseek-r1:8b` 一行命令本地运行
|
||
2. **Docker 部署**:`docker run --gpus=all -p 11434:11434 ollama/ollama`
|
||
3. **API 服务**:通过 `http://localhost:11434/api/generate` 调用
|
||
4. **Web 界面**:部署 [[Open WebUI]] 提供浏览器交互
|
||
|
||
## China Environment Challenges & Solutions
|
||
| 挑战 | 解决方案 |
|
||
|------|---------|
|
||
| 模型下载慢 | 魔塔社区(modelscope.cn)、HF Mirror(hf-mirror.com)、夸克网盘 |
|
||
| GPU 不可用 | Docker GPU 模式:`docker run --gpus=all` |
|
||
| 模型导入 | `ollama create <name> -f <Modelfile>` 导入本地 GGUF 文件 |
|
||
| API 安全 | nginx 反向代理 + Bearer Token 认证 |
|
||
|
||
## Related Concepts
|
||
- [[Docker LLM Deployment]]:通过 Docker 容器化部署本地 LLM
|
||
- [[RAG]]:本地 LLM 的知识增强技术
|
||
- [[Model Quantization]]:GGUF 格式量化降低硬件要求
|
||
- [[Ollama]]:本地 LLM 部署的核心运行时工具
|
||
|
||
## Sources
|
||
- [[详细-离线部署大模型-ollama-deepseek-open-webui安装使用方法及常见问题解决-1]]
|