手动更新

2026-04-23 05:51:04 +08:00
parent b0cdd19bfc
commit c8599198a0
33 changed files with 1680 additions and 12 deletions
--- a/wiki/concepts/Local-LLM-Deployment.md
+++ b/wiki/concepts/Local-LLM-Deployment.md
@@ -0,0 +1,56 @@
+---
+title: "Local LLM Deployment"
+type: concept
+tags: []
+last_updated: 2026-04-23
+---
+
+# Local LLM Deployment
+
+## Definition
+在本地机器上离线部署和运行大语言模型（LLM），无需依赖云端 API 服务，实现数据完全私有化且零 API 调用费用。
+
+## Key Benefits
+- **隐私安全**：数据不出本地，无需上传至第三方服务器
+- **成本为零**：无需 API Key，无调用费用
+- **离线可用**：无网络连接要求
+- **完全可控**：可自由选择模型、配置参数、定制系统提示词
+
+## Core Stack
+| 组件 | 作用 | 代表工具 |
+|------|------|---------|
+| LLM 运行时 | 本地运行大模型 | [[Ollama]], llama.cpp, vLLM |
+| 大模型 | 推理能力 | [[DeepSeek]]-R1, Llama, Qwen |
+| Web 界面 | 图形化交互 | [[Open WebUI]], ChatUI |
+| 知识库 | RAG 增强 | bge-m3, Chroma |
+
+## Hardware Requirements
+| 模型参数规模 | 最低 RAM | 推荐显存 | 典型硬件 |
+|------------|---------|---------|---------|
+| 1.5B | 4 GB | 4 GB | 普通笔记本 |
+| 7B | 16 GB | 14 GB | 有独显的电脑 |
+| 32B | 64 GB | 48 GB | Mac Studio M2 Max / 高端工作站 |
+| 70B+ | 128 GB | 140 GB+ | 多 GPU 服务器 |
+
+## Implementation Options
+1. **ollama run**：`ollama run deepseek-r1:8b` 一行命令本地运行
+2. **Docker 部署**：`docker run --gpus=all -p 11434:11434 ollama/ollama`
+3. **API 服务**：通过 `http://localhost:11434/api/generate` 调用
+4. **Web 界面**：部署 [[Open WebUI]] 提供浏览器交互
+
+## China Environment Challenges & Solutions
+| 挑战 | 解决方案 |
+|------|---------|
+| 模型下载慢 | 魔塔社区（modelscope.cn）、HF Mirror（hf-mirror.com）、夸克网盘 |
+| GPU 不可用 | Docker GPU 模式：`docker run --gpus=all` |
+| 模型导入 | `ollama create <name> -f <Modelfile>` 导入本地 GGUF 文件 |
+| API 安全 | nginx 反向代理 + Bearer Token 认证 |
+
+## Related Concepts
+- [[Docker LLM Deployment]]：通过 Docker 容器化部署本地 LLM
+- [[RAG]]：本地 LLM 的知识增强技术
+- [[Model Quantization]]：GGUF 格式量化降低硬件要求
+- [[Ollama]]：本地 LLM 部署的核心运行时工具
+
+## Sources
+- [[详细-离线部署大模型-ollama-deepseek-open-webui安装使用方法及常见问题解决-1]]