--- title: "Local LLM Deployment" type: concept tags: [] last_updated: 2026-04-23 --- # Local LLM Deployment ## Definition 在本地机器上离线部署和运行大语言模型(LLM),无需依赖云端 API 服务,实现数据完全私有化且零 API 调用费用。 ## Key Benefits - **隐私安全**:数据不出本地,无需上传至第三方服务器 - **成本为零**:无需 API Key,无调用费用 - **离线可用**:无网络连接要求 - **完全可控**:可自由选择模型、配置参数、定制系统提示词 ## Core Stack | 组件 | 作用 | 代表工具 | |------|------|---------| | LLM 运行时 | 本地运行大模型 | [[Ollama]], llama.cpp, vLLM | | 大模型 | 推理能力 | [[DeepSeek]]-R1, Llama, Qwen | | Web 界面 | 图形化交互 | [[Open WebUI]], ChatUI | | 知识库 | RAG 增强 | bge-m3, Chroma | ## Hardware Requirements | 模型参数规模 | 最低 RAM | 推荐显存 | 典型硬件 | |------------|---------|---------|---------| | 1.5B | 4 GB | 4 GB | 普通笔记本 | | 7B | 16 GB | 14 GB | 有独显的电脑 | | 32B | 64 GB | 48 GB | Mac Studio M2 Max / 高端工作站 | | 70B+ | 128 GB | 140 GB+ | 多 GPU 服务器 | ## Implementation Options 1. **ollama run**:`ollama run deepseek-r1:8b` 一行命令本地运行 2. **Docker 部署**:`docker run --gpus=all -p 11434:11434 ollama/ollama` 3. **API 服务**:通过 `http://localhost:11434/api/generate` 调用 4. **Web 界面**:部署 [[Open WebUI]] 提供浏览器交互 ## China Environment Challenges & Solutions | 挑战 | 解决方案 | |------|---------| | 模型下载慢 | 魔塔社区(modelscope.cn)、HF Mirror(hf-mirror.com)、夸克网盘 | | GPU 不可用 | Docker GPU 模式:`docker run --gpus=all` | | 模型导入 | `ollama create -f ` 导入本地 GGUF 文件 | | API 安全 | nginx 反向代理 + Bearer Token 认证 | ## Related Concepts - [[Docker LLM Deployment]]:通过 Docker 容器化部署本地 LLM - [[RAG]]:本地 LLM 的知识增强技术 - [[Model Quantization]]:GGUF 格式量化降低硬件要求 - [[Ollama]]:本地 LLM 部署的核心运行时工具 ## Sources - [[详细-离线部署大模型-ollama-deepseek-open-webui安装使用方法及常见问题解决-1]]