title, type, tags, last_updated
| title |
type |
tags |
last_updated |
| Local LLM Deployment |
concept |
|
2026-04-23 |
Local LLM Deployment
Definition
在本地机器上离线部署和运行大语言模型(LLM),无需依赖云端 API 服务,实现数据完全私有化且零 API 调用费用。
Key Benefits
- 隐私安全:数据不出本地,无需上传至第三方服务器
- 成本为零:无需 API Key,无调用费用
- 离线可用:无网络连接要求
- 完全可控:可自由选择模型、配置参数、定制系统提示词
Core Stack
| 组件 |
作用 |
代表工具 |
| LLM 运行时 |
本地运行大模型 |
Ollama, llama.cpp, vLLM |
| 大模型 |
推理能力 |
DeepSeek-R1, Llama, Qwen |
| Web 界面 |
图形化交互 |
Open WebUI, ChatUI |
| 知识库 |
RAG 增强 |
bge-m3, Chroma |
Hardware Requirements
| 模型参数规模 |
最低 RAM |
推荐显存 |
典型硬件 |
| 1.5B |
4 GB |
4 GB |
普通笔记本 |
| 7B |
16 GB |
14 GB |
有独显的电脑 |
| 32B |
64 GB |
48 GB |
Mac Studio M2 Max / 高端工作站 |
| 70B+ |
128 GB |
140 GB+ |
多 GPU 服务器 |
Implementation Options
- ollama run:
ollama run deepseek-r1:8b 一行命令本地运行
- Docker 部署:
docker run --gpus=all -p 11434:11434 ollama/ollama
- API 服务:通过
http://localhost:11434/api/generate 调用
- Web 界面:部署 Open WebUI 提供浏览器交互
China Environment Challenges & Solutions
| 挑战 |
解决方案 |
| 模型下载慢 |
魔塔社区(modelscope.cn)、HF Mirror(hf-mirror.com)、夸克网盘 |
| GPU 不可用 |
Docker GPU 模式:docker run --gpus=all |
| 模型导入 |
ollama create <name> -f <Modelfile> 导入本地 GGUF 文件 |
| API 安全 |
nginx 反向代理 + Bearer Token 认证 |
Related Concepts
Sources