---
title: "Local LLM Deployment"
type: concept
tags: []
last_updated: 2026-04-23
---

# Local LLM Deployment

## Definition
在本地机器上离线部署和运行大语言模型（LLM），无需依赖云端 API 服务，实现数据完全私有化且零 API 调用费用。

## Key Benefits
- **隐私安全**：数据不出本地，无需上传至第三方服务器
- **成本为零**：无需 API Key，无调用费用
- **离线可用**：无网络连接要求
- **完全可控**：可自由选择模型、配置参数、定制系统提示词

## Core Stack
| 组件 | 作用 | 代表工具 |
|------|------|---------|
| LLM 运行时 | 本地运行大模型 | [[Ollama]], llama.cpp, vLLM |
| 大模型 | 推理能力 | [[DeepSeek]]-R1, Llama, Qwen |
| Web 界面 | 图形化交互 | [[Open WebUI]], ChatUI |
| 知识库 | RAG 增强 | bge-m3, Chroma |

## Hardware Requirements
| 模型参数规模 | 最低 RAM | 推荐显存 | 典型硬件 |
|------------|---------|---------|---------|
| 1.5B | 4 GB | 4 GB | 普通笔记本 |
| 7B | 16 GB | 14 GB | 有独显的电脑 |
| 32B | 64 GB | 48 GB | Mac Studio M2 Max / 高端工作站 |
| 70B+ | 128 GB | 140 GB+ | 多 GPU 服务器 |

## Implementation Options
1. **ollama run**：`ollama run deepseek-r1:8b` 一行命令本地运行
2. **Docker 部署**：`docker run --gpus=all -p 11434:11434 ollama/ollama`
3. **API 服务**：通过 `http://localhost:11434/api/generate` 调用
4. **Web 界面**：部署 [[Open WebUI]] 提供浏览器交互

## China Environment Challenges & Solutions
| 挑战 | 解决方案 |
|------|---------|
| 模型下载慢 | 魔塔社区（modelscope.cn）、HF Mirror（hf-mirror.com）、夸克网盘 |
| GPU 不可用 | Docker GPU 模式：`docker run --gpus=all` |
| 模型导入 | `ollama create <name> -f <Modelfile>` 导入本地 GGUF 文件 |
| API 安全 | nginx 反向代理 + Bearer Token 认证 |

## Related Concepts
- [[Docker LLM Deployment]]：通过 Docker 容器化部署本地 LLM
- [[RAG]]：本地 LLM 的知识增强技术
- [[Model Quantization]]：GGUF 格式量化降低硬件要求
- [[Ollama]]：本地 LLM 部署的核心运行时工具

## Sources
- [[详细-离线部署大模型-ollama-deepseek-open-webui安装使用方法及常见问题解决-1]]