Files
nexus/wiki/concepts/Local-LLM-Deployment.md
2026-04-23 05:51:04 +08:00

57 lines
2.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Local LLM Deployment"
type: concept
tags: []
last_updated: 2026-04-23
---
# Local LLM Deployment
## Definition
在本地机器上离线部署和运行大语言模型LLM无需依赖云端 API 服务,实现数据完全私有化且零 API 调用费用。
## Key Benefits
- **隐私安全**:数据不出本地,无需上传至第三方服务器
- **成本为零**:无需 API Key无调用费用
- **离线可用**:无网络连接要求
- **完全可控**:可自由选择模型、配置参数、定制系统提示词
## Core Stack
| 组件 | 作用 | 代表工具 |
|------|------|---------|
| LLM 运行时 | 本地运行大模型 | [[Ollama]], llama.cpp, vLLM |
| 大模型 | 推理能力 | [[DeepSeek]]-R1, Llama, Qwen |
| Web 界面 | 图形化交互 | [[Open WebUI]], ChatUI |
| 知识库 | RAG 增强 | bge-m3, Chroma |
## Hardware Requirements
| 模型参数规模 | 最低 RAM | 推荐显存 | 典型硬件 |
|------------|---------|---------|---------|
| 1.5B | 4 GB | 4 GB | 普通笔记本 |
| 7B | 16 GB | 14 GB | 有独显的电脑 |
| 32B | 64 GB | 48 GB | Mac Studio M2 Max / 高端工作站 |
| 70B+ | 128 GB | 140 GB+ | 多 GPU 服务器 |
## Implementation Options
1. **ollama run**`ollama run deepseek-r1:8b` 一行命令本地运行
2. **Docker 部署**`docker run --gpus=all -p 11434:11434 ollama/ollama`
3. **API 服务**:通过 `http://localhost:11434/api/generate` 调用
4. **Web 界面**:部署 [[Open WebUI]] 提供浏览器交互
## China Environment Challenges & Solutions
| 挑战 | 解决方案 |
|------|---------|
| 模型下载慢 | 魔塔社区modelscope.cn、HF Mirrorhf-mirror.com、夸克网盘 |
| GPU 不可用 | Docker GPU 模式:`docker run --gpus=all` |
| 模型导入 | `ollama create <name> -f <Modelfile>` 导入本地 GGUF 文件 |
| API 安全 | nginx 反向代理 + Bearer Token 认证 |
## Related Concepts
- [[Docker LLM Deployment]]:通过 Docker 容器化部署本地 LLM
- [[RAG]]:本地 LLM 的知识增强技术
- [[Model Quantization]]GGUF 格式量化降低硬件要求
- [[Ollama]]:本地 LLM 部署的核心运行时工具
## Sources
- [[详细-离线部署大模型-ollama-deepseek-open-webui安装使用方法及常见问题解决-1]]