ishenwei/nexus

Files

weishen c8599198a0 手动更新

2026-04-23 05:51:04 +08:00

2.2 KiB

Raw Blame History

title, type, tags, last_updated

title

type

tags

last_updated

Local LLM Deployment

concept

2026-04-23

Local LLM Deployment

Definition

在本地机器上离线部署和运行大语言模型（LLM），无需依赖云端 API 服务，实现数据完全私有化且零 API 调用费用。

Key Benefits

隐私安全：数据不出本地，无需上传至第三方服务器
成本为零：无需 API Key，无调用费用
离线可用：无网络连接要求
完全可控：可自由选择模型、配置参数、定制系统提示词

Core Stack

组件	作用	代表工具
LLM 运行时	本地运行大模型	Ollama, llama.cpp, vLLM
大模型	推理能力	DeepSeek-R1, Llama, Qwen
Web 界面	图形化交互	Open WebUI, ChatUI
知识库	RAG 增强	bge-m3, Chroma

Hardware Requirements

模型参数规模	最低 RAM	推荐显存	典型硬件
1.5B	4 GB	4 GB	普通笔记本
7B	16 GB	14 GB	有独显的电脑
32B	64 GB	48 GB	Mac Studio M2 Max / 高端工作站
70B+	128 GB	140 GB+	多 GPU 服务器

Implementation Options

ollama run：ollama run deepseek-r1:8b 一行命令本地运行
Docker 部署：docker run --gpus=all -p 11434:11434 ollama/ollama
API 服务：通过 http://localhost:11434/api/generate 调用
Web 界面：部署 Open WebUI 提供浏览器交互

China Environment Challenges & Solutions

挑战	解决方案
模型下载慢	魔塔社区（modelscope.cn）、HF Mirror（hf-mirror.com）、夸克网盘
GPU 不可用	Docker GPU 模式：`docker run --gpus=all`
模型导入	`ollama create <name> -f <Modelfile>` 导入本地 GGUF 文件
API 安全	nginx 反向代理 + Bearer Token 认证

Docker LLM Deployment：通过 Docker 容器化部署本地 LLM
RAG：本地 LLM 的知识增强技术
Model Quantization：GGUF 格式量化降低硬件要求
Ollama：本地 LLM 部署的核心运行时工具

Sources

详细-离线部署大模型-ollama-deepseek-open-webui安装使用方法及常见问题解决-1