Files
nexus/wiki/concepts/Local-LLM-Deployment.md
2026-04-23 05:51:04 +08:00

2.2 KiB
Raw Blame History

title, type, tags, last_updated
title type tags last_updated
Local LLM Deployment concept
2026-04-23

Local LLM Deployment

Definition

在本地机器上离线部署和运行大语言模型LLM无需依赖云端 API 服务,实现数据完全私有化且零 API 调用费用。

Key Benefits

  • 隐私安全:数据不出本地,无需上传至第三方服务器
  • 成本为零:无需 API Key无调用费用
  • 离线可用:无网络连接要求
  • 完全可控:可自由选择模型、配置参数、定制系统提示词

Core Stack

组件 作用 代表工具
LLM 运行时 本地运行大模型 Ollama, llama.cpp, vLLM
大模型 推理能力 DeepSeek-R1, Llama, Qwen
Web 界面 图形化交互 Open WebUI, ChatUI
知识库 RAG 增强 bge-m3, Chroma

Hardware Requirements

模型参数规模 最低 RAM 推荐显存 典型硬件
1.5B 4 GB 4 GB 普通笔记本
7B 16 GB 14 GB 有独显的电脑
32B 64 GB 48 GB Mac Studio M2 Max / 高端工作站
70B+ 128 GB 140 GB+ 多 GPU 服务器

Implementation Options

  1. ollama runollama run deepseek-r1:8b 一行命令本地运行
  2. Docker 部署docker run --gpus=all -p 11434:11434 ollama/ollama
  3. API 服务:通过 http://localhost:11434/api/generate 调用
  4. Web 界面:部署 Open WebUI 提供浏览器交互

China Environment Challenges & Solutions

挑战 解决方案
模型下载慢 魔塔社区modelscope.cn、HF Mirrorhf-mirror.com、夸克网盘
GPU 不可用 Docker GPU 模式:docker run --gpus=all
模型导入 ollama create <name> -f <Modelfile> 导入本地 GGUF 文件
API 安全 nginx 反向代理 + Bearer Token 认证

Sources