1.4 KiB
1.4 KiB
title, type, tags, sources, last_updated
| title | type | tags | sources | last_updated | |||
|---|---|---|---|---|---|---|---|
| 本地AI推理 | concept |
|
2026-04-16 |
定义
在自有硬件(本地服务器或 PC)上运行 LLM 推理,而非调用云服务 API。
核心优势
- 数据隐私:敏感数据不出本地网络
- 成本可控:无 token 计费,硬件一次性投入
- 延迟可控:内网延迟极低
- 离线可用:不依赖外部网络
主流方案
| 方案 | 定位 | 最低配置 | GPU需求 |
|---|---|---|---|
| Ollama | 快速原型/轻量 | 4核CPU+8GB RAM | 可选 |
| vLLM | 高并发企业级 | 8核CPU+32GB RAM | 必须 |
| llama.cpp | 极致轻量 | 2核CPU+4GB RAM | 可选 |
Ollama 部署路径
curl -fsSL https://ollama.com/install.sh | shollama pull qwen2.5-coder:7b(≈4.5GB)ollama run qwen2.5-coder:7b
远程 API 暴露
默认只监听 127.0.0.1,通过环境变量开放:
Environment="OLLAMA_HOST=0.0.0.0" # /etc/systemd/system/ollama.service
可被 n8n/OpenClaw/OpenWebUI 等工具远程调用。
GPU 加速
- NVIDIA GPU + CUDA 环境下 Ollama 自动调度 GPU
- 无需额外配置,
nvidia-smi验证即可