nexus/wiki/concepts/本地AI推理.md at 04b7e9978c8985803829883cc42eba7d2ca53426

ishenwei/nexus

Files

weishen deaab02baf wiki-ingest batch 2026-04-16: Ollama/Qwen2.5-Coder部署 + NFS永久挂载 + Apache Superset Docker

2026-04-16 01:06:49 +08:00

title, type, tags, sources, last_updated

title

type

定义

在自有硬件（本地服务器或 PC）上运行 LLM 推理，而非调用云服务 API。

方案	定位	最低配置	GPU需求
Ollama	快速原型/轻量	4核CPU+8GB RAM	可选
vLLM	高并发企业级	8核CPU+32GB RAM	必须
llama.cpp	极致轻量	2核CPU+4GB RAM	可选

默认只监听 127.0.0.1，通过环境变量开放：

Environment="OLLAMA_HOST=0.0.0.0"  # /etc/systemd/system/ollama.service

可被 n8n/OpenClaw/OpenWebUI 等工具远程调用。