3.6 KiB
3.6 KiB
title, type, tags, date
| title | type | tags | date | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 详细!离线部署大模型:ollama+deepseek+open-webui安装使用方法及常见问题解决 | source |
|
2026-05-07 |
Source File
Summary(用中文描述)
- 核心主题:使用 ollama + DeepSeek + Open WebUI 在本地离线部署大语言模型,提供图形化界面与 RAG 本地知识库能力
- 问题域:如何在没有网络或注重隐私的环境下本地运行大模型、如何加速模型下载、如何集成可视化界面
- 方法/机制:ollama 跨平台安装(原生/Docker)、DeepSeek-R1 系列多规格模型下载、本地模型导入、API 配置、Open WebUI Docker 部署、RAG 嵌入模型配置
- 结论/价值:完整覆盖从零安装到生产使用的全链路操作手册,含详尽硬件要求、模型规格对照表、常见问题解决方案
Key Claims(用中文描述)
- ollama 在 macOS(Apple M2 Max)上可流畅运行 DeepSeek-R1:32b 及以下模型
- DeepSeek-R1:32b 需要 16核 CPU + 64GB 内存 + 48GB 显存的硬件配置
- 模型下载速度变慢时,间隔性中断并重试可有效提速
- 通过魔塔社区(modelscope.cn)和 HF 国内镜像(hf-mirror.com)可绕过官方下载限速
- Open WebUI 可通过 docker-compose 一键部署,集成 ollama API 和 RAG 本地知识库
- 公网部署 ollama API 必须加 nginx API KEY 保护,否则存在安全风险
Key Quotes
"你应该至少有 4 GB 的 RAM 来运行 1.5B 模型,至少有 8 GB 的 RAM 来运行 7B 模型,16 GB 的 RAM 来运行 13B 模型,以及 32 GB 的 RAM 来运行 33B 模型。" — ollama 官方硬件建议
"纯 CPU 模式虽然也可以运行,但生成速度很慢,仅适用于本地开发调试体验一下。" — 作者评价
"如果你是在云服务器等拥有公网IP的环境上部署,请谨慎做此设置(OLLAMA_HOST=0.0.0.0),否则可能导致 API 服务被恶意调用。" — 安全警示
Key Concepts
- RAG:检索增强生成,通过 bge-m3 嵌入模型构建本地知识库,Open WebUI 支持该功能
- GGUF格式:Ollama 支持导入 GGUF 格式的本地模型文件(.gguf),用于离线部署
- API网关:通过 nginx 配置 Bearer Token 认证保护 ollama API 服务
Key Entities
- Ollama:开源本地大语言模型运行框架,支持 macOS/Windows/Linux/Docker 多平台
- DeepSeek:专注 AGI 的中国科技公司,提供 DeepSeek-R1 系列开源推理模型
- Open WebUI:开源大模型 Web 界面,支持集成 ollama/OpenAI API,提供聊天机器人和 RAG 本地知识库功能
- Docker:容器化平台,用于部署 ollama 和 Open WebUI,实现环境隔离和便捷管理
- BGE-M3:多语言嵌入模型,用于 RAG 本地知识库的向量化嵌入
Connections
- Ollama ← runs ← DeepSeek
- Ollama ← exposes API via ← API网关
- Open WebUI ← connects to ← Ollama
- RAG ← uses embedding model ← BGE-M3
- Docker ← hosts ← Ollama
- Docker ← hosts ← Open WebUI
Contradictions
- 与 清华出的deepseek使用手册-104页-真的是太厉害了-免费领取 的侧重点:
- 冲突点:手册侧重 DeepSeek 模型使用技巧,本文侧重本地部署工程实践
- 当前观点:优先解决「如何本地运行」的基础设施问题
- 对方观点:侧重「如何用好模型」的提示词工程方法
- 说明:两者互补而非冲突,手册提供使用指南,本文提供部署指南