nexus/wiki/sources/在-ubuntu-安装-ollama-并运行-qwen2-5‑coder-7b.md at cf4001c4f83bd9e49283b4ace69d5270cdeb9c59

ishenwei/nexus

Files

weishen 3224ec4787 Auto-sync: update nexus workspace

2026-04-28 07:26:52 +08:00

title, type, tags, date

title

type

Source File

核心主题：在 Ubuntu 系统上通过官方安装脚本部署 Ollama 本地大模型运行框架，并下载运行 Qwen2.5-Coder 7B 代码生成模型
问题域：本地 AI 推理环境搭建、大模型私有部署、本地 API 服务暴露
方法/机制：通过官方 install.sh 脚本一键安装 Ollama；使用 systemd 管理服务；通过 OLLAMA_HOST=0.0.0.0 开放远程 API；CUDA 自动 GPU 加速
结论/价值：3 条命令完成安装部署；Qwen2.5-Coder 7B 因其 Tool usage 能力强、Shell/Python/SQL 理解强、Repo 级代码理解强，比普通 qwen2.5:7b 更适合工程任务

Ollama 官方安装脚本自动完成 CLI 安装、systemd 服务创建和 API 启动
qwen2.5-coder:7b 模型大小约 4.5GB，推荐配置为 8+ CPU cores + 16GB RAM + NVIDIA GPU
默认 Ollama API 仅监听 127.0.0.1（本地），需修改 systemd 服务配置 OLLAMA_HOST=0.0.0.0 才能开放远程访问
若系统安装了 CUDA，Ollama 会自动使用 GPU 加速，无需额外配置
小型机器可选择 qwen2.5-coder:3b 替代 7B 以降低资源需求
推荐搭配工具：Open WebUI（ChatGPT UI）、n8n（AI 自动化）、LangChain（Agent framework）、OpenClaw（AI coding agent）

"qwen2.5-coder:7b 因为 Tool usage 能力强、Shell / Python / SQL 理解强、Repo 级代码理解强，比普通 qwen2.5:7b 更适合工程任务" — 选型建议

"如果安装了 CUDA，Ollama 会 自动使用 GPU，无需额外配置" — GPU 加速机制

"最简安装流程：curl -fsSL https://ollama.com/install.sh | sh && ollama pull qwen2.5-coder:7b && ollama run qwen2.5-coder:7b" — 3 条命令完成部署

Ollama：开源本地 LLM 运行框架，支持 macOS/Windows/Linux/Docker，ollama run <model> 一键运行大语言模型
Qwen2.5-Coder：阿里通义千问团队开发的代码生成模型，7B 版本约 4.5GB，在 Tool usage、Shell/Python/SQL 理解和 Repo 级代码理解方面优于通用版 Qwen2.5
本地大模型部署：在自有硬件上运行 AI 模型，数据完全私有、无需 API Key、无网络依赖
GPU 加速推理：Ollama 自动检测 CUDA 环境并调用 NVIDIA GPU 加速推理，无需手动配置
REST API：Ollama 默认提供 localhost:11434 REST API 接口，支持 JSON 格式的对话请求