第03章:Ollama本地大模型部署
第03章:Ollama本地大模型部署
本地大模型的核心价值,不是免费,是数据不出门。对律师、医生、金融机构来说,这是比功能更重要的特性。
Ollama是目前最流行的本地大模型运行工具。
它的功能:让你在自己的电脑上运行开源大语言模型(Llama 3、Qwen、Mistral、DeepSeek等),不需要联网,不需要API,数据完全在本地处理。
为什么客户需要这个:
- 律师事务所不愿意把案件文件发给第三方服务器
- 医院不允许把患者数据上传到公有云
- 金融机构对数据出境有合规要求
- 有些企业的内部信息涉及商业机密,不愿意通过云端AI处理
对这些客户,Ollama提供的"完全本地运行"是他们唯一可以接受的AI方案。
硬件要求
Ollama的性能高度依赖于运行设备的GPU。
| 场景 | 最低配置 | 推荐配置 |
|---|---|---|
| 个人轻度使用 | 8GB内存,无独显 | 16GB内存,4GB VRAM显卡 |
| 团队共享服务器 | 16GB内存,8GB VRAM | 32GB内存,16GB+ VRAM |
| 企业级部署 | 32GB内存,16GB VRAM | 64GB+ 内存,多GPU |
注意:如果客户没有独立显卡,Ollama会使用CPU运行,速度很慢。在评估客户需求前,先了解他们的设备情况。
安装步骤
Step 1:安装Ollama
macOS:
# 方法1:官网下载DMG安装包(推荐)
# 访问 https://ollama.com 下载 ollama-darwin.dmg
# 方法2:命令行
curl -fsSL https://ollama.com/install.sh | sh
Windows:
- 访问 https://ollama.com 下载 OllamaSetup.exe
- 运行安装包,默认安装即可
- 安装后,Ollama会作为系统服务在后台运行
Linux:
curl -fsSL https://ollama.com/install.sh | sh
验证安装:
ollama --version
Step 2:下载和运行模型
Ollama通过pull命令下载模型:
# 下载Llama 3.2(轻量快速,适合入门)
ollama pull llama3.2
# 下载Qwen2.5(中文理解能力强,推荐中文客户)
ollama pull qwen2.5
# 下载DeepSeek-R1(推理能力强,适合分析任务)
ollama pull deepseek-r1:7b
运行模型(交互式对话):
ollama run llama3.2
运行后,在命令行输入文字即可对话。输入 /bye 退出。
Step 3:API接口
Ollama自带一个REST API,默认在 http://localhost:11434 运行。
测试API(在另一个终端窗口):
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "你好,请介绍一下你自己",
"stream": false
}'
这个API可以被其他应用程序调用,这是后续接入Dify、Open WebUI等上层应用的基础。
Step 4:安装Open WebUI(提供图形界面)
大多数客户不习惯命令行操作,给他们安装一个图形界面更实用。
Open WebUI是一个流行的本地AI对话界面,外观和使用方式类似ChatGPT。
使用Docker安装(需要先安装Docker):
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
安装后,在浏览器访问 http://localhost:3000,就可以用图形界面与本地大模型对话。
不会Docker的简单替代:Ollama Desktop(如果有的话)或者直接用Ollama的命令行界面。
帮客户选择哪个模型
这是你作为"AI安装师"的专业判断价值所在。
模型选择指南:
| 使用场景 | 推荐模型 | 原因 |
|---|---|---|
| 中文日常对话/写作 | Qwen2.5-7b/14b | 中文理解能力强,阿里出品 |
| 代码助手 | DeepSeek-Coder / CodeLlama | 专门优化代码理解和生成 |
| 通用任务 | Llama 3.1-8b | 综合性能好,英文场景强 |
| 复杂分析/推理 | DeepSeek-R1 / Qwen2.5-72b | 推理能力更强,需要更好硬件 |
数字含义:模型名后面的数字(7b、13b、70b)表示参数量(十亿)。数字越大,效果越好,但需要更多的内存和显存。
企业局域网部署
如果客户想让整个团队都能用本地大模型,需要在服务器上部署,让局域网内的所有设备都能访问。
步骤概要:
- 在性能较好的服务器上安装Ollama和Open WebUI
- 修改Ollama的监听地址,允许局域网访问:
OLLAMA_HOST=0.0.0.0 ollama serve
- 确认服务器的防火墙允许11434端口
- 局域网内其他设备通过
http://服务器IP:3000访问Open WebUI
服务包设计
基础Ollama安装服务:
- 单机安装 + 1个模型下载 + 命令行使用教程
- 收费:¥500-800
- 工时:2-3小时
Ollama + Open WebUI图形界面服务:
- 安装Ollama + Open WebUI + 配置推荐模型
- 收费:¥1000-1500
- 工时:3-4小时
企业局域网部署服务:
- 服务器安装 + 局域网配置 + 团队培训
- 收费:¥2500-5000
- 工时:半天至一天
本章小结
Ollama让大模型在本地运行,是数据安全敏感客户的核心需求。
安装三步:安装Ollama → 下载模型 → 选配Open WebUI图形界面。
你的专业价值:帮客户选对模型,根据他的硬件配置和使用场景给出专业建议,这是"安装师"和"随便找人帮装"的差别。
→ 第4章:私有知识库(RAG)的搭建——让AI"学会"你的内部文档