第03章：Ollama本地大模型部署

本地大模型的核心价值，不是免费，是数据不出门。对律师、医生、金融机构来说，这是比功能更重要的特性。

Ollama是目前最流行的本地大模型运行工具。

它的功能：让你在自己的电脑上运行开源大语言模型（Llama 3、Qwen、Mistral、DeepSeek等），不需要联网，不需要API，数据完全在本地处理。

为什么客户需要这个：

律师事务所不愿意把案件文件发给第三方服务器
医院不允许把患者数据上传到公有云
金融机构对数据出境有合规要求
有些企业的内部信息涉及商业机密，不愿意通过云端AI处理

对这些客户，Ollama提供的"完全本地运行"是他们唯一可以接受的AI方案。

硬件要求

Ollama的性能高度依赖于运行设备的GPU。

场景	最低配置	推荐配置
个人轻度使用	8GB内存，无独显	16GB内存，4GB VRAM显卡
团队共享服务器	16GB内存，8GB VRAM	32GB内存，16GB+ VRAM
企业级部署	32GB内存，16GB VRAM	64GB+ 内存，多GPU

注意：如果客户没有独立显卡，Ollama会使用CPU运行，速度很慢。在评估客户需求前，先了解他们的设备情况。

安装步骤

Step 1：安装Ollama

macOS：

# 方法1：官网下载DMG安装包（推荐）
# 访问 https://ollama.com 下载 ollama-darwin.dmg

# 方法2：命令行
curl -fsSL https://ollama.com/install.sh | sh

Windows：

访问 https://ollama.com 下载 OllamaSetup.exe
运行安装包，默认安装即可
安装后，Ollama会作为系统服务在后台运行

Linux：

curl -fsSL https://ollama.com/install.sh | sh

验证安装：

ollama --version

Step 2：下载和运行模型

Ollama通过pull命令下载模型：

# 下载Llama 3.2（轻量快速，适合入门）
ollama pull llama3.2

# 下载Qwen2.5（中文理解能力强，推荐中文客户）
ollama pull qwen2.5

# 下载DeepSeek-R1（推理能力强，适合分析任务）
ollama pull deepseek-r1:7b

运行模型（交互式对话）：

ollama run llama3.2

运行后，在命令行输入文字即可对话。输入 /bye 退出。

Step 3：API接口

Ollama自带一个REST API，默认在 http://localhost:11434 运行。

测试API（在另一个终端窗口）：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "你好，请介绍一下你自己",
  "stream": false
}'

这个API可以被其他应用程序调用，这是后续接入Dify、Open WebUI等上层应用的基础。

Step 4：安装Open WebUI（提供图形界面）

大多数客户不习惯命令行操作，给他们安装一个图形界面更实用。

Open WebUI是一个流行的本地AI对话界面，外观和使用方式类似ChatGPT。

使用Docker安装（需要先安装Docker）：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

安装后，在浏览器访问 http://localhost:3000，就可以用图形界面与本地大模型对话。

不会Docker的简单替代：Ollama Desktop（如果有的话）或者直接用Ollama的命令行界面。

帮客户选择哪个模型

这是你作为"AI安装师"的专业判断价值所在。

模型选择指南：

使用场景	推荐模型	原因
中文日常对话/写作	Qwen2.5-7b/14b	中文理解能力强，阿里出品
代码助手	DeepSeek-Coder / CodeLlama	专门优化代码理解和生成
通用任务	Llama 3.1-8b	综合性能好，英文场景强
复杂分析/推理	DeepSeek-R1 / Qwen2.5-72b	推理能力更强，需要更好硬件

数字含义：模型名后面的数字（7b、13b、70b）表示参数量（十亿）。数字越大，效果越好，但需要更多的内存和显存。

企业局域网部署

如果客户想让整个团队都能用本地大模型，需要在服务器上部署，让局域网内的所有设备都能访问。

步骤概要：

在性能较好的服务器上安装Ollama和Open WebUI
修改Ollama的监听地址，允许局域网访问：

OLLAMA_HOST=0.0.0.0 ollama serve

确认服务器的防火墙允许11434端口
局域网内其他设备通过 http://服务器IP:3000 访问Open WebUI

服务包设计

基础Ollama安装服务：

单机安装 + 1个模型下载 + 命令行使用教程
收费：¥500-800
工时：2-3小时

Ollama + Open WebUI图形界面服务：

安装Ollama + Open WebUI + 配置推荐模型
收费：¥1000-1500
工时：3-4小时

企业局域网部署服务：

服务器安装 + 局域网配置 + 团队培训
收费：¥2500-5000
工时：半天至一天

本章小结

Ollama让大模型在本地运行，是数据安全敏感客户的核心需求。

安装三步：安装Ollama → 下载模型 → 选配Open WebUI图形界面。

你的专业价值：帮客户选对模型，根据他的硬件配置和使用场景给出专业建议，这是"安装师"和"随便找人帮装"的差别。

→ 第4章：私有知识库（RAG）的搭建——让AI"学会"你的内部文档