第03章:Ollama本地大模型部署

第03章:Ollama本地大模型部署

本地大模型的核心价值,不是免费,是数据不出门。对律师、医生、金融机构来说,这是比功能更重要的特性。


Ollama是目前最流行的本地大模型运行工具。

它的功能:让你在自己的电脑上运行开源大语言模型(Llama 3、Qwen、Mistral、DeepSeek等),不需要联网,不需要API,数据完全在本地处理。

为什么客户需要这个

  • 律师事务所不愿意把案件文件发给第三方服务器
  • 医院不允许把患者数据上传到公有云
  • 金融机构对数据出境有合规要求
  • 有些企业的内部信息涉及商业机密,不愿意通过云端AI处理

对这些客户,Ollama提供的"完全本地运行"是他们唯一可以接受的AI方案。


硬件要求

Ollama的性能高度依赖于运行设备的GPU。

场景 最低配置 推荐配置
个人轻度使用 8GB内存,无独显 16GB内存,4GB VRAM显卡
团队共享服务器 16GB内存,8GB VRAM 32GB内存,16GB+ VRAM
企业级部署 32GB内存,16GB VRAM 64GB+ 内存,多GPU

注意:如果客户没有独立显卡,Ollama会使用CPU运行,速度很慢。在评估客户需求前,先了解他们的设备情况。


安装步骤

Step 1:安装Ollama

macOS

# 方法1:官网下载DMG安装包(推荐)
# 访问 https://ollama.com 下载 ollama-darwin.dmg

# 方法2:命令行
curl -fsSL https://ollama.com/install.sh | sh

Windows

  • 访问 https://ollama.com 下载 OllamaSetup.exe
  • 运行安装包,默认安装即可
  • 安装后,Ollama会作为系统服务在后台运行

Linux

curl -fsSL https://ollama.com/install.sh | sh

验证安装:

ollama --version

Step 2:下载和运行模型

Ollama通过pull命令下载模型:

# 下载Llama 3.2(轻量快速,适合入门)
ollama pull llama3.2

# 下载Qwen2.5(中文理解能力强,推荐中文客户)
ollama pull qwen2.5

# 下载DeepSeek-R1(推理能力强,适合分析任务)
ollama pull deepseek-r1:7b

运行模型(交互式对话):

ollama run llama3.2

运行后,在命令行输入文字即可对话。输入 /bye 退出。


Step 3:API接口

Ollama自带一个REST API,默认在 http://localhost:11434 运行。

测试API(在另一个终端窗口):

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "你好,请介绍一下你自己",
  "stream": false
}'

这个API可以被其他应用程序调用,这是后续接入Dify、Open WebUI等上层应用的基础。


Step 4:安装Open WebUI(提供图形界面)

大多数客户不习惯命令行操作,给他们安装一个图形界面更实用。

Open WebUI是一个流行的本地AI对话界面,外观和使用方式类似ChatGPT。

使用Docker安装(需要先安装Docker):

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

安装后,在浏览器访问 http://localhost:3000,就可以用图形界面与本地大模型对话。

不会Docker的简单替代:Ollama Desktop(如果有的话)或者直接用Ollama的命令行界面。


帮客户选择哪个模型

这是你作为"AI安装师"的专业判断价值所在。

模型选择指南

使用场景 推荐模型 原因
中文日常对话/写作 Qwen2.5-7b/14b 中文理解能力强,阿里出品
代码助手 DeepSeek-Coder / CodeLlama 专门优化代码理解和生成
通用任务 Llama 3.1-8b 综合性能好,英文场景强
复杂分析/推理 DeepSeek-R1 / Qwen2.5-72b 推理能力更强,需要更好硬件

数字含义:模型名后面的数字(7b、13b、70b)表示参数量(十亿)。数字越大,效果越好,但需要更多的内存和显存。


企业局域网部署

如果客户想让整个团队都能用本地大模型,需要在服务器上部署,让局域网内的所有设备都能访问。

步骤概要

  1. 在性能较好的服务器上安装Ollama和Open WebUI
  2. 修改Ollama的监听地址,允许局域网访问:
OLLAMA_HOST=0.0.0.0 ollama serve
  1. 确认服务器的防火墙允许11434端口
  2. 局域网内其他设备通过 http://服务器IP:3000 访问Open WebUI

服务包设计

基础Ollama安装服务

  • 单机安装 + 1个模型下载 + 命令行使用教程
  • 收费:¥500-800
  • 工时:2-3小时

Ollama + Open WebUI图形界面服务

  • 安装Ollama + Open WebUI + 配置推荐模型
  • 收费:¥1000-1500
  • 工时:3-4小时

企业局域网部署服务

  • 服务器安装 + 局域网配置 + 团队培训
  • 收费:¥2500-5000
  • 工时:半天至一天

本章小结

Ollama让大模型在本地运行,是数据安全敏感客户的核心需求。

安装三步:安装Ollama → 下载模型 → 选配Open WebUI图形界面。

你的专业价值:帮客户选对模型,根据他的硬件配置和使用场景给出专业建议,这是"安装师"和"随便找人帮装"的差别。


→ 第4章:私有知识库(RAG)的搭建——让AI"学会"你的内部文档