第03章：大模型的"装修商"——私有化部署

企业不需要你懂AI，他们需要你懂安全感。把模型装进他们的房子，比卖模型本身值钱。

2025年初，一位做企业IT咨询的朋友阿炳接到一个单子，一家有200人的律所，老板开口就问：“你能不能把DeepSeek帮我们搭到公司自己的服务器上？”

阿炳问为什么要自己搭。对方说了一句话让他印象深刻：“客户的合同放进去，我不确定数据跑哪去了。”

这就是私有化部署市场的核心需求。

律所收费¥8000，花了他两天时间。第一笔钱到账时，阿炳意识到，自己几年来做的每一单IT咨询，都没有这两天赚得快。

私有化部署：企业的合理焦虑

在讨论私有化部署之前，先理解企业的焦虑。

当一个企业员工把客户合同丢进公有云的AI服务时，会发生什么？

从法律角度：合同数据离开了企业可控的范围，可能违反与客户的保密协议；可能涉及GDPR（欧洲数据保护法规）或国内数据安全法的合规风险。

从商业角度：竞争对手的信息、内部定价策略、合同条款——这些都是企业的核心资产，没有人敢保证这些数据不会被用来训练模型或泄露。

这种焦虑不是偏执，是合理的商业判断。

数据安全不是技术问题，是信任问题。你的价值，是帮企业把"不信任"变成"不需要担心"。

你需要掌握的核心工具

私有化部署不需要你会训练大模型。你需要的是：把别人训练好的模型，装进企业的服务器里，并且让它能用起来。

三个核心工具链：

工具1：Ollama — 模型的"运行引擎"

Ollama 是一个让你在本地运行大模型的工具，支持几乎所有主流开源模型（DeepSeek、Llama、Qwen等），安装简单，一行命令就能跑起来。

# 安装 Ollama（Linux）
curl -fsSL https://ollama.ai/install.sh | sh

# 下载并运行 DeepSeek-R1 (7B版本，适合8G显存)
ollama run deepseek-r1:7b

# 运行 Qwen2.5 (14B版本，需要16G显存)
ollama run qwen2.5:14b

安装完成后，Ollama会在本地暴露一个API端点（默认是 http://localhost:11434），支持标准的OpenAI格式调用——这意味着任何支持OpenAI的应用，都能直接连接。

工具2：Dify — 大模型的"应用层"

如果Ollama是引擎，Dify就是车厢。Dify 是一个开源的AI应用构建平台，让你用拖拽的方式搭建：

知识库问答（RAG系统）：上传公司文档，让AI基于这些文档回答问题
工作流自动化：设计多步骤的AI处理流程
聊天机器人：对接企业内部系统

对于大多数企业客户来说，"私有化AI助手"这个需求，Dify + Ollama 已经能满足90%的场景。

# Docker Compose 部署 Dify
git clone https://github.com/langgenius/dify.git
cd dify/docker
cp .env.example .env
docker-compose up -d

工具3：AnythingLLM — 更轻量的替代

如果客户的需求比较简单（主要是知识库问答），AnythingLLM 是比 Dify 更轻量的选择，部署更简单，适合第一次做私有化部署的新手。

硬件要求：客户需要什么样的服务器

这是客户最常问的问题。

方案一：本地服务器（推荐）

客户最在意的是数据不出门，本地服务器最能满足这个需求。

用户规模	推荐配置	可运行模型	参考硬件成本
≤20人	NVIDIA RTX 3090 (24G显存)	7B-14B	¥8000-15000
20-100人	NVIDIA RTX 4090 (24G显存)	14B-32B	¥12000-18000
100-500人	A100 80G 或双4090	70B	¥40000+

注：以上是消费级GPU价格，企业级硬件（A100/H100）价格是数倍。通常建议从消费级方案开始，验证业务价值后再升级。

方案二：私有云服务器

如果客户不想买硬件，可以用国内云厂商的GPU云服务，数据在客户自己的云账号里，同样满足合规要求：

阿里云GPU实例（A10显卡）：约¥2-5/小时
腾讯云、华为云有类似方案

这种方案的优点是弹性扩展，缺点是长期运营成本高。适合项目初期验证阶段。

一个完整的项目流程

第一步：需求访谈（1-2小时）

关键问题：

主要用途是什么？（文档问答/内容生成/代码辅助/其他）
有多少人并发使用？
有没有合规要求？（有些行业有数据本地化的强制要求）
现有的服务器情况？（自有服务器还是云服务器）

这一步的目的是确定方案，同时建立信任。专业的问题让客户感觉你在认真对待他们的需求，而不是来卖一套固定方案的。

第二步：方案书（半天）

方案书不需要几十页，一份3-5页的PDF即可，包含：

客户现有痛点和需求确认
推荐方案（模型选型 + 工具链 + 硬件建议）
部署实施计划（时间线）
报价（分项列出）
后续运维服务选项

报价参考范围：

基础部署（Ollama + 单一应用）：¥3000-8000
完整部署（Dify + 知识库 + 多应用）：¥8000-20000
定制开发（有特殊集成需求）：另行报价
月度运维：¥500-2000/月

第三步：部署实施（1-3天）

标准流程：

服务器环境初始化（安装CUDA、Docker等依赖）
部署Ollama，下载客户选定的模型
部署Dify，配置连接Ollama
导入客户知识库（上传文档，设置分块策略）
测试验证（给出测试用例，让客户确认效果）
培训（1-2小时，让关键用户学会基本操作）
交付文档（部署记录 + 常见问题解答）

第四步：运维跟进

部署完就结束了吗？不，这才是长期收入的来源。

建议提供后续运维服务：

模型更新：每隔几个月，新版本模型出来，帮客户升级
故障响应：服务挂了帮他们快速恢复
知识库维护：帮客户更新文档库
新功能添加：客户用得满意了，会提新需求

一个¥8000的部署项目，如果后续签了¥800/月的运维合同，一年就是¥9600的额外收入——比项目本身还多。

真实案例解析

案例一：律所AI助手（阿炳的项目）

背景：200人律所，主要痛点是合同审查和法律检索耗时，数据合规要求严格

方案：

本地服务器：RTX 3090
模型：DeepSeek-R1 14B（适合中文法律文本理解）
应用层：Dify + 知识库RAG
知识库内容：该律所历年合同模板、内部操作规范、常用法律条文

效果验证：合同关键条款审查从2小时缩短到15分钟；律师满意度高，因为可以问"这份合同有没有风险条款"而不是手动逐条检查

收费：部署¥8000，月运维¥1000，首年总收入¥20000

关键学习：法律行业是私有化AI部署的高价值客户，他们的数据合规需求最迫切，愿意付的价格也最高

案例二：制造业文档系统（某工程师的项目）

背景：500人制造企业，技术文档管理混乱，工人查操作规范耗时

方案：

混合方案：用云GPU（按需付费）+ 本地Dify部署
模型：Qwen2.5-72B（通用理解能力强）
知识库：设备操作手册、安全规程、故障处理指南

收费：部署¥15000，月运维¥2000

关键学习：制造业知识库内容结构化程度高（有标准手册），RAG效果特别好；工人使用时需要特别设计简单界面，不能让用户看到Dify原生界面

如何找到第一个客户

最有效的方式：从身边已有的信任关系开始。

你现在认识的人里，有没有在中小企业做IT负责人的？有没有做企业服务的朋友？有没有自己开公司的同学？

给他们发一条消息：“我在研究一件事，帮企业把DeepSeek这类AI工具部署到自己的服务器上，你觉得你们公司会有这个需求吗？”

不要一上来就报价，先聊需求。

如果没有直接认识的人，第二个选择是在LinkedIn、脉脉等平台找企业IT职位相关的帖子，在下面评论技术见解，建立你是"私有化AI部署专家"的形象。

从一个行业垂直切入，比什么都做更容易成功。

律所、医疗机构、金融公司——这三个行业的数据合规需求最强，客单价最高，也最容易标准化。

定价谈判的心态

很多人会担心报价太高让客户跑掉。

但注意：对企业来说，¥8000的部署费，只要节省了2-3个员工一周的时间，就已经回本了。

你的定价逻辑不是"我花了多少时间"，而是"我给对方创造了多少价值"。一家律所，如果每个律师每周节省2小时，10个律师一周节省¥3000-5000的人力成本，你的¥8000收费相当于几周就回本了。

要学会问这个问题：“您目前处理这类工作，大概每周要花多少时间？”

当客户说出一个数字，你就已经有了谈判的基础。

你卖的不是技术服务，你卖的是ROI（投资回报率）。懂这件事的人，不会和你在价格上纠缠。

避坑：这件事会死在哪里

坑一：效果期望管理

客户往往期望"AI能像人一样理解我们的业务"。现实是，即使是最好的RAG系统，也有回答不准确的时候。在项目开始前就说清楚：AI是辅助工具，不能替代专业判断，是关键免责声明。

坑二：知识库质量

"垃圾进，垃圾出"在RAG系统里尤其明显。客户的文档质量往往比预期差——格式混乱、有大量扫描版PDF、没有目录……

解决方案：在报价时把文档整理费单独列出来，或者教客户自己清理，不然你会花大量时间做文档预处理。

坑三：长期维护被忽视

部署完成后，客户可能半年不联系你，等到服务器故障或模型更新出问题，才紧急找你。

解决方案：主动提供季度检查，每季度发一封邮件/微信："我帮你检查一下系统状态，顺便看看有没有新版本模型值得升级。"这既是服务，也是你继续存在的理由。

本章小结

本章核心认知：

企业的核心需求是数据安全感，不是AI能力——你卖的是"放心"，不是技术
Ollama + Dify 是最实用的工具链，可以覆盖90%的中小企业需求
运维合同是长期价值的来源——把一次性项目变成持续收入

立刻可以做的一件事：在你的电脑上安装Ollama，跑一下 ollama run qwen2.5:7b，体验一下本地大模型的实际效果。如果你的显卡跑不起来，用CPU模式也能运行，虽然慢但能验证流程。

本章提示词模板

客户询问"适合我们用什么模型"时，用这个思路回答：

作为AI部署顾问，帮我给一家[行业类型]公司推荐本地化部署的大模型选型。
公司规模：[人数]人
主要用途：[文档问答/代码辅助/内容生成]
服务器配置：[显卡型号和显存]

请推荐：
1. 最适合的模型型号和参数量
2. 并发能力估计
3. 效果和速度的权衡说明

→ 下一章：GPU算力租赁——最被动的收入方式，一块显卡也能每月躺收¥1500