第03章:大模型的"装修商"——私有化部署
第03章:大模型的"装修商"——私有化部署
企业不需要你懂AI,他们需要你懂安全感。把模型装进他们的房子,比卖模型本身值钱。
2025年初,一位做企业IT咨询的朋友阿炳接到一个单子,一家有200人的律所,老板开口就问:“你能不能把DeepSeek帮我们搭到公司自己的服务器上?”
阿炳问为什么要自己搭。对方说了一句话让他印象深刻:“客户的合同放进去,我不确定数据跑哪去了。”
这就是私有化部署市场的核心需求。
律所收费¥8000,花了他两天时间。第一笔钱到账时,阿炳意识到,自己几年来做的每一单IT咨询,都没有这两天赚得快。
私有化部署:企业的合理焦虑
在讨论私有化部署之前,先理解企业的焦虑。
当一个企业员工把客户合同丢进公有云的AI服务时,会发生什么?
从法律角度:合同数据离开了企业可控的范围,可能违反与客户的保密协议;可能涉及GDPR(欧洲数据保护法规)或国内数据安全法的合规风险。
从商业角度:竞争对手的信息、内部定价策略、合同条款——这些都是企业的核心资产,没有人敢保证这些数据不会被用来训练模型或泄露。
这种焦虑不是偏执,是合理的商业判断。
数据安全不是技术问题,是信任问题。你的价值,是帮企业把"不信任"变成"不需要担心"。
你需要掌握的核心工具
私有化部署不需要你会训练大模型。你需要的是:把别人训练好的模型,装进企业的服务器里,并且让它能用起来。
三个核心工具链:
工具1:Ollama — 模型的"运行引擎"
Ollama 是一个让你在本地运行大模型的工具,支持几乎所有主流开源模型(DeepSeek、Llama、Qwen等),安装简单,一行命令就能跑起来。
# 安装 Ollama(Linux)
curl -fsSL https://ollama.ai/install.sh | sh
# 下载并运行 DeepSeek-R1 (7B版本,适合8G显存)
ollama run deepseek-r1:7b
# 运行 Qwen2.5 (14B版本,需要16G显存)
ollama run qwen2.5:14b
安装完成后,Ollama会在本地暴露一个API端点(默认是 http://localhost:11434),支持标准的OpenAI格式调用——这意味着任何支持OpenAI的应用,都能直接连接。
工具2:Dify — 大模型的"应用层"
如果Ollama是引擎,Dify就是车厢。Dify 是一个开源的AI应用构建平台,让你用拖拽的方式搭建:
- 知识库问答(RAG系统):上传公司文档,让AI基于这些文档回答问题
- 工作流自动化:设计多步骤的AI处理流程
- 聊天机器人:对接企业内部系统
对于大多数企业客户来说,"私有化AI助手"这个需求,Dify + Ollama 已经能满足90%的场景。
# Docker Compose 部署 Dify
git clone https://github.com/langgenius/dify.git
cd dify/docker
cp .env.example .env
docker-compose up -d
工具3:AnythingLLM — 更轻量的替代
如果客户的需求比较简单(主要是知识库问答),AnythingLLM 是比 Dify 更轻量的选择,部署更简单,适合第一次做私有化部署的新手。
硬件要求:客户需要什么样的服务器
这是客户最常问的问题。
方案一:本地服务器(推荐)
客户最在意的是数据不出门,本地服务器最能满足这个需求。
| 用户规模 | 推荐配置 | 可运行模型 | 参考硬件成本 |
|---|---|---|---|
| ≤20人 | NVIDIA RTX 3090 (24G显存) | 7B-14B | ¥8000-15000 |
| 20-100人 | NVIDIA RTX 4090 (24G显存) | 14B-32B | ¥12000-18000 |
| 100-500人 | A100 80G 或 双4090 | 70B | ¥40000+ |
注:以上是消费级GPU价格,企业级硬件(A100/H100)价格是数倍。通常建议从消费级方案开始,验证业务价值后再升级。
方案二:私有云服务器
如果客户不想买硬件,可以用国内云厂商的GPU云服务,数据在客户自己的云账号里,同样满足合规要求:
- 阿里云GPU实例(A10显卡):约¥2-5/小时
- 腾讯云、华为云有类似方案
这种方案的优点是弹性扩展,缺点是长期运营成本高。适合项目初期验证阶段。
一个完整的项目流程
第一步:需求访谈(1-2小时)
关键问题:
- 主要用途是什么?(文档问答/内容生成/代码辅助/其他)
- 有多少人并发使用?
- 有没有合规要求?(有些行业有数据本地化的强制要求)
- 现有的服务器情况?(自有服务器还是云服务器)
这一步的目的是确定方案,同时建立信任。专业的问题让客户感觉你在认真对待他们的需求,而不是来卖一套固定方案的。
第二步:方案书(半天)
方案书不需要几十页,一份3-5页的PDF即可,包含:
- 客户现有痛点和需求确认
- 推荐方案(模型选型 + 工具链 + 硬件建议)
- 部署实施计划(时间线)
- 报价(分项列出)
- 后续运维服务选项
报价参考范围:
- 基础部署(Ollama + 单一应用):¥3000-8000
- 完整部署(Dify + 知识库 + 多应用):¥8000-20000
- 定制开发(有特殊集成需求):另行报价
- 月度运维:¥500-2000/月
第三步:部署实施(1-3天)
标准流程:
- 服务器环境初始化(安装CUDA、Docker等依赖)
- 部署Ollama,下载客户选定的模型
- 部署Dify,配置连接Ollama
- 导入客户知识库(上传文档,设置分块策略)
- 测试验证(给出测试用例,让客户确认效果)
- 培训(1-2小时,让关键用户学会基本操作)
- 交付文档(部署记录 + 常见问题解答)
第四步:运维跟进
部署完就结束了吗?不,这才是长期收入的来源。
建议提供后续运维服务:
- 模型更新:每隔几个月,新版本模型出来,帮客户升级
- 故障响应:服务挂了帮他们快速恢复
- 知识库维护:帮客户更新文档库
- 新功能添加:客户用得满意了,会提新需求
一个¥8000的部署项目,如果后续签了¥800/月的运维合同,一年就是¥9600的额外收入——比项目本身还多。
真实案例解析
案例一:律所AI助手(阿炳的项目)
背景:200人律所,主要痛点是合同审查和法律检索耗时,数据合规要求严格
方案:
- 本地服务器:RTX 3090
- 模型:DeepSeek-R1 14B(适合中文法律文本理解)
- 应用层:Dify + 知识库RAG
- 知识库内容:该律所历年合同模板、内部操作规范、常用法律条文
效果验证:合同关键条款审查从2小时缩短到15分钟;律师满意度高,因为可以问"这份合同有没有风险条款"而不是手动逐条检查
收费:部署¥8000,月运维¥1000,首年总收入¥20000
关键学习:法律行业是私有化AI部署的高价值客户,他们的数据合规需求最迫切,愿意付的价格也最高
案例二:制造业文档系统(某工程师的项目)
背景:500人制造企业,技术文档管理混乱,工人查操作规范耗时
方案:
- 混合方案:用云GPU(按需付费)+ 本地Dify部署
- 模型:Qwen2.5-72B(通用理解能力强)
- 知识库:设备操作手册、安全规程、故障处理指南
收费:部署¥15000,月运维¥2000
关键学习:制造业知识库内容结构化程度高(有标准手册),RAG效果特别好;工人使用时需要特别设计简单界面,不能让用户看到Dify原生界面
如何找到第一个客户
最有效的方式:从身边已有的信任关系开始。
你现在认识的人里,有没有在中小企业做IT负责人的?有没有做企业服务的朋友?有没有自己开公司的同学?
给他们发一条消息:“我在研究一件事,帮企业把DeepSeek这类AI工具部署到自己的服务器上,你觉得你们公司会有这个需求吗?”
不要一上来就报价,先聊需求。
如果没有直接认识的人,第二个选择是在LinkedIn、脉脉等平台找企业IT职位相关的帖子,在下面评论技术见解,建立你是"私有化AI部署专家"的形象。
从一个行业垂直切入,比什么都做更容易成功。
律所、医疗机构、金融公司——这三个行业的数据合规需求最强,客单价最高,也最容易标准化。
定价谈判的心态
很多人会担心报价太高让客户跑掉。
但注意:对企业来说,¥8000的部署费,只要节省了2-3个员工一周的时间,就已经回本了。
你的定价逻辑不是"我花了多少时间",而是"我给对方创造了多少价值"。一家律所,如果每个律师每周节省2小时,10个律师一周节省¥3000-5000的人力成本,你的¥8000收费相当于几周就回本了。
要学会问这个问题:“您目前处理这类工作,大概每周要花多少时间?”
当客户说出一个数字,你就已经有了谈判的基础。
你卖的不是技术服务,你卖的是ROI(投资回报率)。懂这件事的人,不会和你在价格上纠缠。
避坑:这件事会死在哪里
坑一:效果期望管理
客户往往期望"AI能像人一样理解我们的业务"。现实是,即使是最好的RAG系统,也有回答不准确的时候。在项目开始前就说清楚:AI是辅助工具,不能替代专业判断,是关键免责声明。
坑二:知识库质量
"垃圾进,垃圾出"在RAG系统里尤其明显。客户的文档质量往往比预期差——格式混乱、有大量扫描版PDF、没有目录……
解决方案:在报价时把文档整理费单独列出来,或者教客户自己清理,不然你会花大量时间做文档预处理。
坑三:长期维护被忽视
部署完成后,客户可能半年不联系你,等到服务器故障或模型更新出问题,才紧急找你。
解决方案:主动提供季度检查,每季度发一封邮件/微信:"我帮你检查一下系统状态,顺便看看有没有新版本模型值得升级。"这既是服务,也是你继续存在的理由。
本章小结
本章核心认知:
- 企业的核心需求是数据安全感,不是AI能力——你卖的是"放心",不是技术
- Ollama + Dify 是最实用的工具链,可以覆盖90%的中小企业需求
- 运维合同是长期价值的来源——把一次性项目变成持续收入
立刻可以做的一件事:在你的电脑上安装Ollama,跑一下 ollama run qwen2.5:7b,体验一下本地大模型的实际效果。如果你的显卡跑不起来,用CPU模式也能运行,虽然慢但能验证流程。
本章提示词模板
客户询问"适合我们用什么模型"时,用这个思路回答:
作为AI部署顾问,帮我给一家[行业类型]公司推荐本地化部署的大模型选型。
公司规模:[人数]人
主要用途:[文档问答/代码辅助/内容生成]
服务器配置:[显卡型号和显存]
请推荐:
1. 最适合的模型型号和参数量
2. 并发能力估计
3. 效果和速度的权衡说明
→ 下一章:GPU算力租赁——最被动的收入方式,一块显卡也能每月躺收¥1500