第03章:大模型的"装修商"——私有化部署

第03章:大模型的"装修商"——私有化部署

企业不需要你懂AI,他们需要你懂安全感。把模型装进他们的房子,比卖模型本身值钱。


2025年初,一位做企业IT咨询的朋友阿炳接到一个单子,一家有200人的律所,老板开口就问:“你能不能把DeepSeek帮我们搭到公司自己的服务器上?”

阿炳问为什么要自己搭。对方说了一句话让他印象深刻:“客户的合同放进去,我不确定数据跑哪去了。”

这就是私有化部署市场的核心需求。

律所收费¥8000,花了他两天时间。第一笔钱到账时,阿炳意识到,自己几年来做的每一单IT咨询,都没有这两天赚得快。


私有化部署:企业的合理焦虑

在讨论私有化部署之前,先理解企业的焦虑。

当一个企业员工把客户合同丢进公有云的AI服务时,会发生什么?

从法律角度:合同数据离开了企业可控的范围,可能违反与客户的保密协议;可能涉及GDPR(欧洲数据保护法规)或国内数据安全法的合规风险。

从商业角度:竞争对手的信息、内部定价策略、合同条款——这些都是企业的核心资产,没有人敢保证这些数据不会被用来训练模型或泄露。

这种焦虑不是偏执,是合理的商业判断。

数据安全不是技术问题,是信任问题。你的价值,是帮企业把"不信任"变成"不需要担心"。


你需要掌握的核心工具

私有化部署不需要你会训练大模型。你需要的是:把别人训练好的模型,装进企业的服务器里,并且让它能用起来。

三个核心工具链:

工具1:Ollama — 模型的"运行引擎"

Ollama 是一个让你在本地运行大模型的工具,支持几乎所有主流开源模型(DeepSeek、Llama、Qwen等),安装简单,一行命令就能跑起来。

# 安装 Ollama(Linux)
curl -fsSL https://ollama.ai/install.sh | sh

# 下载并运行 DeepSeek-R1 (7B版本,适合8G显存)
ollama run deepseek-r1:7b

# 运行 Qwen2.5 (14B版本,需要16G显存)
ollama run qwen2.5:14b

安装完成后,Ollama会在本地暴露一个API端点(默认是 http://localhost:11434),支持标准的OpenAI格式调用——这意味着任何支持OpenAI的应用,都能直接连接。

工具2:Dify — 大模型的"应用层"

如果Ollama是引擎,Dify就是车厢。Dify 是一个开源的AI应用构建平台,让你用拖拽的方式搭建:

  • 知识库问答(RAG系统):上传公司文档,让AI基于这些文档回答问题
  • 工作流自动化:设计多步骤的AI处理流程
  • 聊天机器人:对接企业内部系统

对于大多数企业客户来说,"私有化AI助手"这个需求,Dify + Ollama 已经能满足90%的场景。

# Docker Compose 部署 Dify
git clone https://github.com/langgenius/dify.git
cd dify/docker
cp .env.example .env
docker-compose up -d

工具3:AnythingLLM — 更轻量的替代

如果客户的需求比较简单(主要是知识库问答),AnythingLLM 是比 Dify 更轻量的选择,部署更简单,适合第一次做私有化部署的新手。


硬件要求:客户需要什么样的服务器

这是客户最常问的问题。

方案一:本地服务器(推荐)

客户最在意的是数据不出门,本地服务器最能满足这个需求。

用户规模 推荐配置 可运行模型 参考硬件成本
≤20人 NVIDIA RTX 3090 (24G显存) 7B-14B ¥8000-15000
20-100人 NVIDIA RTX 4090 (24G显存) 14B-32B ¥12000-18000
100-500人 A100 80G 或 双4090 70B ¥40000+

注:以上是消费级GPU价格,企业级硬件(A100/H100)价格是数倍。通常建议从消费级方案开始,验证业务价值后再升级。

方案二:私有云服务器

如果客户不想买硬件,可以用国内云厂商的GPU云服务,数据在客户自己的云账号里,同样满足合规要求:

  • 阿里云GPU实例(A10显卡):约¥2-5/小时
  • 腾讯云、华为云有类似方案

这种方案的优点是弹性扩展,缺点是长期运营成本高。适合项目初期验证阶段。


一个完整的项目流程

第一步:需求访谈(1-2小时)

关键问题:

  • 主要用途是什么?(文档问答/内容生成/代码辅助/其他)
  • 有多少人并发使用?
  • 有没有合规要求?(有些行业有数据本地化的强制要求)
  • 现有的服务器情况?(自有服务器还是云服务器)

这一步的目的是确定方案,同时建立信任。专业的问题让客户感觉你在认真对待他们的需求,而不是来卖一套固定方案的。

第二步:方案书(半天)

方案书不需要几十页,一份3-5页的PDF即可,包含:

  1. 客户现有痛点和需求确认
  2. 推荐方案(模型选型 + 工具链 + 硬件建议)
  3. 部署实施计划(时间线)
  4. 报价(分项列出)
  5. 后续运维服务选项

报价参考范围

  • 基础部署(Ollama + 单一应用):¥3000-8000
  • 完整部署(Dify + 知识库 + 多应用):¥8000-20000
  • 定制开发(有特殊集成需求):另行报价
  • 月度运维:¥500-2000/月

第三步:部署实施(1-3天)

标准流程:

  1. 服务器环境初始化(安装CUDA、Docker等依赖)
  2. 部署Ollama,下载客户选定的模型
  3. 部署Dify,配置连接Ollama
  4. 导入客户知识库(上传文档,设置分块策略)
  5. 测试验证(给出测试用例,让客户确认效果)
  6. 培训(1-2小时,让关键用户学会基本操作)
  7. 交付文档(部署记录 + 常见问题解答)

第四步:运维跟进

部署完就结束了吗?不,这才是长期收入的来源。

建议提供后续运维服务:

  • 模型更新:每隔几个月,新版本模型出来,帮客户升级
  • 故障响应:服务挂了帮他们快速恢复
  • 知识库维护:帮客户更新文档库
  • 新功能添加:客户用得满意了,会提新需求

一个¥8000的部署项目,如果后续签了¥800/月的运维合同,一年就是¥9600的额外收入——比项目本身还多。


真实案例解析

案例一:律所AI助手(阿炳的项目)

背景:200人律所,主要痛点是合同审查和法律检索耗时,数据合规要求严格

方案

  • 本地服务器:RTX 3090
  • 模型:DeepSeek-R1 14B(适合中文法律文本理解)
  • 应用层:Dify + 知识库RAG
  • 知识库内容:该律所历年合同模板、内部操作规范、常用法律条文

效果验证:合同关键条款审查从2小时缩短到15分钟;律师满意度高,因为可以问"这份合同有没有风险条款"而不是手动逐条检查

收费:部署¥8000,月运维¥1000,首年总收入¥20000

关键学习:法律行业是私有化AI部署的高价值客户,他们的数据合规需求最迫切,愿意付的价格也最高


案例二:制造业文档系统(某工程师的项目)

背景:500人制造企业,技术文档管理混乱,工人查操作规范耗时

方案

  • 混合方案:用云GPU(按需付费)+ 本地Dify部署
  • 模型:Qwen2.5-72B(通用理解能力强)
  • 知识库:设备操作手册、安全规程、故障处理指南

收费:部署¥15000,月运维¥2000

关键学习:制造业知识库内容结构化程度高(有标准手册),RAG效果特别好;工人使用时需要特别设计简单界面,不能让用户看到Dify原生界面


如何找到第一个客户

最有效的方式:从身边已有的信任关系开始。

你现在认识的人里,有没有在中小企业做IT负责人的?有没有做企业服务的朋友?有没有自己开公司的同学?

给他们发一条消息:“我在研究一件事,帮企业把DeepSeek这类AI工具部署到自己的服务器上,你觉得你们公司会有这个需求吗?”

不要一上来就报价,先聊需求。

如果没有直接认识的人,第二个选择是在LinkedIn、脉脉等平台找企业IT职位相关的帖子,在下面评论技术见解,建立你是"私有化AI部署专家"的形象。

从一个行业垂直切入,比什么都做更容易成功。

律所、医疗机构、金融公司——这三个行业的数据合规需求最强,客单价最高,也最容易标准化。


定价谈判的心态

很多人会担心报价太高让客户跑掉。

但注意:对企业来说,¥8000的部署费,只要节省了2-3个员工一周的时间,就已经回本了。

你的定价逻辑不是"我花了多少时间",而是"我给对方创造了多少价值"。一家律所,如果每个律师每周节省2小时,10个律师一周节省¥3000-5000的人力成本,你的¥8000收费相当于几周就回本了。

要学会问这个问题:“您目前处理这类工作,大概每周要花多少时间?”

当客户说出一个数字,你就已经有了谈判的基础。

你卖的不是技术服务,你卖的是ROI(投资回报率)。懂这件事的人,不会和你在价格上纠缠。


避坑:这件事会死在哪里

坑一:效果期望管理

客户往往期望"AI能像人一样理解我们的业务"。现实是,即使是最好的RAG系统,也有回答不准确的时候。在项目开始前就说清楚:AI是辅助工具,不能替代专业判断,是关键免责声明。

坑二:知识库质量

"垃圾进,垃圾出"在RAG系统里尤其明显。客户的文档质量往往比预期差——格式混乱、有大量扫描版PDF、没有目录……

解决方案:在报价时把文档整理费单独列出来,或者教客户自己清理,不然你会花大量时间做文档预处理。

坑三:长期维护被忽视

部署完成后,客户可能半年不联系你,等到服务器故障或模型更新出问题,才紧急找你。

解决方案:主动提供季度检查,每季度发一封邮件/微信:"我帮你检查一下系统状态,顺便看看有没有新版本模型值得升级。"这既是服务,也是你继续存在的理由。


本章小结

本章核心认知

  1. 企业的核心需求是数据安全感,不是AI能力——你卖的是"放心",不是技术
  2. Ollama + Dify 是最实用的工具链,可以覆盖90%的中小企业需求
  3. 运维合同是长期价值的来源——把一次性项目变成持续收入

立刻可以做的一件事:在你的电脑上安装Ollama,跑一下 ollama run qwen2.5:7b,体验一下本地大模型的实际效果。如果你的显卡跑不起来,用CPU模式也能运行,虽然慢但能验证流程。

本章提示词模板

客户询问"适合我们用什么模型"时,用这个思路回答:

作为AI部署顾问,帮我给一家[行业类型]公司推荐本地化部署的大模型选型。
公司规模:[人数]人
主要用途:[文档问答/代码辅助/内容生成]
服务器配置:[显卡型号和显存]

请推荐:
1. 最适合的模型型号和参数量
2. 并发能力估计
3. 效果和速度的权衡说明

→ 下一章:GPU算力租赁——最被动的收入方式,一块显卡也能每月躺收¥1500