Appearance
扩展成本量化分析
前面三页讲的是三个阶段:
- 数据与训练
- 后训练
- 推理时扩展
这一页要做的,是把这三段的成本放回一个统一框架里。
先看总账
| 阶段 | 主要在买什么 | 主要成本口径 | 常见量级感 |
|---|---|---|---|
| 数据与训练 | 底座能力上限 | FLOPs、GPU 小时、训练 token、数据工厂 | 最重,常常是 1e23-1e25 FLOPs 或 百万 GPU 小时 级 |
| 后训练 | 产品可交付性 | rollout、teacher、SFT / RL run、评测回归 | 单次通常比预训练轻,但整个项目会持续滚动 |
| 推理时扩展 | 单次任务成功率 | token、工具调用、重试、wall-clock time | 单次最直观,最容易和业务账直接挂钩 |
先把一个前沿模型算一遍:以 DeepSeek 这一代为例
如果只选一条公开信息最完整、又足够新的路线来量化,DeepSeek 这一代最合适:
DeepSeek V3公开了训练 token 和 GPU 小时,适合算离线扩展成本DeepSeek V4 Pro公开了 API 价格、active params 和8× B300上的交互 / 吞吐曲线,适合算在线扩展成本
先把最核心的账放在一张表里:
| 阶段 | 公开口径 | 可以直接折出来的数字 | 这组数真正说明什么 |
|---|---|---|---|
| 数据与训练 | DeepSeek V3:14.8T 预训练 token,2.664M H800 GPU hours 预训练,2.788M H800 GPU hours 全流程训练 | 预训练约等于 每 1T token 需要 18 万 H800 GPU 小时;全流程纯算力账在 $2-4 / GPU 小时 下约是 $5.6M-11.2M | 前沿 open-weight 底座训练已经是标准的千万美元级计算工程 |
| 后训练 | DeepSeek V3:预训练后的后续阶段 约 0.1M GPU hours | 仅纯计算就约 $0.2M-0.4M;按全流程 2.788M 小时算,至少是 约 3.6% 的额外计算量 | 后训练单次不如预训练重,但也绝不是“几乎不要钱” |
| 推理时扩展 | DeepSeek V4 Pro:官方输出价 $0.87 / M;8× B300 在 15-20 t/s 单用户速度区间可做 约 ¥4.13-11.51 / M 的自建输出成本 | 15-17 t/s 且 50%-70% 利用率时,自建才有机会逼近或压住 API;速度继续往上推时,单位 token 成本很快变坏 | 在线成本不是看“能不能跑”,而是看 吞吐 / 速度 / 利用率 三者怎么取舍 |
这就是扩展成本最重要的现实感:
- 训练时扩展,花的是一次性的大项目钱
- 后训练,花的是持续滚动的产品化钱
- 推理时扩展,花的是每个请求都会重复发生的在线钱
1. 数据与训练阶段的量化分析
这一段最像传统意义上的“大炼钢”。
先把 DeepSeek V3 的训练账摊开
DeepSeek V3 官方公开了 3 个特别适合算账的数字:
671B总参数,37B激活参数14.8T预训练 token2.664M H800 GPU hours预训练,2.788M H800 GPU hours全流程训练
先把预训练效率折成一个更容易记的口径:
text
每 1T 预训练 token 所需 GPU 小时
≈ 2.664M / 14.8
≈ 0.18M H800 GPU hours也就是:
每增加 1T token 预算,大致就要再准备 18 万 H800 GPU 小时。
如果只看纯计算租价,不把数据清洗、人力、失败实验和基础设施资本开支算进去,DeepSeek V3 这条线的计算账大致是:
H800 有效单价 | 预训练纯计算成本 | 全流程训练纯计算成本 | 该怎么读 |
|---|---|---|---|
$2 / GPU 小时 | 约 $5.33M | 约 $5.58M | 这是外界最常引用的“$5.6M 级”口径,但它只代表纯算力,不是总成本 |
$3 / GPU 小时 | 约 $7.99M | 约 $8.36M | 单价每上升一档,项目级预算就是几百万美元的变化 |
$4 / GPU 小时 | 约 $10.66M | 约 $11.15M | 对紧缺 GPU 来说,训练预算很快就会越过千万美元 |
这张表最有用的地方,是把“前沿模型训练很贵”这句话变成了可以讨论的工程量级:
- 不是抽象的“很大一笔钱”
- 而是
几百万到上千万美元的纯计算预算 - 还没把数据工厂、系统研发、人力和容灾算进去
集群规模改变的,首先是日历时间
总 GPU 小时不变,但集群规模会决定项目到底要跑多久:
| 并行规模 | 跑完 2.664M H800 GPU hours 预训练约需多久 | 这意味着什么 |
|---|---|---|
2048 张 H800 | 约 54.2 天 | 已经是很重的长期训练作业 |
4096 张 H800 | 约 27.1 天 | 比较像大厂或头部实验室能认真承受的周期 |
8192 张 H800 | 约 13.6 天 | 开始进入“用更多集群换项目节奏”的前沿区间 |
16384 张 H800 | 约 6.8 天 | 日历时间明显压缩,但调度、通信和容灾难度继续上升 |
这也是为什么训练时扩展不只是“多买一点 GPU”:
- 你在买更大的并行规模
- 也在买更短的项目周期
- 同时还在买更高的系统工程复杂度
GPT-3:经典 dense 基线
GPT-3 论文公开了两件关键事:
- 参数量:
175B - 训练数据:
300Btoken
按常见近似式:
text
训练 FLOPs ≈ 6 * N * Dtext
6 * 175B * 300B ≈ 3.15e23 FLOPs这是一个非常好的量级锚点:
1e23 FLOPs以上,已经不是普通实验室级训练- dense 底座模型一旦进到百 B 级,训练就变成重型工业作业
Llama 3:真正贵的是把超大集群长期稳定跑起来
Meta 在 Llama 3 官方介绍里没有直接给现金账单,但给了非常关键的工程信息:
15T+训练 token- 同时训练
16KGPU - 单卡训练利用率
400+ TFLOPS - 两个自建
24K GPU集群 - 有效训练时间
95%+
这说明工业级训练最贵的地方,往往不是“买到卡”,而是:
- 数万卡并行
- 通信与调度
- checkpoint 与容灾
- 高利用率长期稳定运行
DeepSeek V3:公开前沿模型已经是百万 GPU 小时量级
DeepSeek V3 官方给出的口径非常有价值,因为它直接披露了 GPU 小时:
- 预训练:
2.664M H800 GPU hours - 后续训练阶段:
约 0.1M GPU hours - 全流程训练:
2.788M H800 GPU hours
这至少说明两件事:
- 前沿 open-weight 模型已经稳定进入
百万 GPU 小时量级 - 单看预训练还不够,后续阶段依然会继续烧算力
Qwen3:训练 token 规模继续往上走
Qwen3 技术报告虽然没有给 GPU 小时,但给了一个很关键的公开口径:
- 预训练总规模
36Ttoken - 其中
30T+是通用阶段,约 5T是更高质量 reasoning / coding 阶段
这说明 frontier 路线的另一个趋势:
- 不只是继续堆参数
- 而是把更多预算花到更高质量的数据阶段和课程式训练上
2. 后训练阶段的量化分析
后训练最难的地方,是公开精确账单极少。
所以更稳的做法不是硬凑美元数字,而是看它的成本结构。
先用 DeepSeek V3 看一个最具体的下限
DeepSeek V3 的价值就在这里:它至少告诉你,预训练之后的后续阶段并不是零。
- 官方口径是
约 0.1M GPU hours - 如果仍按
$2-4 / H800 GPU 小时粗算,纯计算就是约 $0.2M-0.4M
把它放到全流程 2.788M GPU hours 里看,后续阶段的纯计算量至少是 约 3.6%。
这个占比本身不算夸张,但它很重要,因为它说明:
- 后训练不是最重的单次作业
- 但它已经大到必须被单独记账
- 而且这里还没把 teacher、偏好数据、verifier 和评测系统算进去
先看行业里的粗量级
按业界常见经验,后训练通常有下面几种量级关系:
- 单次
SFTrun 的计算量,常常只是大预训练的一小部分 - 但
rollout + RL + verifier + eval会把这段流程拉长很多 - 如果迭代频繁,后训练整体的总消耗可以达到非常可观的比例
更实用的理解是:
后训练通常不是最重的单次作业,但常常是最滚动、最持续、最像产品工程的一段。
拿 DeepSeek V3 这条线去理解,这句话会更具体:
- 预训练是一次重型集中投入
- 后训练是后面持续追加的产品化成本
- 如果版本迭代很快,后训练的总花费会比单次迭代看起来重得多
后训练真正消耗的,不只是 GPU
它真正烧钱的点,通常在:
- 高质量监督数据
- 偏好数据或 teacher
- RL rollout
- 自动验证器
- benchmark 回归
- 安全与产品评测
公开案例说明了什么
Qwen3 的后训练,已经是:
- cold-start CoT
- RL
- unified fine-tuning
- strong-to-weak distillation
Gemma 3 的后训练,已经是:
- 大 teacher 蒸馏
- RL finetuning
- 对数学、coding、chat、多语言的统一整理
Nemotron 3 Super 的后训练,已经是:
- SFT
- synthetic trajectories
- automatic verification
- asynchronous GRPO
- RLHF
这说明后训练的主要量化特征不是“一个单独数字”,而是:
更多轮次、更贵的数据、更复杂的 rollout 和更重的评测链路。
3. 推理时扩展阶段的量化分析
这一段最容易直接和业务账挂钩。
因为它发生在每一次请求里。
用 DeepSeek V4 Pro 看在线成本分水岭
训练和后训练用 V3 最好算。到了在线服务阶段,DeepSeek V4 Pro 的公开口径反而更完整:
- 官方 API 输出价:
$0.87 / M output tokens - 按这套笔记统一口径折算,约等于
¥6.31 / M output tokens 1.6T总参数,49B激活参数,1M上下文- NVIDIA 公布了它在
8× B300上TPS per User和TPS per GPU的关系曲线
更关键的是,V4 官方还给了一个很直接的系统信号:相对 DeepSeek-V3.2,它把 per-token inference FLOPs 进一步压低了 73%,把 KV cache 压力降了 90%。
这说明模型结构本身就在直接决定推理时扩展成本。
如果按 本地算力账 里同一套 8× B300 口径去读,V4 Pro 在线账最值得看的是下面这 3 档:
| 单用户速度 | 自建输出成本(50% 利用率) | 折成每 100K 输出 token 的成本 | 和官方 API 输出价相比怎么读 |
|---|---|---|---|
15 t/s | 约 ¥4.13-5.86 / M | 约 ¥0.41-0.59 | 还在 API ¥0.63 / 100K 输出 token 以下,偏吞吐优先时自建有空间 |
16.6 t/s | 约 ¥4.80-6.80 / M | 约 ¥0.48-0.68 | 已经贴近 API 分界线,利用率稍差就会反超 |
20 t/s | 约 ¥8.12-11.51 / M | 约 ¥0.81-1.15 | 用户体感更好,但自建输出成本已经明显高于 API |
这张表把推理时扩展最难的一件事说清楚了:
- 提高
单用户 token 速度,用户会更爽 - 但 batch 更难做满,
总吞吐会下滑 - 总吞吐一下滑,固定硬件成本就更难摊薄
- 结果就是速度更高,
单位 token成本反而更差
一个最直观的公式
text
单次任务成本
= 主模型 token
+ 检索 token
+ judge / evaluator token
+ 工具调用费用
+ 外部执行费用
+ 重试成本从轻到重的大致成本台阶
| 形态 | 主要新增成本 | 粗量级感觉 |
|---|---|---|
| 结构化 prompt | 更长输入、更严格输出格式 | 1x 附近 |
| RAG | 检索 + 更长上下文 | 常见是 1.2x-2x |
| tool use | 多轮调用 + 外部执行 | 常见是 2x-5x 起步 |
| judge / retry | 多模型或多轮验证 | 常见是 3x-10x |
| agent loop | 搜索、分支、回滚、重试 | 很容易到 10x+ |
这里最关键的不是某个固定倍率,而是:
- 推理时扩展的成本是按请求持续发生的
- 它不像预训练那样一次性重,但会直接决定毛利和 SLA
- 很多 AI 产品最后真正难控的,反而是这一段
三阶段放在一起看
如果把 DeepSeek V3 / V4 这一代模型的三段账放到一起,最实用的判断是:
- 底座还没到位,先问自己愿不愿意为
百万 GPU 小时级训练买单 - 模型有了但行为不稳,后训练至少也要准备
十万 GPU 小时左右的持续预算感 - 在线业务要继续追体验,就必须接受
吞吐 / 速度 / 利用率会互相拉扯
结论
- 拿
DeepSeek V3来看,前沿 open-weight 底座训练已经是2.788M H800 GPU hours、$5.6M-11.2M纯计算预算这一档 - 后训练不是一句“后面再调一下”就能带过;
0.1M GPU hours量级已经足够形成单独的项目预算 - 拿
DeepSeek V4 Pro来看,推理时扩展的关键不是“能不能部署”,而是15-20 t/s这类交互速度变化会不会把单位 token 成本直接推过 API 分界线 - 真正成熟的成本判断,不能只问“模型有多大”,而要问“钱在训练、后训练、在线推理这三段里分别怎么烧”
参考资料
- Language Models are Few-Shot Learners (GPT-3)
- DeepSeek-V3 Technical Report
- DeepSeek-V3
- DeepSeek V4 Preview Release
- DeepSeek API Docs: Models & Pricing
- NVIDIA: Build with DeepSeek V4 Using NVIDIA Blackwell and GPU-Accelerated Endpoints
- Introducing Meta Llama 3
- Qwen3 Technical Report
- Gemma 3 Technical Report
- NVIDIA Nemotron 3 Super 120B A12B Model Card