扩展成本量化分析

前面三页讲的是三个阶段：

数据与训练
后训练
推理时扩展

这一页要做的，是把这三段的成本放回一个统一框架里。

先看总账

阶段	主要在买什么	主要成本口径	常见量级感
数据与训练	底座能力上限	FLOPs、GPU 小时、训练 token、数据工厂	最重，常常是 `1e23-1e25 FLOPs` 或 `百万 GPU 小时` 级
后训练	产品可交付性	rollout、teacher、SFT / RL run、评测回归	单次通常比预训练轻，但整个项目会持续滚动
推理时扩展	单次任务成功率	token、工具调用、重试、wall-clock time	单次最直观，最容易和业务账直接挂钩

先把一个前沿模型算一遍：以 DeepSeek 这一代为例

如果只选一条公开信息最完整、又足够新的路线来量化，DeepSeek 这一代最合适：

DeepSeek V3 公开了训练 token 和 GPU 小时，适合算离线扩展成本
DeepSeek V4 Pro 公开了 API 价格、active params 和 8× B300 上的交互 / 吞吐曲线，适合算在线扩展成本

先把最核心的账放在一张表里：

阶段	公开口径	可以直接折出来的数字	这组数真正说明什么
数据与训练	`DeepSeek V3`：`14.8T` 预训练 token，`2.664M H800 GPU hours` 预训练，`2.788M H800 GPU hours` 全流程训练	预训练约等于 `每 1T token 需要 18 万 H800 GPU 小时`；全流程纯算力账在 `$2-4 / GPU 小时` 下约是 `$5.6M-11.2M`	前沿 open-weight 底座训练已经是标准的千万美元级计算工程
后训练	`DeepSeek V3`：预训练后的后续阶段 `约 0.1M GPU hours`	仅纯计算就约 `$0.2M-0.4M`；按全流程 `2.788M` 小时算，至少是 `约 3.6%` 的额外计算量	后训练单次不如预训练重，但也绝不是“几乎不要钱”
推理时扩展	`DeepSeek V4 Pro`：官方输出价 `$0.87 / M`；`8× B300` 在 `15-20 t/s` 单用户速度区间可做 `约 ¥4.13-11.51 / M` 的自建输出成本	`15-17 t/s` 且 `50%-70%` 利用率时，自建才有机会逼近或压住 API；速度继续往上推时，单位 token 成本很快变坏	在线成本不是看“能不能跑”，而是看 `吞吐 / 速度 / 利用率` 三者怎么取舍

这就是扩展成本最重要的现实感：

训练时扩展，花的是一次性的大项目钱
后训练，花的是持续滚动的产品化钱
推理时扩展，花的是每个请求都会重复发生的在线钱

1. 数据与训练阶段的量化分析

这一段最像传统意义上的“大炼钢”。

先把 DeepSeek V3 的训练账摊开

DeepSeek V3 官方公开了 3 个特别适合算账的数字：

671B 总参数，37B 激活参数
14.8T 预训练 token
2.664M H800 GPU hours 预训练，2.788M H800 GPU hours 全流程训练

先把预训练效率折成一个更容易记的口径：

text

每 1T 预训练 token 所需 GPU 小时
≈ 2.664M / 14.8
≈ 0.18M H800 GPU hours

也就是：

每增加 1T token 预算，大致就要再准备 18 万 H800 GPU 小时。

如果只看纯计算租价，不把数据清洗、人力、失败实验和基础设施资本开支算进去，DeepSeek V3 这条线的计算账大致是：

`H800` 有效单价	预训练纯计算成本	全流程训练纯计算成本	该怎么读
`$2 / GPU 小时`	`约 $5.33M`	`约 $5.58M`	这是外界最常引用的“`$5.6M` 级”口径，但它只代表纯算力，不是总成本
`$3 / GPU 小时`	`约 $7.99M`	`约 $8.36M`	单价每上升一档，项目级预算就是几百万美元的变化
`$4 / GPU 小时`	`约 $10.66M`	`约 $11.15M`	对紧缺 GPU 来说，训练预算很快就会越过千万美元

这张表最有用的地方，是把“前沿模型训练很贵”这句话变成了可以讨论的工程量级：

不是抽象的“很大一笔钱”
而是 几百万到上千万美元 的纯计算预算
还没把数据工厂、系统研发、人力和容灾算进去

集群规模改变的，首先是日历时间

总 GPU 小时不变，但集群规模会决定项目到底要跑多久：

并行规模	跑完 `2.664M H800 GPU hours` 预训练约需多久	这意味着什么
`2048` 张 `H800`	`约 54.2 天`	已经是很重的长期训练作业
`4096` 张 `H800`	`约 27.1 天`	比较像大厂或头部实验室能认真承受的周期
`8192` 张 `H800`	`约 13.6 天`	开始进入“用更多集群换项目节奏”的前沿区间
`16384` 张 `H800`	`约 6.8 天`	日历时间明显压缩，但调度、通信和容灾难度继续上升

这也是为什么训练时扩展不只是“多买一点 GPU”：

你在买更大的并行规模
也在买更短的项目周期
同时还在买更高的系统工程复杂度

GPT-3：经典 dense 基线

GPT-3 论文公开了两件关键事：

参数量：175B
训练数据：300B token

按常见近似式：

text

训练 FLOPs ≈ 6 * N * D

text

6 * 175B * 300B ≈ 3.15e23 FLOPs

这是一个非常好的量级锚点：

1e23 FLOPs 以上，已经不是普通实验室级训练
dense 底座模型一旦进到百 B 级，训练就变成重型工业作业

Llama 3：真正贵的是把超大集群长期稳定跑起来

Meta 在 Llama 3 官方介绍里没有直接给现金账单，但给了非常关键的工程信息：

15T+ 训练 token
同时训练 16K GPU
单卡训练利用率 400+ TFLOPS
两个自建 24K GPU 集群
有效训练时间 95%+

这说明工业级训练最贵的地方，往往不是“买到卡”，而是：

数万卡并行
通信与调度
checkpoint 与容灾
高利用率长期稳定运行

DeepSeek V3：公开前沿模型已经是百万 GPU 小时量级

DeepSeek V3 官方给出的口径非常有价值，因为它直接披露了 GPU 小时：

预训练：2.664M H800 GPU hours
后续训练阶段：约 0.1M GPU hours
全流程训练：2.788M H800 GPU hours

这至少说明两件事：

前沿 open-weight 模型已经稳定进入 百万 GPU 小时 量级
单看预训练还不够，后续阶段依然会继续烧算力

Qwen3：训练 token 规模继续往上走

Qwen3 技术报告虽然没有给 GPU 小时，但给了一个很关键的公开口径：

预训练总规模 36T token
其中 30T+ 是通用阶段，约 5T 是更高质量 reasoning / coding 阶段

这说明 frontier 路线的另一个趋势：

不只是继续堆参数
而是把更多预算花到更高质量的数据阶段和课程式训练上

2. 后训练阶段的量化分析

后训练最难的地方，是公开精确账单极少。
所以更稳的做法不是硬凑美元数字，而是看它的成本结构。

先用 DeepSeek V3 看一个最具体的下限

DeepSeek V3 的价值就在这里：它至少告诉你，预训练之后的后续阶段并不是零。

官方口径是 约 0.1M GPU hours
如果仍按 $2-4 / H800 GPU 小时 粗算，纯计算就是 约 $0.2M-0.4M

把它放到全流程 2.788M GPU hours 里看，后续阶段的纯计算量至少是 约 3.6%。
这个占比本身不算夸张，但它很重要，因为它说明：

后训练不是最重的单次作业
但它已经大到必须被单独记账
而且这里还没把 teacher、偏好数据、verifier 和评测系统算进去

先看行业里的粗量级

按业界常见经验，后训练通常有下面几种量级关系：

单次 SFT run 的计算量，常常只是大预训练的一小部分
但 rollout + RL + verifier + eval 会把这段流程拉长很多
如果迭代频繁，后训练整体的总消耗可以达到非常可观的比例

更实用的理解是：

后训练通常不是最重的单次作业，但常常是最滚动、最持续、最像产品工程的一段。

拿 DeepSeek V3 这条线去理解，这句话会更具体：

预训练是一次重型集中投入
后训练是后面持续追加的产品化成本
如果版本迭代很快，后训练的总花费会比单次迭代看起来重得多

后训练真正消耗的，不只是 GPU

它真正烧钱的点，通常在：

高质量监督数据
偏好数据或 teacher
RL rollout
自动验证器
benchmark 回归
安全与产品评测

公开案例说明了什么

Qwen3 的后训练，已经是：

cold-start CoT
RL
unified fine-tuning
strong-to-weak distillation

Gemma 3 的后训练，已经是：

大 teacher 蒸馏
RL finetuning
对数学、coding、chat、多语言的统一整理

Nemotron 3 Super 的后训练，已经是：

SFT
synthetic trajectories
automatic verification
asynchronous GRPO
RLHF

这说明后训练的主要量化特征不是“一个单独数字”，而是：

更多轮次、更贵的数据、更复杂的 rollout 和更重的评测链路。

3. 推理时扩展阶段的量化分析

这一段最容易直接和业务账挂钩。

因为它发生在每一次请求里。

用 DeepSeek V4 Pro 看在线成本分水岭

训练和后训练用 V3 最好算。到了在线服务阶段，DeepSeek V4 Pro 的公开口径反而更完整：

官方 API 输出价：$0.87 / M output tokens
按这套笔记统一口径折算，约等于 ¥6.31 / M output tokens
1.6T 总参数，49B 激活参数，1M 上下文
NVIDIA 公布了它在 8× B300 上 TPS per User 和 TPS per GPU 的关系曲线

更关键的是，V4 官方还给了一个很直接的系统信号：相对 DeepSeek-V3.2，它把 per-token inference FLOPs 进一步压低了 73%，把 KV cache 压力降了 90%。
这说明模型结构本身就在直接决定推理时扩展成本。

如果按本地算力账里同一套 8× B300 口径去读，V4 Pro 在线账最值得看的是下面这 3 档：

单用户速度	自建输出成本（`50%` 利用率）	折成每 `100K` 输出 token 的成本	和官方 API 输出价相比怎么读
`15 t/s`	`约 ¥4.13-5.86 / M`	`约 ¥0.41-0.59`	还在 API `¥0.63 / 100K` 输出 token 以下，偏吞吐优先时自建有空间
`16.6 t/s`	`约 ¥4.80-6.80 / M`	`约 ¥0.48-0.68`	已经贴近 API 分界线，利用率稍差就会反超
`20 t/s`	`约 ¥8.12-11.51 / M`	`约 ¥0.81-1.15`	用户体感更好，但自建输出成本已经明显高于 API

这张表把推理时扩展最难的一件事说清楚了：

提高 单用户 token 速度，用户会更爽
但 batch 更难做满，总吞吐 会下滑
总吞吐一下滑，固定硬件成本就更难摊薄
结果就是速度更高，单位 token 成本反而更差

一个最直观的公式

text

单次任务成本
= 主模型 token
+ 检索 token
+ judge / evaluator token
+ 工具调用费用
+ 外部执行费用
+ 重试成本

从轻到重的大致成本台阶

形态	主要新增成本	粗量级感觉
结构化 prompt	更长输入、更严格输出格式	`1x` 附近
RAG	检索 + 更长上下文	常见是 `1.2x-2x`
tool use	多轮调用 + 外部执行	常见是 `2x-5x` 起步
judge / retry	多模型或多轮验证	常见是 `3x-10x`
agent loop	搜索、分支、回滚、重试	很容易到 `10x+`

这里最关键的不是某个固定倍率，而是：

推理时扩展的成本是按请求持续发生的
它不像预训练那样一次性重，但会直接决定毛利和 SLA
很多 AI 产品最后真正难控的，反而是这一段

三阶段放在一起看

如果把 DeepSeek V3 / V4 这一代模型的三段账放到一起，最实用的判断是：

底座还没到位，先问自己愿不愿意为 百万 GPU 小时 级训练买单
模型有了但行为不稳，后训练至少也要准备 十万 GPU 小时 左右的持续预算感
在线业务要继续追体验，就必须接受 吞吐 / 速度 / 利用率 会互相拉扯

结论

拿 DeepSeek V3 来看，前沿 open-weight 底座训练已经是 2.788M H800 GPU hours、$5.6M-11.2M 纯计算预算这一档
后训练不是一句“后面再调一下”就能带过；0.1M GPU hours 量级已经足够形成单独的项目预算
拿 DeepSeek V4 Pro 来看，推理时扩展的关键不是“能不能部署”，而是 15-20 t/s 这类交互速度变化会不会把单位 token 成本直接推过 API 分界线
真正成熟的成本判断，不能只问“模型有多大”，而要问“钱在训练、后训练、在线推理这三段里分别怎么烧”

扩展成本量化分析 ​

先看总账 ​

先把一个前沿模型算一遍：以 DeepSeek 这一代为例 ​

1. 数据与训练阶段的量化分析 ​

先把 DeepSeek V3 的训练账摊开 ​

集群规模改变的，首先是日历时间 ​

GPT-3：经典 dense 基线 ​

Llama 3：真正贵的是把超大集群长期稳定跑起来 ​

DeepSeek V3：公开前沿模型已经是百万 GPU 小时量级 ​

Qwen3：训练 token 规模继续往上走 ​

2. 后训练阶段的量化分析 ​

先用 DeepSeek V3 看一个最具体的下限 ​

先看行业里的粗量级 ​

后训练真正消耗的，不只是 GPU ​

公开案例说明了什么 ​

3. 推理时扩展阶段的量化分析 ​

用 DeepSeek V4 Pro 看在线成本分水岭 ​

一个最直观的公式 ​

从轻到重的大致成本台阶 ​

三阶段放在一起看 ​

结论 ​

参考资料 ​

扩展成本量化分析

先看总账

先把一个前沿模型算一遍：以 DeepSeek 这一代为例

1. 数据与训练阶段的量化分析

先把 DeepSeek V3 的训练账摊开

集群规模改变的，首先是日历时间

GPT-3：经典 dense 基线

Llama 3：真正贵的是把超大集群长期稳定跑起来

DeepSeek V3：公开前沿模型已经是百万 GPU 小时量级

Qwen3：训练 token 规模继续往上走

2. 后训练阶段的量化分析

先用 DeepSeek V3 看一个最具体的下限

先看行业里的粗量级

后训练真正消耗的，不只是 GPU

公开案例说明了什么

3. 推理时扩展阶段的量化分析

用 DeepSeek V4 Pro 看在线成本分水岭

一个最直观的公式

从轻到重的大致成本台阶

三阶段放在一起看

结论

参考资料