Skip to content

扩展成本量化分析

前面三页讲的是三个阶段:

  • 数据与训练
  • 后训练
  • 推理时扩展

这一页要做的,是把这三段的成本放回一个统一框架里。

先看总账

阶段主要在买什么主要成本口径常见量级感
数据与训练底座能力上限FLOPs、GPU 小时、训练 token、数据工厂最重,常常是 1e23-1e25 FLOPs百万 GPU 小时
后训练产品可交付性rollout、teacher、SFT / RL run、评测回归单次通常比预训练轻,但整个项目会持续滚动
推理时扩展单次任务成功率token、工具调用、重试、wall-clock time单次最直观,最容易和业务账直接挂钩

先把一个前沿模型算一遍:以 DeepSeek 这一代为例

如果只选一条公开信息最完整、又足够新的路线来量化,DeepSeek 这一代最合适:

  • DeepSeek V3 公开了训练 token 和 GPU 小时,适合算离线扩展成本
  • DeepSeek V4 Pro 公开了 API 价格、active params 和 8× B300 上的交互 / 吞吐曲线,适合算在线扩展成本

先把最核心的账放在一张表里:

阶段公开口径可以直接折出来的数字这组数真正说明什么
数据与训练DeepSeek V314.8T 预训练 token,2.664M H800 GPU hours 预训练,2.788M H800 GPU hours 全流程训练预训练约等于 每 1T token 需要 18 万 H800 GPU 小时;全流程纯算力账在 $2-4 / GPU 小时 下约是 $5.6M-11.2M前沿 open-weight 底座训练已经是标准的千万美元级计算工程
后训练DeepSeek V3:预训练后的后续阶段 约 0.1M GPU hours仅纯计算就约 $0.2M-0.4M;按全流程 2.788M 小时算,至少是 约 3.6% 的额外计算量后训练单次不如预训练重,但也绝不是“几乎不要钱”
推理时扩展DeepSeek V4 Pro:官方输出价 $0.87 / M8× B30015-20 t/s 单用户速度区间可做 约 ¥4.13-11.51 / M 的自建输出成本15-17 t/s50%-70% 利用率时,自建才有机会逼近或压住 API;速度继续往上推时,单位 token 成本很快变坏在线成本不是看“能不能跑”,而是看 吞吐 / 速度 / 利用率 三者怎么取舍

这就是扩展成本最重要的现实感:

  • 训练时扩展,花的是一次性的大项目钱
  • 后训练,花的是持续滚动的产品化钱
  • 推理时扩展,花的是每个请求都会重复发生的在线钱

1. 数据与训练阶段的量化分析

这一段最像传统意义上的“大炼钢”。

先把 DeepSeek V3 的训练账摊开

DeepSeek V3 官方公开了 3 个特别适合算账的数字:

  • 671B 总参数,37B 激活参数
  • 14.8T 预训练 token
  • 2.664M H800 GPU hours 预训练,2.788M H800 GPU hours 全流程训练

先把预训练效率折成一个更容易记的口径:

text
每 1T 预训练 token 所需 GPU 小时
≈ 2.664M / 14.8
≈ 0.18M H800 GPU hours

也就是:

每增加 1T token 预算,大致就要再准备 18 万 H800 GPU 小时。

如果只看纯计算租价,不把数据清洗、人力、失败实验和基础设施资本开支算进去,DeepSeek V3 这条线的计算账大致是:

H800 有效单价预训练纯计算成本全流程训练纯计算成本该怎么读
$2 / GPU 小时约 $5.33M约 $5.58M这是外界最常引用的“$5.6M 级”口径,但它只代表纯算力,不是总成本
$3 / GPU 小时约 $7.99M约 $8.36M单价每上升一档,项目级预算就是几百万美元的变化
$4 / GPU 小时约 $10.66M约 $11.15M对紧缺 GPU 来说,训练预算很快就会越过千万美元

这张表最有用的地方,是把“前沿模型训练很贵”这句话变成了可以讨论的工程量级:

  • 不是抽象的“很大一笔钱”
  • 而是 几百万到上千万美元 的纯计算预算
  • 还没把数据工厂、系统研发、人力和容灾算进去

集群规模改变的,首先是日历时间

总 GPU 小时不变,但集群规模会决定项目到底要跑多久:

并行规模跑完 2.664M H800 GPU hours 预训练约需多久这意味着什么
2048H800约 54.2 天已经是很重的长期训练作业
4096H800约 27.1 天比较像大厂或头部实验室能认真承受的周期
8192H800约 13.6 天开始进入“用更多集群换项目节奏”的前沿区间
16384H800约 6.8 天日历时间明显压缩,但调度、通信和容灾难度继续上升

这也是为什么训练时扩展不只是“多买一点 GPU”:

  • 你在买更大的并行规模
  • 也在买更短的项目周期
  • 同时还在买更高的系统工程复杂度

GPT-3:经典 dense 基线

GPT-3 论文公开了两件关键事:

  • 参数量:175B
  • 训练数据:300B token

按常见近似式:

text
训练 FLOPs ≈ 6 * N * D
text
6 * 175B * 300B ≈ 3.15e23 FLOPs

这是一个非常好的量级锚点:

  • 1e23 FLOPs 以上,已经不是普通实验室级训练
  • dense 底座模型一旦进到百 B 级,训练就变成重型工业作业

Llama 3:真正贵的是把超大集群长期稳定跑起来

Meta 在 Llama 3 官方介绍里没有直接给现金账单,但给了非常关键的工程信息:

  • 15T+ 训练 token
  • 同时训练 16K GPU
  • 单卡训练利用率 400+ TFLOPS
  • 两个自建 24K GPU 集群
  • 有效训练时间 95%+

这说明工业级训练最贵的地方,往往不是“买到卡”,而是:

  • 数万卡并行
  • 通信与调度
  • checkpoint 与容灾
  • 高利用率长期稳定运行

DeepSeek V3:公开前沿模型已经是百万 GPU 小时量级

DeepSeek V3 官方给出的口径非常有价值,因为它直接披露了 GPU 小时:

  • 预训练:2.664M H800 GPU hours
  • 后续训练阶段:约 0.1M GPU hours
  • 全流程训练:2.788M H800 GPU hours

这至少说明两件事:

  1. 前沿 open-weight 模型已经稳定进入 百万 GPU 小时 量级
  2. 单看预训练还不够,后续阶段依然会继续烧算力

Qwen3:训练 token 规模继续往上走

Qwen3 技术报告虽然没有给 GPU 小时,但给了一个很关键的公开口径:

  • 预训练总规模 36T token
  • 其中 30T+ 是通用阶段,约 5T 是更高质量 reasoning / coding 阶段

这说明 frontier 路线的另一个趋势:

  • 不只是继续堆参数
  • 而是把更多预算花到更高质量的数据阶段和课程式训练上

2. 后训练阶段的量化分析

后训练最难的地方,是公开精确账单极少。
所以更稳的做法不是硬凑美元数字,而是看它的成本结构。

先用 DeepSeek V3 看一个最具体的下限

DeepSeek V3 的价值就在这里:它至少告诉你,预训练之后的后续阶段并不是零。

  • 官方口径是 约 0.1M GPU hours
  • 如果仍按 $2-4 / H800 GPU 小时 粗算,纯计算就是 约 $0.2M-0.4M

把它放到全流程 2.788M GPU hours 里看,后续阶段的纯计算量至少是 约 3.6%
这个占比本身不算夸张,但它很重要,因为它说明:

  • 后训练不是最重的单次作业
  • 但它已经大到必须被单独记账
  • 而且这里还没把 teacher、偏好数据、verifier 和评测系统算进去

先看行业里的粗量级

按业界常见经验,后训练通常有下面几种量级关系:

  • 单次 SFT run 的计算量,常常只是大预训练的一小部分
  • rollout + RL + verifier + eval 会把这段流程拉长很多
  • 如果迭代频繁,后训练整体的总消耗可以达到非常可观的比例

更实用的理解是:

后训练通常不是最重的单次作业,但常常是最滚动、最持续、最像产品工程的一段。

DeepSeek V3 这条线去理解,这句话会更具体:

  • 预训练是一次重型集中投入
  • 后训练是后面持续追加的产品化成本
  • 如果版本迭代很快,后训练的总花费会比单次迭代看起来重得多

后训练真正消耗的,不只是 GPU

它真正烧钱的点,通常在:

  • 高质量监督数据
  • 偏好数据或 teacher
  • RL rollout
  • 自动验证器
  • benchmark 回归
  • 安全与产品评测

公开案例说明了什么

Qwen3 的后训练,已经是:

  • cold-start CoT
  • RL
  • unified fine-tuning
  • strong-to-weak distillation

Gemma 3 的后训练,已经是:

  • 大 teacher 蒸馏
  • RL finetuning
  • 对数学、coding、chat、多语言的统一整理

Nemotron 3 Super 的后训练,已经是:

  • SFT
  • synthetic trajectories
  • automatic verification
  • asynchronous GRPO
  • RLHF

这说明后训练的主要量化特征不是“一个单独数字”,而是:

更多轮次、更贵的数据、更复杂的 rollout 和更重的评测链路。

3. 推理时扩展阶段的量化分析

这一段最容易直接和业务账挂钩。

因为它发生在每一次请求里。

用 DeepSeek V4 Pro 看在线成本分水岭

训练和后训练用 V3 最好算。到了在线服务阶段,DeepSeek V4 Pro 的公开口径反而更完整:

  • 官方 API 输出价:$0.87 / M output tokens
  • 按这套笔记统一口径折算,约等于 ¥6.31 / M output tokens
  • 1.6T 总参数,49B 激活参数,1M 上下文
  • NVIDIA 公布了它在 8× B300TPS per UserTPS per GPU 的关系曲线

更关键的是,V4 官方还给了一个很直接的系统信号:相对 DeepSeek-V3.2,它把 per-token inference FLOPs 进一步压低了 73%,把 KV cache 压力降了 90%
这说明模型结构本身就在直接决定推理时扩展成本。

如果按 本地算力账 里同一套 8× B300 口径去读,V4 Pro 在线账最值得看的是下面这 3 档:

单用户速度自建输出成本(50% 利用率)折成每 100K 输出 token 的成本和官方 API 输出价相比怎么读
15 t/s约 ¥4.13-5.86 / M约 ¥0.41-0.59还在 API ¥0.63 / 100K 输出 token 以下,偏吞吐优先时自建有空间
16.6 t/s约 ¥4.80-6.80 / M约 ¥0.48-0.68已经贴近 API 分界线,利用率稍差就会反超
20 t/s约 ¥8.12-11.51 / M约 ¥0.81-1.15用户体感更好,但自建输出成本已经明显高于 API

这张表把推理时扩展最难的一件事说清楚了:

  • 提高 单用户 token 速度,用户会更爽
  • 但 batch 更难做满,总吞吐 会下滑
  • 总吞吐一下滑,固定硬件成本就更难摊薄
  • 结果就是速度更高,单位 token 成本反而更差

一个最直观的公式

text
单次任务成本
= 主模型 token
+ 检索 token
+ judge / evaluator token
+ 工具调用费用
+ 外部执行费用
+ 重试成本

从轻到重的大致成本台阶

形态主要新增成本粗量级感觉
结构化 prompt更长输入、更严格输出格式1x 附近
RAG检索 + 更长上下文常见是 1.2x-2x
tool use多轮调用 + 外部执行常见是 2x-5x 起步
judge / retry多模型或多轮验证常见是 3x-10x
agent loop搜索、分支、回滚、重试很容易到 10x+

这里最关键的不是某个固定倍率,而是:

  • 推理时扩展的成本是按请求持续发生的
  • 它不像预训练那样一次性重,但会直接决定毛利和 SLA
  • 很多 AI 产品最后真正难控的,反而是这一段

三阶段放在一起看

如果把 DeepSeek V3 / V4 这一代模型的三段账放到一起,最实用的判断是:

  • 底座还没到位,先问自己愿不愿意为 百万 GPU 小时 级训练买单
  • 模型有了但行为不稳,后训练至少也要准备 十万 GPU 小时 左右的持续预算感
  • 在线业务要继续追体验,就必须接受 吞吐 / 速度 / 利用率 会互相拉扯

结论

  • DeepSeek V3 来看,前沿 open-weight 底座训练已经是 2.788M H800 GPU hours$5.6M-11.2M 纯计算预算这一档
  • 后训练不是一句“后面再调一下”就能带过;0.1M GPU hours 量级已经足够形成单独的项目预算
  • DeepSeek V4 Pro 来看,推理时扩展的关键不是“能不能部署”,而是 15-20 t/s 这类交互速度变化会不会把单位 token 成本直接推过 API 分界线
  • 真正成熟的成本判断,不能只问“模型有多大”,而要问“钱在训练、后训练、在线推理这三段里分别怎么烧”

参考资料

价格、型号与硬件配置按 2026-04-28 的公开页面静态整理。