Skip to content

模型规模里程碑与规模扩展

理解规模,最好不要一上来就背 Scaling Law
更自然的读法是:

先看公开模型里程碑,再回头理解为什么这些里程碑会发生。

这里把 官方披露公开权重可见业内常见估算外部公开说法 放在一张里程碑表里看,重点不是背数字,而是看量级变化。

模型时间规模口径规模信息这一步为什么重要
Transformer 原型2017论文原型千万到数千万级奠定并行 attention 架构
BERT Base / Large2018官方披露110M / 340M把大规模预训练推向 NLP 主流
GPT-2 XL2019官方披露1.5B让“生成式预训练”真正出圈
T5-11B2019官方披露11B统一 text-to-text 范式
GPT-32020官方披露175Bfew-shot 学习成为行业转折点
Chinchilla2022官方披露70B 参数,1.4T tokens证明 compute-optimal 比盲目堆参更重要
ChatGPT / GPT-3.52022-2023业内常见估算~175B标志后训练和产品化交付的重要性上升
GPT-42023业内常见估算~1.76T前沿模型开始走向更复杂的混合架构与更高系统成本
GPT-4o2024业内常见估算~200B说明高可用多模态模型未必继续沿着“总参数暴涨”单线走
DeepSeek V32024官方披露671B 总参数,37B 激活open-weight MoE 路线第一次把前沿能力、总规模和推理经济性同时推高
Kimi K22025官方披露1T 总参数,32B 激活国产 open-agent 路线开始把万亿总参数和低激活成本结合起来
Step-3.5 Flash2026官方披露196B 总参数,11B 激活低激活成本下做高性价比 agent / coding
MiniMax M2.72026公开权重 / 官方生态披露230B 总参数,10B 激活说明强 agent / coding 模型未必需要再把 active size 推到几十 B
GLM-5.12026公开权重可见~744B 总参数,40B 激活长程 agent 模型开始把规模、长时执行和工程交付一起优化
Kimi K2.62026官方披露1T 总参数,32B 激活更明显地走向长程 agent 与多代理编排
DeepSeek V4 Pro2026官方披露1.6T 总参数,49B 激活把 open-weight 前沿模型的总规模推进到更高一档
Claude Sonnet2026外部公开说法~1T total代表一类高端闭源主力模型的万亿级量级判断
Claude Opus2026外部公开说法~5T total代表前沿旗舰模型可能继续向多万亿总参数扩展

先从时间线里看到什么增长规律

  1. 2018-2020:dense 模型先从亿级冲到千亿级
  2. 2021-2023:增长重点从“继续堆大”转向“怎么把算力花得更值”
  3. 2024-2026:总参数继续上升,但 active size 的增长更克制
  4. 2025-2026:国产 open-weight / hosted 路线开始同时争夺 万亿总参数10B-50B 激活长程 agent

再回到“为什么还能继续扩”

理解这张时间线之后,再回头看方法论会更顺:

里程碑告诉你行业在往哪扩,规模扩展解释它为什么还能继续扩。

为什么几乎都从 Transformer 出发

2017 年的论文 Attention Is All You Need 做了三件决定性事情:

  1. 用 self-attention 替代 RNN 的顺序瓶颈
  2. 让模型更适合并行训练
  3. 给“规模化预训练”提供了结构基础

如果没有这个结构基础,后面的:

  • 大批量并行训练
  • 长上下文
  • MoE
  • 多模态
  • 推理时工作流外挂

都会难很多。

规模不是只看参数量

这里的“规模”不只是一串参数量。
今天至少有 5 个常见维度:

  • 参数规模 N
  • 训练 token 数 D
  • 总训练计算 C
  • 激活参数 active params
  • 上下文长度和模态范围

所以前沿模型的扩张,已经不是单纯的“参数越大越好”,而是:

更多计算,沿着更合理的结构和数据路径,换来更高的能力上限。

为什么规模会带来能力跃迁

真正发生的不是简单“多喂点数据”,而是三件事一起扩大:

  • 参数规模 N
  • 数据规模 D
  • 训练总计算量 C

当这三者在合适比例下同步上升,一些能力会在中后期突然变得可用:

  • in-context learning
  • 少样本泛化
  • 更稳定的代码能力
  • 更强的工具使用与计划能力

最朴素的版本其实是:

更多计算 + 更合理分配 + 更高质量数据 -> 更低训练损失 -> 更强能力上限

从 dense 到 MoE,规模扩展的口径为什么变了

早期大家盯着的是 total params
到了 MoE 时代,真正更重要的口径变成了:

  • total params
  • active params
  • 每 token 计算

这意味着今天看到一个万亿级模型时,不能只问“总参数多少”,还要继续问:

  • 每个 token 实际激活多少参数
  • 同样预算下 active size 是不是更划算
  • 增大的到底是容量,还是每 token 真正花掉的计算

长上下文和多模态,也是规模扩展的一部分

规模扩展不只发生在参数上。

  • 长上下文扩的是单次任务可处理的信息范围
  • 多模态扩的是模型能吃进去的数据类型
  • 更强的工具使用和 agent 能力,扩的是模型和外部系统的协作空间

所以今天的 frontier 竞争,已经逐渐变成:

参数规模 + active compute + 长上下文 + 多模态 + agent 适配

继续把规模做大,为什么越来越难

  • 高质量数据不再像早期那样充裕
  • 分布式训练的系统开销越来越大
  • 推理经济学会反过来约束训练规模
  • 越往前沿走,大家比的不只是模型大小,而是 总参数 / 激活参数 / 长上下文 / tool-use 稳定性 的组合

对工程和成本判断最重要的启发

  • 规模扩展从来不是“把参数做大”这么简单
  • 架构决定能不能扩,数据决定学什么,训练配方决定钱有没有花对地方
  • MoE、长上下文和多模态,都是“怎么把算力更有效地花出去”的问题
  • 进入 2024-2026 之后,模型规模里程碑越来越像 总参数 / 激活参数 / 长上下文 / agent 能力 的联合里程碑

结论

  • 规模增长已经不是单一参数竞赛
  • 从 dense 到 MoE,行业越来越在意 总容量每 token 激活计算 的平衡
  • Kimi K2MiniMax M2.7GLM-5.1DeepSeek V4 这一批模型说明:今天的里程碑已经开始围绕 agentic engineering 重新组织
  • 前沿规模能不能继续上去,越来越是系统工程问题

参考资料

价格、型号与硬件配置按 2026-04-28 的公开页面静态整理。