Appearance
模型规模里程碑与规模扩展
理解规模,最好不要一上来就背 Scaling Law。
更自然的读法是:
先看公开模型里程碑,再回头理解为什么这些里程碑会发生。
这里把 官方披露、公开权重可见、业内常见估算 和 外部公开说法 放在一张里程碑表里看,重点不是背数字,而是看量级变化。
| 模型 | 时间 | 规模口径 | 规模信息 | 这一步为什么重要 |
|---|---|---|---|---|
| Transformer 原型 | 2017 | 论文原型 | 千万到数千万级 | 奠定并行 attention 架构 |
| BERT Base / Large | 2018 | 官方披露 | 110M / 340M | 把大规模预训练推向 NLP 主流 |
| GPT-2 XL | 2019 | 官方披露 | 1.5B | 让“生成式预训练”真正出圈 |
| T5-11B | 2019 | 官方披露 | 11B | 统一 text-to-text 范式 |
| GPT-3 | 2020 | 官方披露 | 175B | few-shot 学习成为行业转折点 |
| Chinchilla | 2022 | 官方披露 | 70B 参数,1.4T tokens | 证明 compute-optimal 比盲目堆参更重要 |
| ChatGPT / GPT-3.5 | 2022-2023 | 业内常见估算 | ~175B | 标志后训练和产品化交付的重要性上升 |
| GPT-4 | 2023 | 业内常见估算 | ~1.76T | 前沿模型开始走向更复杂的混合架构与更高系统成本 |
| GPT-4o | 2024 | 业内常见估算 | ~200B | 说明高可用多模态模型未必继续沿着“总参数暴涨”单线走 |
| DeepSeek V3 | 2024 | 官方披露 | 671B 总参数,37B 激活 | open-weight MoE 路线第一次把前沿能力、总规模和推理经济性同时推高 |
| Kimi K2 | 2025 | 官方披露 | 1T 总参数,32B 激活 | 国产 open-agent 路线开始把万亿总参数和低激活成本结合起来 |
| Step-3.5 Flash | 2026 | 官方披露 | 196B 总参数,11B 激活 | 低激活成本下做高性价比 agent / coding |
| MiniMax M2.7 | 2026 | 公开权重 / 官方生态披露 | 230B 总参数,10B 激活 | 说明强 agent / coding 模型未必需要再把 active size 推到几十 B |
| GLM-5.1 | 2026 | 公开权重可见 | ~744B 总参数,40B 激活 | 长程 agent 模型开始把规模、长时执行和工程交付一起优化 |
| Kimi K2.6 | 2026 | 官方披露 | 1T 总参数,32B 激活 | 更明显地走向长程 agent 与多代理编排 |
| DeepSeek V4 Pro | 2026 | 官方披露 | 1.6T 总参数,49B 激活 | 把 open-weight 前沿模型的总规模推进到更高一档 |
| Claude Sonnet | 2026 | 外部公开说法 | ~1T total | 代表一类高端闭源主力模型的万亿级量级判断 |
| Claude Opus | 2026 | 外部公开说法 | ~5T total | 代表前沿旗舰模型可能继续向多万亿总参数扩展 |
先从时间线里看到什么增长规律
2018-2020:dense 模型先从亿级冲到千亿级2021-2023:增长重点从“继续堆大”转向“怎么把算力花得更值”2024-2026:总参数继续上升,但 active size 的增长更克制2025-2026:国产 open-weight / hosted 路线开始同时争夺万亿总参数、10B-50B 激活和长程 agent
再回到“为什么还能继续扩”
理解这张时间线之后,再回头看方法论会更顺:
里程碑告诉你行业在往哪扩,规模扩展解释它为什么还能继续扩。
为什么几乎都从 Transformer 出发
2017 年的论文 Attention Is All You Need 做了三件决定性事情:
- 用 self-attention 替代 RNN 的顺序瓶颈
- 让模型更适合并行训练
- 给“规模化预训练”提供了结构基础
如果没有这个结构基础,后面的:
- 大批量并行训练
- 长上下文
- MoE
- 多模态
- 推理时工作流外挂
都会难很多。
规模不是只看参数量
这里的“规模”不只是一串参数量。
今天至少有 5 个常见维度:
- 参数规模
N - 训练 token 数
D - 总训练计算
C - 激活参数
active params - 上下文长度和模态范围
所以前沿模型的扩张,已经不是单纯的“参数越大越好”,而是:
更多计算,沿着更合理的结构和数据路径,换来更高的能力上限。
为什么规模会带来能力跃迁
真正发生的不是简单“多喂点数据”,而是三件事一起扩大:
- 参数规模
N - 数据规模
D - 训练总计算量
C
当这三者在合适比例下同步上升,一些能力会在中后期突然变得可用:
- in-context learning
- 少样本泛化
- 更稳定的代码能力
- 更强的工具使用与计划能力
最朴素的版本其实是:
更多计算 + 更合理分配 + 更高质量数据 -> 更低训练损失 -> 更强能力上限
从 dense 到 MoE,规模扩展的口径为什么变了
早期大家盯着的是 total params。
到了 MoE 时代,真正更重要的口径变成了:
total paramsactive params- 每 token 计算
这意味着今天看到一个万亿级模型时,不能只问“总参数多少”,还要继续问:
- 每个 token 实际激活多少参数
- 同样预算下 active size 是不是更划算
- 增大的到底是容量,还是每 token 真正花掉的计算
长上下文和多模态,也是规模扩展的一部分
规模扩展不只发生在参数上。
- 长上下文扩的是单次任务可处理的信息范围
- 多模态扩的是模型能吃进去的数据类型
- 更强的工具使用和 agent 能力,扩的是模型和外部系统的协作空间
所以今天的 frontier 竞争,已经逐渐变成:
参数规模 + active compute + 长上下文 + 多模态 + agent 适配
继续把规模做大,为什么越来越难
- 高质量数据不再像早期那样充裕
- 分布式训练的系统开销越来越大
- 推理经济学会反过来约束训练规模
- 越往前沿走,大家比的不只是模型大小,而是
总参数 / 激活参数 / 长上下文 / tool-use 稳定性的组合
对工程和成本判断最重要的启发
- 规模扩展从来不是“把参数做大”这么简单
- 架构决定能不能扩,数据决定学什么,训练配方决定钱有没有花对地方
- MoE、长上下文和多模态,都是“怎么把算力更有效地花出去”的问题
- 进入
2024-2026之后,模型规模里程碑越来越像总参数 / 激活参数 / 长上下文 / agent 能力的联合里程碑
结论
- 规模增长已经不是单一参数竞赛
- 从 dense 到 MoE,行业越来越在意
总容量和每 token 激活计算的平衡 Kimi K2、MiniMax M2.7、GLM-5.1、DeepSeek V4这一批模型说明:今天的里程碑已经开始围绕 agentic engineering 重新组织- 前沿规模能不能继续上去,越来越是系统工程问题