模型规模里程碑与规模扩展

理解规模，最好不要一上来就背 Scaling Law。
更自然的读法是：

先看公开模型里程碑，再回头理解为什么这些里程碑会发生。

这里把 官方披露、公开权重可见、业内常见估算 和 外部公开说法 放在一张里程碑表里看，重点不是背数字，而是看量级变化。

模型	时间	规模口径	规模信息	这一步为什么重要
Transformer 原型	2017	论文原型	千万到数千万级	奠定并行 attention 架构
BERT Base / Large	2018	官方披露	`110M / 340M`	把大规模预训练推向 NLP 主流
GPT-2 XL	2019	官方披露	`1.5B`	让“生成式预训练”真正出圈
T5-11B	2019	官方披露	`11B`	统一 text-to-text 范式
GPT-3	2020	官方披露	`175B`	few-shot 学习成为行业转折点
Chinchilla	2022	官方披露	`70B` 参数，`1.4T` tokens	证明 compute-optimal 比盲目堆参更重要
ChatGPT / GPT-3.5	2022-2023	业内常见估算	`~175B`	标志后训练和产品化交付的重要性上升
GPT-4	2023	业内常见估算	`~1.76T`	前沿模型开始走向更复杂的混合架构与更高系统成本
GPT-4o	2024	业内常见估算	`~200B`	说明高可用多模态模型未必继续沿着“总参数暴涨”单线走
DeepSeek V3	2024	官方披露	`671B` 总参数，`37B` 激活	open-weight MoE 路线第一次把前沿能力、总规模和推理经济性同时推高
Kimi K2	2025	官方披露	`1T` 总参数，`32B` 激活	国产 open-agent 路线开始把万亿总参数和低激活成本结合起来
Step-3.5 Flash	2026	官方披露	`196B` 总参数，`11B` 激活	低激活成本下做高性价比 agent / coding
MiniMax M2.7	2026	公开权重 / 官方生态披露	`230B` 总参数，`10B` 激活	说明强 agent / coding 模型未必需要再把 active size 推到几十 B
GLM-5.1	2026	公开权重可见	`~744B` 总参数，`40B` 激活	长程 agent 模型开始把规模、长时执行和工程交付一起优化
Kimi K2.6	2026	官方披露	`1T` 总参数，`32B` 激活	更明显地走向长程 agent 与多代理编排
DeepSeek V4 Pro	2026	官方披露	`1.6T` 总参数，`49B` 激活	把 open-weight 前沿模型的总规模推进到更高一档
Claude Sonnet	2026	外部公开说法	`~1T total`	代表一类高端闭源主力模型的万亿级量级判断
Claude Opus	2026	外部公开说法	`~5T total`	代表前沿旗舰模型可能继续向多万亿总参数扩展

先从时间线里看到什么增长规律

2018-2020：dense 模型先从亿级冲到千亿级
2021-2023：增长重点从“继续堆大”转向“怎么把算力花得更值”
2024-2026：总参数继续上升，但 active size 的增长更克制
2025-2026：国产 open-weight / hosted 路线开始同时争夺 万亿总参数、10B-50B 激活 和 长程 agent

再回到“为什么还能继续扩”

理解这张时间线之后，再回头看方法论会更顺：

里程碑告诉你行业在往哪扩，规模扩展解释它为什么还能继续扩。

为什么几乎都从 Transformer 出发

2017 年的论文 Attention Is All You Need 做了三件决定性事情：

用 self-attention 替代 RNN 的顺序瓶颈
让模型更适合并行训练
给“规模化预训练”提供了结构基础

如果没有这个结构基础，后面的：

大批量并行训练
长上下文
MoE
多模态
推理时工作流外挂

都会难很多。

规模不是只看参数量

这里的“规模”不只是一串参数量。
今天至少有 5 个常见维度：

参数规模 N
训练 token 数 D
总训练计算 C
激活参数 active params
上下文长度和模态范围

所以前沿模型的扩张，已经不是单纯的“参数越大越好”，而是：

更多计算，沿着更合理的结构和数据路径，换来更高的能力上限。

为什么规模会带来能力跃迁

真正发生的不是简单“多喂点数据”，而是三件事一起扩大：

参数规模 N
数据规模 D
训练总计算量 C

当这三者在合适比例下同步上升，一些能力会在中后期突然变得可用：

in-context learning
少样本泛化
更稳定的代码能力
更强的工具使用与计划能力

最朴素的版本其实是：

更多计算 + 更合理分配 + 更高质量数据 -> 更低训练损失 -> 更强能力上限

从 dense 到 MoE，规模扩展的口径为什么变了

早期大家盯着的是 total params。
到了 MoE 时代，真正更重要的口径变成了：

total params
active params
每 token 计算

这意味着今天看到一个万亿级模型时，不能只问“总参数多少”，还要继续问：

每个 token 实际激活多少参数
同样预算下 active size 是不是更划算
增大的到底是容量，还是每 token 真正花掉的计算

长上下文和多模态，也是规模扩展的一部分

规模扩展不只发生在参数上。

长上下文扩的是单次任务可处理的信息范围
多模态扩的是模型能吃进去的数据类型
更强的工具使用和 agent 能力，扩的是模型和外部系统的协作空间

所以今天的 frontier 竞争，已经逐渐变成：

参数规模 + active compute + 长上下文 + 多模态 + agent 适配

继续把规模做大，为什么越来越难

高质量数据不再像早期那样充裕
分布式训练的系统开销越来越大
推理经济学会反过来约束训练规模
越往前沿走，大家比的不只是模型大小，而是 总参数 / 激活参数 / 长上下文 / tool-use 稳定性 的组合

对工程和成本判断最重要的启发

规模扩展从来不是“把参数做大”这么简单
架构决定能不能扩，数据决定学什么，训练配方决定钱有没有花对地方
MoE、长上下文和多模态，都是“怎么把算力更有效地花出去”的问题
进入 2024-2026 之后，模型规模里程碑越来越像 总参数 / 激活参数 / 长上下文 / agent 能力 的联合里程碑

结论

规模增长已经不是单一参数竞赛
从 dense 到 MoE，行业越来越在意 总容量 和 每 token 激活计算 的平衡
Kimi K2、MiniMax M2.7、GLM-5.1、DeepSeek V4 这一批模型说明：今天的里程碑已经开始围绕 agentic engineering 重新组织
前沿规模能不能继续上去，越来越是系统工程问题

模型规模里程碑与规模扩展 ​

先从时间线里看到什么增长规律 ​

再回到“为什么还能继续扩” ​

为什么几乎都从 Transformer 出发 ​

规模不是只看参数量 ​

为什么规模会带来能力跃迁 ​

从 dense 到 MoE，规模扩展的口径为什么变了 ​

长上下文和多模态，也是规模扩展的一部分 ​

继续把规模做大，为什么越来越难 ​

对工程和成本判断最重要的启发 ​

结论 ​

参考资料 ​