Appearance
算力扩展总览
这一组真正想回答的,不是“训练”和“推理”这两个松散话题,而是:
算力究竟沿着哪些阶段被花掉,又怎样在不同阶段换成模型能力。
可以把这一组拆成两层来看:
模型规模里程碑与规模扩展先看公开时间线,再回答为什么模型总体上还能继续扩,以及参数、数据、active size、上下文这些维度是怎样一起长起来的。预训练:数据与训练这是第一阶段。 回答预训练预算怎么在参数量和 token 之间分配,数据为什么越来越贵,MoE 和多模态怎样改写这条关系。后训练这是第二阶段。 回答为什么底座模型还不够,为什么还要做 SFT、偏好优化、RL、蒸馏、tool-use 对齐和评测回归。推理时扩展、Harness 与 Agent这是第三阶段。 回答模型已经训练好了之后,为什么 prompt、RAG、tool use、evaluator、harness 和 agent loop 还能继续把效果往上推。扩展成本量化分析把前面三阶段的成本放到同一个框架里比较,看业界公开案例到底贵在哪里。
相关页面
这一组的主线
如果只记一条线,可以记成:
模型规模里程碑与规模扩展 -> 预训练:数据与训练 -> 后训练 -> 推理时扩展
其中真正花钱的,主要是后三段:
- 数据与训练:决定模型本体上限
- 后训练:决定模型能不能变成可交付产品
- 推理时扩展:决定单次任务愿意再花多少计算去逼近上限
结论
模型规模里程碑与规模扩展解释行业到底沿着什么维度继续扩,以及为什么还能扩预训练:数据与训练、后训练、推理时扩展、Harness 与 Agent分别对应三种不同的能力投入- 真正的成本判断,不该只问“模型有多大”,而要问“钱花在哪个阶段最值”