Appearance
后训练
数据与训练解决的是:
模型能不能学到世界知识和基础能力。
后训练解决的则是:
这些能力能不能被整理成用户真正可用、可控、可交付的行为。
这一层今天越来越重要。
因为前沿模型之间的差距,很多时候已经不只是“底座聪不聪明”,而是:
- 能不能长时间不跑偏
- 能不能稳定调工具
- 能不能在复杂工程里自己收敛
- 能不能把 reasoning、coding、agent 行为组织成产品
先把四个当前模型放在一起看
如果只看这一代最有代表性的几条线,DeepSeek V4、GLM-5.1、MiniMax M2.7、Kimi K2.6 已经很能说明问题:
| 模型 | 公开信号 | 更像在把什么反馈内化进权重 | 读者最该看到什么 |
|---|---|---|---|
DeepSeek V4 Pro | 1.6T total / 49B active、1M 上下文、agentic coding 公开成绩很强,并明确提到对 agent 能力做了专门优化 | reasoning、agent coding、长上下文下的工具与交付行为 | 后训练不再只是“把模型调得更听话”,而是在把超大 open-weight 模型整理成可部署的 agent 主力 |
GLM-5.1 | ~744B total / 40B active、200K 上下文、可持续执行单任务 8 小时,从计划到测试、修复、优化、交付形成闭环 | 长时目标保持、闭环优化、长程工程交付 | 后训练开始明显围绕“能不能长期稳定工作”来做,而不是只围绕单轮回答 |
MiniMax M2.7 | 230B total / 10B active、200K 上下文、面向 agent harness、软件工程和 Office 复杂任务,复杂技能遵循率很高 | 工具脚手架、技能遵循率、低 active 成本下的复杂任务交付 | 后训练不只是让最大模型更强,也是在把更低 active size 的模型往复杂 agent 工作流里推 |
Kimi K2.6 | 1T total / 32B active、长程 coding、agent swarm、持续后台 agent、长时间工具调用与多步执行都明显增强 | 长程稳定性、主动性、工具调用、多代理协调 | 后训练越来越像在训练“长程 agent 行为”,而不是训练一次性聊天回答 |
先从这张表里抓住 4 件事:
- 后训练的目标,已经从“更像聊天助手”明显转向“更像能交付工作的 agent”
- 前沿模型的改进,越来越多体现在长链路稳定性,而不只是单题分数
- tool use、browser、execution、MCP、agent swarm 这些能力,并不只是运行时外挂,很多已经部分写进了模型权重
- 这也正好和 推理时扩展、Harness 与 Agent 那页能接上:后训练是在把常见反馈内化,harness 是把场景化反馈留在运行时
这些模型背后,后训练通常在做什么
公开材料通常不会把完整训练配方全部摊开,但从这一代模型的表现看,后训练大致都在做 4 类事:
1. 把模型拉到产品交互分布上
- 更稳的指令遵循
- 更稳的结构化输出
- 更稳的代码风格和工具调用格式
- 更像真实产品,而不是论文里的裸模型
2. 把常见反馈写进权重里
这一层最重要的不是“模型会不会”,而是:
在真实任务里,什么叫做更好的下一步。
常见反馈来源包括:
- 人类偏好
- reward model
- judge / verifier
- 测试结果
- 工具返回
3. 把模型往真实工作流里推
这一代最明显的变化是:后训练越来越直接面对真实 agent 工作流。
- 不只是聊天
- 不只是答题
- 而是代码、工具、浏览器、执行环境、长时任务和多代理协作
4. 把强能力压给更便宜、更稳的型号
蒸馏今天仍然重要,因为产品线不可能只卖一个最重的旗舰。
强模型里学到的:
- reasoning 轨迹
- agent 行为模式
- 工具调用习惯
- 交互偏好
最终都要被整理并压给更快、更便宜的型号。
1. DeepSeek V4:把超大 open-weight 模型整理成 agent 主力
DeepSeek V4 Pro 的公开信号很集中:
1.6T总参数,49B激活参数1M上下文- 明确强调
agentic coding能力 - 明确写了
Dedicated Optimizations for Agent Capabilities - 同时提供
thinking / non-thinking两种产品模式
这组信号说明,DeepSeek V4 的后训练重点已经不再只是“把底座调成聊天模型”,而更像是在做三件事:
- 让重型 reasoning 模型在 coding / tool use / agent 任务上更稳定
- 让超长上下文不只是“能塞进去”,而是还能维持目标不漂移
- 把同一个底座整理成更适合不同产品面的行为模式
对读者最重要的判断是:
DeepSeek V4 这类模型,后训练正在把“常见 agent 行为”写进权重里,好让它在很多任务上不用每次都靠很重的运行时补救。
2. GLM-5.1:后训练开始围绕长程闭环执行来做
GLM-5.1 最值得看的是,它公开强调的已经不是单轮对话,而是:
- 可在单个任务上持续工作
8 小时 - 从规划、执行到测试、修复、优化、交付形成完整闭环
- 在代表性案例里完成
655次迭代 - 把向量数据库查询吞吐提升到初始生产版本的
6.9x - 在
KernelBench Level 3上实现3.6x几何平均加速
这组信号非常关键,因为它说明:
- 后训练已经不只是训练“更好的回答”
- 而是在训练“更长时间不跑偏的执行过程”
- 模型要学会在长链路里持续对齐目标、吸收反馈、减少无效试错
所以拿 GLM-5.1 来理解,后训练更像是在把下面这种回路部分写进模型:
实验 -> 观察 -> 分析 -> 调整 -> 再实验 -> 交付。
这也解释了为什么 GLM-5.1 适合和 推理时扩展、Harness 与 Agent 放在一条线上看:
- 后训练是在把常见闭环反馈内化
- harness 则是在真实场景里继续追加场景化反馈
3. MiniMax M2.7:把低 active size 模型往复杂 harness 里推
MiniMax M2.7 的信号很有代表性,因为它说明强 agent / coding 模型未必一定要靠极高 active size:
230B总参数,10B激活参数- 面向
agentic harnesses、软件工程、Office 和复杂生产力任务 - 在
40个复杂技能案例上有97%的技能遵循率 SWE-Pro达到56.22%MMClaw这类长程 agent 使用里,相比M2.5有明显提升- 官方生态直接提供了
fine-tuning和RL配方
这背后更像是在做 3 件事:
- 把低 active 成本的
MoE模型整理成可交付的 coding / office / agent 工作模型 - 强化复杂技能遵循率,而不只是一次性答对
- 让模型更适合现成的 tool scaffolding、parser 和 agent harness
MiniMax M2.7 这个例子很重要,因为它提醒读者:
- 后训练不只是“把最贵模型变更强”
- 也是“把更省的模型推到更复杂的交付区间”
4. Kimi K2.6:后训练越来越像在训练长程 agent 行为
Kimi K2.6 是这四个例子里最明显把“长程 agent 行为”直接摆到台前的一个:
- 在一个本地推理优化案例里,连续执行
12+小时,完成4000+次工具调用和14轮迭代 - 在
exchange-core案例里,连续执行13小时,进行了1000+次工具调用,修改4000+行代码 - agent swarm 可扩到
300个子 agent、4000个协调步骤 - 公开展示了一个持续
5天的自主工程 worklog - 多家外部伙伴都提到它在 instruction following、tool calling、long-horizon reliability 上明显增强
更关键的是,Kimi K2.6 的公开 benchmark 说明里,已经直接把:
- 工具调用
- 上下文管理
- 多步 agent 框架
- 长链路任务完成率
这些都拉进了正式评测口径。
这说明 Kimi K2.6 的后训练重点,很可能已经不是普通意义上的“把回答调顺”,而是在强化:
- 长时间任务里的目标保持
- 更主动的任务拆解
- 更稳的工具调用和错误恢复
- 多代理协同时的行为一致性
如果只用一句话概括:
Kimi K2.6 让人看到,后训练正在从“聊天对齐”走向“长程 agent 行为对齐”。
这四个例子里,后训练真正买到的是什么
如果用工程语言来讲,后训练买到的主要不是“更多世界知识”,而是:
| 你真正买到的东西 | 在这四个模型里怎么体现 |
|---|---|
| 更稳的交互分布 | DeepSeek V4 的 thinking / non-thinking 双模式,MiniMax M2.7 的高技能遵循率 |
| 更强的工具与结构化行为 | DeepSeek V4 的 agent 优化、MiniMax M2.7 的 harness 适配、Kimi K2.6 的工具主动性 |
| 更长时间不跑偏的执行过程 | GLM-5.1 的 8 小时闭环执行,Kimi K2.6 的多小时到多天任务 |
| 更强的 agent 交付能力 | DeepSeek V4 的 agentic coding,GLM-5.1 的实验-分析-优化闭环,Kimi K2.6 的 swarm 与持续后台 agent |
为什么这一段很贵
后训练的单次 FLOPs 往往小于大规模预训练,
但它越来越贵在别的地方:
- 长链路 rollout 本身就要重新烧很多推理成本
- 工具、浏览器、执行环境和 verifier 都要一起接入
- 长上下文和长时任务的回归测试会非常重
- coding、agent、office、research 这些场景往往要分别做评测
- 版本迭代很快,整条后训练流水线会持续滚动
用这四个模型去看,这个成本结构会更具体:
DeepSeek V4要为超长上下文和 agentic coding 付出更重的评测与对齐成本GLM-5.1要为8小时闭环执行付出更长 rollout 和更重回归成本MiniMax M2.7要为复杂技能遵循率、Office 与 coding 混合任务付出更多场景化对齐成本Kimi K2.6要为长程 coding、agent swarm 和持续后台 agent 付出更长链路的行为对齐成本
结论
- 预训练决定能力上限,后训练决定这些能力能不能被组织成产品和 agent 行为
- 拿
DeepSeek V4、GLM-5.1、MiniMax M2.7、Kimi K2.6来看,后训练的重点已经明显从“聊天对齐”转向“长程执行、工具调用、agent 交付” - 后训练强化学习和运行时 harness 本质上都在建立反馈回路;前者把常见反馈写进权重,后者把场景化反馈留在任务现场
- 今天很多模型之间的实际体验差距,已经不只是底座差距,而是后训练和产品化整理能力的差距