后训练

数据与训练解决的是：

模型能不能学到世界知识和基础能力。

后训练解决的则是：

这些能力能不能被整理成用户真正可用、可控、可交付的行为。

这一层今天越来越重要。
因为前沿模型之间的差距，很多时候已经不只是“底座聪不聪明”，而是：

能不能长时间不跑偏
能不能稳定调工具
能不能在复杂工程里自己收敛
能不能把 reasoning、coding、agent 行为组织成产品

先把四个当前模型放在一起看

如果只看这一代最有代表性的几条线，DeepSeek V4、GLM-5.1、MiniMax M2.7、Kimi K2.6 已经很能说明问题：

模型	公开信号	更像在把什么反馈内化进权重	读者最该看到什么
`DeepSeek V4 Pro`	`1.6T total / 49B active`、`1M` 上下文、agentic coding 公开成绩很强，并明确提到对 agent 能力做了专门优化	reasoning、agent coding、长上下文下的工具与交付行为	后训练不再只是“把模型调得更听话”，而是在把超大 open-weight 模型整理成可部署的 agent 主力
`GLM-5.1`	`~744B total / 40B active`、`200K` 上下文、可持续执行单任务 `8 小时`，从计划到测试、修复、优化、交付形成闭环	长时目标保持、闭环优化、长程工程交付	后训练开始明显围绕“能不能长期稳定工作”来做，而不是只围绕单轮回答
`MiniMax M2.7`	`230B total / 10B active`、`200K` 上下文、面向 agent harness、软件工程和 Office 复杂任务，复杂技能遵循率很高	工具脚手架、技能遵循率、低 active 成本下的复杂任务交付	后训练不只是让最大模型更强，也是在把更低 active size 的模型往复杂 agent 工作流里推
`Kimi K2.6`	`1T total / 32B active`、长程 coding、agent swarm、持续后台 agent、长时间工具调用与多步执行都明显增强	长程稳定性、主动性、工具调用、多代理协调	后训练越来越像在训练“长程 agent 行为”，而不是训练一次性聊天回答

先从这张表里抓住 4 件事：

后训练的目标，已经从“更像聊天助手”明显转向“更像能交付工作的 agent”
前沿模型的改进，越来越多体现在长链路稳定性，而不只是单题分数
tool use、browser、execution、MCP、agent swarm 这些能力，并不只是运行时外挂，很多已经部分写进了模型权重
这也正好和推理时扩展、Harness 与 Agent 那页能接上：后训练是在把常见反馈内化，harness 是把场景化反馈留在运行时

这些模型背后，后训练通常在做什么

公开材料通常不会把完整训练配方全部摊开，但从这一代模型的表现看，后训练大致都在做 4 类事：

1. 把模型拉到产品交互分布上

更稳的指令遵循
更稳的结构化输出
更稳的代码风格和工具调用格式
更像真实产品，而不是论文里的裸模型

2. 把常见反馈写进权重里

这一层最重要的不是“模型会不会”，而是：

在真实任务里，什么叫做更好的下一步。

常见反馈来源包括：

人类偏好
reward model
judge / verifier
测试结果
工具返回

3. 把模型往真实工作流里推

这一代最明显的变化是：后训练越来越直接面对真实 agent 工作流。

不只是聊天
不只是答题
而是代码、工具、浏览器、执行环境、长时任务和多代理协作

4. 把强能力压给更便宜、更稳的型号

蒸馏今天仍然重要，因为产品线不可能只卖一个最重的旗舰。

强模型里学到的：

reasoning 轨迹
agent 行为模式
工具调用习惯
交互偏好

最终都要被整理并压给更快、更便宜的型号。

1. DeepSeek V4：把超大 open-weight 模型整理成 agent 主力

DeepSeek V4 Pro 的公开信号很集中：

1.6T 总参数，49B 激活参数
1M 上下文
明确强调 agentic coding 能力
明确写了 Dedicated Optimizations for Agent Capabilities
同时提供 thinking / non-thinking 两种产品模式

这组信号说明，DeepSeek V4 的后训练重点已经不再只是“把底座调成聊天模型”，而更像是在做三件事：

让重型 reasoning 模型在 coding / tool use / agent 任务上更稳定
让超长上下文不只是“能塞进去”，而是还能维持目标不漂移
把同一个底座整理成更适合不同产品面的行为模式

对读者最重要的判断是：

DeepSeek V4 这类模型，后训练正在把“常见 agent 行为”写进权重里，好让它在很多任务上不用每次都靠很重的运行时补救。

2. GLM-5.1：后训练开始围绕长程闭环执行来做

GLM-5.1 最值得看的是，它公开强调的已经不是单轮对话，而是：

可在单个任务上持续工作 8 小时
从规划、执行到测试、修复、优化、交付形成完整闭环
在代表性案例里完成 655 次迭代
把向量数据库查询吞吐提升到初始生产版本的 6.9x
在 KernelBench Level 3 上实现 3.6x 几何平均加速

这组信号非常关键，因为它说明：

后训练已经不只是训练“更好的回答”
而是在训练“更长时间不跑偏的执行过程”
模型要学会在长链路里持续对齐目标、吸收反馈、减少无效试错

所以拿 GLM-5.1 来理解，后训练更像是在把下面这种回路部分写进模型：

实验 -> 观察 -> 分析 -> 调整 -> 再实验 -> 交付。

这也解释了为什么 GLM-5.1 适合和推理时扩展、Harness 与 Agent 放在一条线上看：

后训练是在把常见闭环反馈内化
harness 则是在真实场景里继续追加场景化反馈

3. MiniMax M2.7：把低 active size 模型往复杂 harness 里推

MiniMax M2.7 的信号很有代表性，因为它说明强 agent / coding 模型未必一定要靠极高 active size：

230B 总参数，10B 激活参数
面向 agentic harnesses、软件工程、Office 和复杂生产力任务
在 40 个复杂技能案例上有 97% 的技能遵循率
SWE-Pro 达到 56.22%
MMClaw 这类长程 agent 使用里，相比 M2.5 有明显提升
官方生态直接提供了 fine-tuning 和 RL 配方

这背后更像是在做 3 件事：

把低 active 成本的 MoE 模型整理成可交付的 coding / office / agent 工作模型
强化复杂技能遵循率，而不只是一次性答对
让模型更适合现成的 tool scaffolding、parser 和 agent harness

MiniMax M2.7 这个例子很重要，因为它提醒读者：

后训练不只是“把最贵模型变更强”
也是“把更省的模型推到更复杂的交付区间”

4. Kimi K2.6：后训练越来越像在训练长程 agent 行为

Kimi K2.6 是这四个例子里最明显把“长程 agent 行为”直接摆到台前的一个：

在一个本地推理优化案例里，连续执行 12+ 小时，完成 4000+ 次工具调用和 14 轮迭代
在 exchange-core 案例里，连续执行 13 小时，进行了 1000+ 次工具调用，修改 4000+ 行代码
agent swarm 可扩到 300 个子 agent、4000 个协调步骤
公开展示了一个持续 5 天的自主工程 worklog
多家外部伙伴都提到它在 instruction following、tool calling、long-horizon reliability 上明显增强

更关键的是，Kimi K2.6 的公开 benchmark 说明里，已经直接把：

工具调用
上下文管理
多步 agent 框架
长链路任务完成率

这些都拉进了正式评测口径。

这说明 Kimi K2.6 的后训练重点，很可能已经不是普通意义上的“把回答调顺”，而是在强化：

长时间任务里的目标保持
更主动的任务拆解
更稳的工具调用和错误恢复
多代理协同时的行为一致性

如果只用一句话概括：

Kimi K2.6 让人看到，后训练正在从“聊天对齐”走向“长程 agent 行为对齐”。

这四个例子里，后训练真正买到的是什么

如果用工程语言来讲，后训练买到的主要不是“更多世界知识”，而是：

你真正买到的东西	在这四个模型里怎么体现
更稳的交互分布	`DeepSeek V4` 的 thinking / non-thinking 双模式，`MiniMax M2.7` 的高技能遵循率
更强的工具与结构化行为	`DeepSeek V4` 的 agent 优化、`MiniMax M2.7` 的 harness 适配、`Kimi K2.6` 的工具主动性
更长时间不跑偏的执行过程	`GLM-5.1` 的 `8` 小时闭环执行，`Kimi K2.6` 的多小时到多天任务
更强的 agent 交付能力	`DeepSeek V4` 的 agentic coding，`GLM-5.1` 的实验-分析-优化闭环，`Kimi K2.6` 的 swarm 与持续后台 agent

为什么这一段很贵

后训练的单次 FLOPs 往往小于大规模预训练，
但它越来越贵在别的地方：

长链路 rollout 本身就要重新烧很多推理成本
工具、浏览器、执行环境和 verifier 都要一起接入
长上下文和长时任务的回归测试会非常重
coding、agent、office、research 这些场景往往要分别做评测
版本迭代很快，整条后训练流水线会持续滚动

用这四个模型去看，这个成本结构会更具体：

DeepSeek V4 要为超长上下文和 agentic coding 付出更重的评测与对齐成本
GLM-5.1 要为 8 小时闭环执行付出更长 rollout 和更重回归成本
MiniMax M2.7 要为复杂技能遵循率、Office 与 coding 混合任务付出更多场景化对齐成本
Kimi K2.6 要为长程 coding、agent swarm 和持续后台 agent 付出更长链路的行为对齐成本

结论

预训练决定能力上限，后训练决定这些能力能不能被组织成产品和 agent 行为
拿 DeepSeek V4、GLM-5.1、MiniMax M2.7、Kimi K2.6 来看，后训练的重点已经明显从“聊天对齐”转向“长程执行、工具调用、agent 交付”
后训练强化学习和运行时 harness 本质上都在建立反馈回路；前者把常见反馈写进权重，后者把场景化反馈留在任务现场
今天很多模型之间的实际体验差距，已经不只是底座差距，而是后训练和产品化整理能力的差距

后训练 ​

先把四个当前模型放在一起看 ​

这些模型背后，后训练通常在做什么 ​

1. 把模型拉到产品交互分布上 ​

2. 把常见反馈写进权重里 ​

3. 把模型往真实工作流里推 ​

4. 把强能力压给更便宜、更稳的型号 ​

1. DeepSeek V4：把超大 open-weight 模型整理成 agent 主力 ​

2. GLM-5.1：后训练开始围绕长程闭环执行来做 ​

3. MiniMax M2.7：把低 active size 模型往复杂 harness 里推 ​

4. Kimi K2.6：后训练越来越像在训练长程 agent 行为 ​

这四个例子里，后训练真正买到的是什么 ​

为什么这一段很贵 ​

结论 ​

参考资料 ​

后训练