Skip to content

后训练

数据与训练解决的是:

模型能不能学到世界知识和基础能力。

后训练解决的则是:

这些能力能不能被整理成用户真正可用、可控、可交付的行为。

这一层今天越来越重要。
因为前沿模型之间的差距,很多时候已经不只是“底座聪不聪明”,而是:

  • 能不能长时间不跑偏
  • 能不能稳定调工具
  • 能不能在复杂工程里自己收敛
  • 能不能把 reasoning、coding、agent 行为组织成产品

先把四个当前模型放在一起看

如果只看这一代最有代表性的几条线,DeepSeek V4GLM-5.1MiniMax M2.7Kimi K2.6 已经很能说明问题:

模型公开信号更像在把什么反馈内化进权重读者最该看到什么
DeepSeek V4 Pro1.6T total / 49B active1M 上下文、agentic coding 公开成绩很强,并明确提到对 agent 能力做了专门优化reasoning、agent coding、长上下文下的工具与交付行为后训练不再只是“把模型调得更听话”,而是在把超大 open-weight 模型整理成可部署的 agent 主力
GLM-5.1~744B total / 40B active200K 上下文、可持续执行单任务 8 小时,从计划到测试、修复、优化、交付形成闭环长时目标保持、闭环优化、长程工程交付后训练开始明显围绕“能不能长期稳定工作”来做,而不是只围绕单轮回答
MiniMax M2.7230B total / 10B active200K 上下文、面向 agent harness、软件工程和 Office 复杂任务,复杂技能遵循率很高工具脚手架、技能遵循率、低 active 成本下的复杂任务交付后训练不只是让最大模型更强,也是在把更低 active size 的模型往复杂 agent 工作流里推
Kimi K2.61T total / 32B active、长程 coding、agent swarm、持续后台 agent、长时间工具调用与多步执行都明显增强长程稳定性、主动性、工具调用、多代理协调后训练越来越像在训练“长程 agent 行为”,而不是训练一次性聊天回答

先从这张表里抓住 4 件事:

  1. 后训练的目标,已经从“更像聊天助手”明显转向“更像能交付工作的 agent”
  2. 前沿模型的改进,越来越多体现在长链路稳定性,而不只是单题分数
  3. tool use、browser、execution、MCP、agent swarm 这些能力,并不只是运行时外挂,很多已经部分写进了模型权重
  4. 这也正好和 推理时扩展、Harness 与 Agent 那页能接上:后训练是在把常见反馈内化,harness 是把场景化反馈留在运行时

这些模型背后,后训练通常在做什么

公开材料通常不会把完整训练配方全部摊开,但从这一代模型的表现看,后训练大致都在做 4 类事:

1. 把模型拉到产品交互分布上

  • 更稳的指令遵循
  • 更稳的结构化输出
  • 更稳的代码风格和工具调用格式
  • 更像真实产品,而不是论文里的裸模型

2. 把常见反馈写进权重里

这一层最重要的不是“模型会不会”,而是:

在真实任务里,什么叫做更好的下一步。

常见反馈来源包括:

  • 人类偏好
  • reward model
  • judge / verifier
  • 测试结果
  • 工具返回

3. 把模型往真实工作流里推

这一代最明显的变化是:后训练越来越直接面对真实 agent 工作流。

  • 不只是聊天
  • 不只是答题
  • 而是代码、工具、浏览器、执行环境、长时任务和多代理协作

4. 把强能力压给更便宜、更稳的型号

蒸馏今天仍然重要,因为产品线不可能只卖一个最重的旗舰。

强模型里学到的:

  • reasoning 轨迹
  • agent 行为模式
  • 工具调用习惯
  • 交互偏好

最终都要被整理并压给更快、更便宜的型号。

1. DeepSeek V4:把超大 open-weight 模型整理成 agent 主力

DeepSeek V4 Pro 的公开信号很集中:

  • 1.6T 总参数,49B 激活参数
  • 1M 上下文
  • 明确强调 agentic coding 能力
  • 明确写了 Dedicated Optimizations for Agent Capabilities
  • 同时提供 thinking / non-thinking 两种产品模式

这组信号说明,DeepSeek V4 的后训练重点已经不再只是“把底座调成聊天模型”,而更像是在做三件事:

  • 让重型 reasoning 模型在 coding / tool use / agent 任务上更稳定
  • 让超长上下文不只是“能塞进去”,而是还能维持目标不漂移
  • 把同一个底座整理成更适合不同产品面的行为模式

对读者最重要的判断是:

DeepSeek V4 这类模型,后训练正在把“常见 agent 行为”写进权重里,好让它在很多任务上不用每次都靠很重的运行时补救。

2. GLM-5.1:后训练开始围绕长程闭环执行来做

GLM-5.1 最值得看的是,它公开强调的已经不是单轮对话,而是:

  • 可在单个任务上持续工作 8 小时
  • 从规划、执行到测试、修复、优化、交付形成完整闭环
  • 在代表性案例里完成 655 次迭代
  • 把向量数据库查询吞吐提升到初始生产版本的 6.9x
  • KernelBench Level 3 上实现 3.6x 几何平均加速

这组信号非常关键,因为它说明:

  • 后训练已经不只是训练“更好的回答”
  • 而是在训练“更长时间不跑偏的执行过程”
  • 模型要学会在长链路里持续对齐目标、吸收反馈、减少无效试错

所以拿 GLM-5.1 来理解,后训练更像是在把下面这种回路部分写进模型:

实验 -> 观察 -> 分析 -> 调整 -> 再实验 -> 交付。

这也解释了为什么 GLM-5.1 适合和 推理时扩展、Harness 与 Agent 放在一条线上看:

  • 后训练是在把常见闭环反馈内化
  • harness 则是在真实场景里继续追加场景化反馈

3. MiniMax M2.7:把低 active size 模型往复杂 harness 里推

MiniMax M2.7 的信号很有代表性,因为它说明强 agent / coding 模型未必一定要靠极高 active size:

  • 230B 总参数,10B 激活参数
  • 面向 agentic harnesses、软件工程、Office 和复杂生产力任务
  • 40 个复杂技能案例上有 97% 的技能遵循率
  • SWE-Pro 达到 56.22%
  • MMClaw 这类长程 agent 使用里,相比 M2.5 有明显提升
  • 官方生态直接提供了 fine-tuningRL 配方

这背后更像是在做 3 件事:

  • 把低 active 成本的 MoE 模型整理成可交付的 coding / office / agent 工作模型
  • 强化复杂技能遵循率,而不只是一次性答对
  • 让模型更适合现成的 tool scaffolding、parser 和 agent harness

MiniMax M2.7 这个例子很重要,因为它提醒读者:

  • 后训练不只是“把最贵模型变更强”
  • 也是“把更省的模型推到更复杂的交付区间”

4. Kimi K2.6:后训练越来越像在训练长程 agent 行为

Kimi K2.6 是这四个例子里最明显把“长程 agent 行为”直接摆到台前的一个:

  • 在一个本地推理优化案例里,连续执行 12+ 小时,完成 4000+ 次工具调用和 14 轮迭代
  • exchange-core 案例里,连续执行 13 小时,进行了 1000+ 次工具调用,修改 4000+ 行代码
  • agent swarm 可扩到 300 个子 agent、4000 个协调步骤
  • 公开展示了一个持续 5 天的自主工程 worklog
  • 多家外部伙伴都提到它在 instruction following、tool calling、long-horizon reliability 上明显增强

更关键的是,Kimi K2.6 的公开 benchmark 说明里,已经直接把:

  • 工具调用
  • 上下文管理
  • 多步 agent 框架
  • 长链路任务完成率

这些都拉进了正式评测口径。

这说明 Kimi K2.6 的后训练重点,很可能已经不是普通意义上的“把回答调顺”,而是在强化:

  • 长时间任务里的目标保持
  • 更主动的任务拆解
  • 更稳的工具调用和错误恢复
  • 多代理协同时的行为一致性

如果只用一句话概括:

Kimi K2.6 让人看到,后训练正在从“聊天对齐”走向“长程 agent 行为对齐”。

这四个例子里,后训练真正买到的是什么

如果用工程语言来讲,后训练买到的主要不是“更多世界知识”,而是:

你真正买到的东西在这四个模型里怎么体现
更稳的交互分布DeepSeek V4 的 thinking / non-thinking 双模式,MiniMax M2.7 的高技能遵循率
更强的工具与结构化行为DeepSeek V4 的 agent 优化、MiniMax M2.7 的 harness 适配、Kimi K2.6 的工具主动性
更长时间不跑偏的执行过程GLM-5.18 小时闭环执行,Kimi K2.6 的多小时到多天任务
更强的 agent 交付能力DeepSeek V4 的 agentic coding,GLM-5.1 的实验-分析-优化闭环,Kimi K2.6 的 swarm 与持续后台 agent

为什么这一段很贵

后训练的单次 FLOPs 往往小于大规模预训练,
但它越来越贵在别的地方:

  • 长链路 rollout 本身就要重新烧很多推理成本
  • 工具、浏览器、执行环境和 verifier 都要一起接入
  • 长上下文和长时任务的回归测试会非常重
  • coding、agent、office、research 这些场景往往要分别做评测
  • 版本迭代很快,整条后训练流水线会持续滚动

用这四个模型去看,这个成本结构会更具体:

  • DeepSeek V4 要为超长上下文和 agentic coding 付出更重的评测与对齐成本
  • GLM-5.1 要为 8 小时闭环执行付出更长 rollout 和更重回归成本
  • MiniMax M2.7 要为复杂技能遵循率、Office 与 coding 混合任务付出更多场景化对齐成本
  • Kimi K2.6 要为长程 coding、agent swarm 和持续后台 agent 付出更长链路的行为对齐成本

结论

  • 预训练决定能力上限,后训练决定这些能力能不能被组织成产品和 agent 行为
  • DeepSeek V4GLM-5.1MiniMax M2.7Kimi K2.6 来看,后训练的重点已经明显从“聊天对齐”转向“长程执行、工具调用、agent 交付”
  • 后训练强化学习和运行时 harness 本质上都在建立反馈回路;前者把常见反馈写进权重,后者把场景化反馈留在任务现场
  • 今天很多模型之间的实际体验差距,已经不只是底座差距,而是后训练和产品化整理能力的差距

参考资料

价格、型号与硬件配置按 2026-04-28 的公开页面静态整理。