Skip to content

模型价格与能力

这一页不回答“谁绝对第一”,而是回答另一件更有用的事:

今天常用来写代码、做 agent、跑仓库任务的模型,大致落在哪些性能带、价格带,本地模型又落在哪一层。

读表口径

次序是 2026-04-30 的粗排,主要综合 LMArena / WebDev ArenaSWE-bench / Terminal-Bench、厂商公开 coding 评测和社区长期反馈。
输出价统一写成 人民币 / 百万输出 token
自建 / 本地口径请结合 本地算力账 看:轻量单卡和重型 NVIDIA 集群不是同一种账,本页不把所有自建路线压成一个固定输出价。
Gemini 3.1 Pro 这一行的价格,是按 Google 当前公开的 Gemini Developer APIGemini 3 Pro Preview 档位折算,属于基于官方页面的口径映射。
DeepSeek V4 Pro 这一行按官方 75% 限时折扣价计算,活动截至 2026-05-31
NVIDIA NIM Free Endpoint 这一类写成 约 ¥0,表示免费试用入口,不代表稳定生产价格。

全景表

次序模型输出价(元 / M)形态大致性能位置更适合什么任务
1GPT-5.5217.50官方 API当前最强的通用 coding / agent 档之一复杂仓库改造、长链路调试、重型 agent
2Claude Opus 4.7181.25官方 API前排旗舰,长程自治很强高难代码修复、跨栈重构、复杂工具链任务
3Gemini 3.1 Pro87.00官方 API顶级多模态与长上下文档大代码库、长文档加代码、复杂计划任务
4Claude Sonnet 4.6108.75官方 API一线主力档多文件开发、稳定仓库修复、长上下文 coding
5GPT-5.4108.75官方 API一线主力档通用工程开发、代码解释、评审、自动修复
6GLM-5.131.90官方 API前排长程 agent 档长时执行、复杂工程优化、多轮工具链
7Kimi K2.627.00官方 API / 开放权重前排开放路线档长仓库任务、前端到全栈生成、agent swarm
8MiniMax M2.78.70官方 API强势中高档,不该按低端看复杂工程任务、Office 与代码混合工作流、agent harness
9DeepSeek V4 Pro6.31官方 API / 开放权重重型开放路线主力档长上下文仓库分析、agent coding、私有化前验证
10Claude Haiku 4.536.25官方 API高速强模型档子代理、批量代码审查、高频工具调用
11Qwen3.6 Plus12.00官方 API高性价比 hosted 主力档中型项目开发、仓库常规修复、中文工程场景
12Gemini 3 Flash21.75官方 API高速闭源中档搜索加编码、快速多轮迭代、实时交互
13Step-3.5 Flash2.18官方 API / 开放权重便宜但很能打批量补全、测试生成、规则明确的小修小补
14GPT-5.4 mini32.63官方 API小模型高质量档子代理、补全、轻量 bugfix
15DeepSeek V4 Flash2.03官方 API / 开放权重超低价长上下文档批量改写、代码整理、简单 agent
16Qwen3.6 27B约 6-9本地单卡本地最值得认真看的甜点位小模块、多文件常规开发、仓库内日常修复
17Qwen3.6 35B-A3B约 6-9本地单卡本地 MoE 甜点位高并发 agent、批量任务、成本敏感工作流
18Mistral Small 4约 0NVIDIA NIM Free Endpoint免费体验线里最强的一档体验 coding、reasoning、多模态文档理解、原型验证
19nemotron-3-super-120b-a12b约 0NVIDIA NIM Free Endpoint免费体验线里的重型 agent / coding 档长上下文、tool use、agentic coding、规划与验证
20nemotron-3-nano-30b-a3b约 0NVIDIA NIM Free Endpoint免费体验线里的轻重平衡档coding、reasoning、RAG、子代理、原型工作流

怎么看这张表

1. 真正的前排旗舰,价格已经拉到 ¥87-218 / M

这一段的共同点不是“贵”,而是:

  • 能稳定处理更大的代码库
  • 更擅长长程 agent 和复杂验证链路
  • 更适合高价值、低失败容忍度的工程任务

如果团队目标是最终交付率,这一段仍然最强。

2. 国产和开放路线,已经把价格压到了 ¥6-32 / M

这一段最值得认真看的是:

  • GLM-5.1
  • Kimi K2.6
  • MiniMax M2.7
  • DeepSeek V4 Pro
  • Qwen3.6 Plus

它们的意义不是单纯便宜,而是:

  • 在真实 coding / agent 任务里已经足够强
  • 单位输出价格明显低于前排闭源旗舰
  • 很多团队的主力模型,实际上会落在这一段

3. Step-3.5 FlashDeepSeek V4 Flash 代表的是便宜任务层

这类模型不负责最难的仓库级交付。
它们更像:

  • 测试补全
  • 批量改写
  • 模板化代码生成
  • 高频子代理

真正的价值在于把很多低价值 token 流量压到 ¥2-3 / M

4. 轻量本地单卡仍有位置,但重型集群要另算

Qwen3.6 27B / 35B-A3B 这两行保留在表里,主要是为了给 轻量本地单卡 一个参照点。

它们最重要的意义是:

  • 能在单卡本地认真工作
  • 成本大致落在 ¥6-9 / M
  • 已经能覆盖大量日常工程任务

但如果你讨论的是 DeepSeek V4 ProKimi K2.6GLM-5.1 这种前排 agent / coding 模型,自建成本应该回到 本地算力账 里的 NVIDIA 集群 口径,而不是直接拿单卡 ¥6-9 / M 去类比。

这也意味着一个很重要的现实:

本地不一定比平台便宜。

如果只看纯 token 单价,Step-3.5 FlashDeepSeek V4 Flash 这一类 hosted 模型,很多时候已经比本地更便宜。
轻量本地真正买到的,更多是隐私、可控、离线和可改造空间;而重型集群买到的,则是私有化、长上下文和更强的 agent 自主性。

几个容易看错的地方

  • Qwen3.6 27B 这一行是轻量单卡本地示例,不代表 B300 / GB300 级 frontier 模型自建成本
  • DeepSeek V4 Pro 当前看起来特别便宜,是因为官方折扣仍在生效
  • MiniMax M2.7 不该被放到表尾,它在真实工程、Office 与 agent harness 这类任务里明显强于“便宜模型层”
  • NVIDIA NIM 免费线适合体验和原型验证,不适合直接把“免费”理解成长期生产成本;这里列的是 Mistral Small 4nemotron-3-super-120b-a12bnemotron-3-nano-30b-a3b

结论

  • 这张表的目的不是做精确排行榜,而是建立 性能带价格带 的全局感觉
  • 前排闭源旗舰大致在 ¥87-218 / M
  • 国产 hosted 主力已经压到 ¥6-32 / M
  • 便宜任务层已经压到 ¥2-3 / M
  • 本地 27B-35B 大致在 ¥6-9 / M,买的是私有化和可控,不是天然最低价

参考资料

价格、型号与硬件配置按 2026-04-28 的公开页面静态整理。