Appearance
模型价格与能力
这一页不回答“谁绝对第一”,而是回答另一件更有用的事:
今天常用来写代码、做 agent、跑仓库任务的模型,大致落在哪些性能带、价格带,本地模型又落在哪一层。
读表口径
次序是 2026-04-30 的粗排,主要综合 LMArena / WebDev Arena、SWE-bench / Terminal-Bench、厂商公开 coding 评测和社区长期反馈。
输出价统一写成 人民币 / 百万输出 token。
自建 / 本地口径请结合 本地算力账 看:轻量单卡和重型 NVIDIA 集群不是同一种账,本页不把所有自建路线压成一个固定输出价。Gemini 3.1 Pro 这一行的价格,是按 Google 当前公开的 Gemini Developer API 中 Gemini 3 Pro Preview 档位折算,属于基于官方页面的口径映射。DeepSeek V4 Pro 这一行按官方 75% 限时折扣价计算,活动截至 2026-05-31。NVIDIA NIM Free Endpoint 这一类写成 约 ¥0,表示免费试用入口,不代表稳定生产价格。
全景表
| 次序 | 模型 | 输出价(元 / M) | 形态 | 大致性能位置 | 更适合什么任务 |
|---|---|---|---|---|---|
| 1 | GPT-5.5 | 217.50 | 官方 API | 当前最强的通用 coding / agent 档之一 | 复杂仓库改造、长链路调试、重型 agent |
| 2 | Claude Opus 4.7 | 181.25 | 官方 API | 前排旗舰,长程自治很强 | 高难代码修复、跨栈重构、复杂工具链任务 |
| 3 | Gemini 3.1 Pro | 87.00 | 官方 API | 顶级多模态与长上下文档 | 大代码库、长文档加代码、复杂计划任务 |
| 4 | Claude Sonnet 4.6 | 108.75 | 官方 API | 一线主力档 | 多文件开发、稳定仓库修复、长上下文 coding |
| 5 | GPT-5.4 | 108.75 | 官方 API | 一线主力档 | 通用工程开发、代码解释、评审、自动修复 |
| 6 | GLM-5.1 | 31.90 | 官方 API | 前排长程 agent 档 | 长时执行、复杂工程优化、多轮工具链 |
| 7 | Kimi K2.6 | 27.00 | 官方 API / 开放权重 | 前排开放路线档 | 长仓库任务、前端到全栈生成、agent swarm |
| 8 | MiniMax M2.7 | 8.70 | 官方 API | 强势中高档,不该按低端看 | 复杂工程任务、Office 与代码混合工作流、agent harness |
| 9 | DeepSeek V4 Pro | 6.31 | 官方 API / 开放权重 | 重型开放路线主力档 | 长上下文仓库分析、agent coding、私有化前验证 |
| 10 | Claude Haiku 4.5 | 36.25 | 官方 API | 高速强模型档 | 子代理、批量代码审查、高频工具调用 |
| 11 | Qwen3.6 Plus | 12.00 | 官方 API | 高性价比 hosted 主力档 | 中型项目开发、仓库常规修复、中文工程场景 |
| 12 | Gemini 3 Flash | 21.75 | 官方 API | 高速闭源中档 | 搜索加编码、快速多轮迭代、实时交互 |
| 13 | Step-3.5 Flash | 2.18 | 官方 API / 开放权重 | 便宜但很能打 | 批量补全、测试生成、规则明确的小修小补 |
| 14 | GPT-5.4 mini | 32.63 | 官方 API | 小模型高质量档 | 子代理、补全、轻量 bugfix |
| 15 | DeepSeek V4 Flash | 2.03 | 官方 API / 开放权重 | 超低价长上下文档 | 批量改写、代码整理、简单 agent |
| 16 | Qwen3.6 27B | 约 6-9 | 本地单卡 | 本地最值得认真看的甜点位 | 小模块、多文件常规开发、仓库内日常修复 |
| 17 | Qwen3.6 35B-A3B | 约 6-9 | 本地单卡 | 本地 MoE 甜点位 | 高并发 agent、批量任务、成本敏感工作流 |
| 18 | Mistral Small 4 | 约 0 | NVIDIA NIM Free Endpoint | 免费体验线里最强的一档 | 体验 coding、reasoning、多模态文档理解、原型验证 |
| 19 | nemotron-3-super-120b-a12b | 约 0 | NVIDIA NIM Free Endpoint | 免费体验线里的重型 agent / coding 档 | 长上下文、tool use、agentic coding、规划与验证 |
| 20 | nemotron-3-nano-30b-a3b | 约 0 | NVIDIA NIM Free Endpoint | 免费体验线里的轻重平衡档 | coding、reasoning、RAG、子代理、原型工作流 |
怎么看这张表
1. 真正的前排旗舰,价格已经拉到 ¥87-218 / M
这一段的共同点不是“贵”,而是:
- 能稳定处理更大的代码库
- 更擅长长程 agent 和复杂验证链路
- 更适合高价值、低失败容忍度的工程任务
如果团队目标是最终交付率,这一段仍然最强。
2. 国产和开放路线,已经把价格压到了 ¥6-32 / M
这一段最值得认真看的是:
GLM-5.1Kimi K2.6MiniMax M2.7DeepSeek V4 ProQwen3.6 Plus
它们的意义不是单纯便宜,而是:
- 在真实 coding / agent 任务里已经足够强
- 单位输出价格明显低于前排闭源旗舰
- 很多团队的主力模型,实际上会落在这一段
3. Step-3.5 Flash、DeepSeek V4 Flash 代表的是便宜任务层
这类模型不负责最难的仓库级交付。
它们更像:
- 测试补全
- 批量改写
- 模板化代码生成
- 高频子代理
真正的价值在于把很多低价值 token 流量压到 ¥2-3 / M。
4. 轻量本地单卡仍有位置,但重型集群要另算
Qwen3.6 27B / 35B-A3B 这两行保留在表里,主要是为了给 轻量本地单卡 一个参照点。
它们最重要的意义是:
- 能在单卡本地认真工作
- 成本大致落在
¥6-9 / M - 已经能覆盖大量日常工程任务
但如果你讨论的是 DeepSeek V4 Pro、Kimi K2.6、GLM-5.1 这种前排 agent / coding 模型,自建成本应该回到 本地算力账 里的 NVIDIA 集群 口径,而不是直接拿单卡 ¥6-9 / M 去类比。
这也意味着一个很重要的现实:
本地不一定比平台便宜。
如果只看纯 token 单价,Step-3.5 Flash、DeepSeek V4 Flash 这一类 hosted 模型,很多时候已经比本地更便宜。
轻量本地真正买到的,更多是隐私、可控、离线和可改造空间;而重型集群买到的,则是私有化、长上下文和更强的 agent 自主性。
几个容易看错的地方
Qwen3.6 27B这一行是轻量单卡本地示例,不代表B300 / GB300级 frontier 模型自建成本DeepSeek V4 Pro当前看起来特别便宜,是因为官方折扣仍在生效MiniMax M2.7不该被放到表尾,它在真实工程、Office 与 agent harness 这类任务里明显强于“便宜模型层”NVIDIA NIM免费线适合体验和原型验证,不适合直接把“免费”理解成长期生产成本;这里列的是Mistral Small 4、nemotron-3-super-120b-a12b和nemotron-3-nano-30b-a3b
结论
- 这张表的目的不是做精确排行榜,而是建立
性能带和价格带的全局感觉 - 前排闭源旗舰大致在
¥87-218 / M - 国产 hosted 主力已经压到
¥6-32 / M - 便宜任务层已经压到
¥2-3 / M - 本地
27B-35B大致在¥6-9 / M,买的是私有化和可控,不是天然最低价
参考资料
- OpenAI API Pricing
- Anthropic: Claude Opus 4.7
- Anthropic: Claude Sonnet 4.6
- Anthropic: Claude Haiku 4.5
- Google Gemini API Pricing
- Google DeepMind: Gemini 3.1 Pro
- Z.AI: GLM-5.1
- Z.AI Pricing
- Kimi K2.6
- Kimi K2.6 定价
- MiniMax M2.7
- MiniMax Pay as You Go
- DeepSeek 模型与价格
- DeepSeek V4 Preview
- Qwen3.6-Plus
- 阿里云百炼模型调用价格
- Qwen3.6-27B
- Qwen3.6-35B-A3B
- Step-3.5-Flash
- NVIDIA NIM:nemotron-3-super-120b-a12b
- NVIDIA NIM:nemotron-3-nano-30b-a3b
- NVIDIA NIM:Mistral Small 4 119B A6B