模型价格与能力

这一页不回答“谁绝对第一”，而是回答另一件更有用的事：

今天常用来写代码、做 agent、跑仓库任务的模型，大致落在哪些性能带、价格带，本地模型又落在哪一层。

读表口径

次序是 2026-04-30 的粗排，主要综合 LMArena / WebDev Arena、SWE-bench / Terminal-Bench、厂商公开 coding 评测和社区长期反馈。
输出价统一写成 人民币 / 百万输出 token。
自建 / 本地口径请结合本地算力账看：轻量单卡和重型 NVIDIA 集群不是同一种账，本页不把所有自建路线压成一个固定输出价。
Gemini 3.1 Pro 这一行的价格，是按 Google 当前公开的 Gemini Developer API 中 Gemini 3 Pro Preview 档位折算，属于基于官方页面的口径映射。
DeepSeek V4 Pro 这一行按官方 75% 限时折扣价计算，活动截至 2026-05-31。
NVIDIA NIM Free Endpoint 这一类写成 约 ¥0，表示免费试用入口，不代表稳定生产价格。

全景表

次序	模型	输出价（元 / M）	形态	大致性能位置	更适合什么任务
1	GPT-5.5	`217.50`	官方 API	当前最强的通用 coding / agent 档之一	复杂仓库改造、长链路调试、重型 agent
2	Claude Opus 4.7	`181.25`	官方 API	前排旗舰，长程自治很强	高难代码修复、跨栈重构、复杂工具链任务
3	Gemini 3.1 Pro	`87.00`	官方 API	顶级多模态与长上下文档	大代码库、长文档加代码、复杂计划任务
4	Claude Sonnet 4.6	`108.75`	官方 API	一线主力档	多文件开发、稳定仓库修复、长上下文 coding
5	GPT-5.4	`108.75`	官方 API	一线主力档	通用工程开发、代码解释、评审、自动修复
6	GLM-5.1	`31.90`	官方 API	前排长程 agent 档	长时执行、复杂工程优化、多轮工具链
7	Kimi K2.6	`27.00`	官方 API / 开放权重	前排开放路线档	长仓库任务、前端到全栈生成、agent swarm
8	MiniMax M2.7	`8.70`	官方 API	强势中高档，不该按低端看	复杂工程任务、Office 与代码混合工作流、agent harness
9	DeepSeek V4 Pro	`6.31`	官方 API / 开放权重	重型开放路线主力档	长上下文仓库分析、agent coding、私有化前验证
10	Claude Haiku 4.5	`36.25`	官方 API	高速强模型档	子代理、批量代码审查、高频工具调用
11	Qwen3.6 Plus	`12.00`	官方 API	高性价比 hosted 主力档	中型项目开发、仓库常规修复、中文工程场景
12	Gemini 3 Flash	`21.75`	官方 API	高速闭源中档	搜索加编码、快速多轮迭代、实时交互
13	Step-3.5 Flash	`2.18`	官方 API / 开放权重	便宜但很能打	批量补全、测试生成、规则明确的小修小补
14	GPT-5.4 mini	`32.63`	官方 API	小模型高质量档	子代理、补全、轻量 bugfix
15	DeepSeek V4 Flash	`2.03`	官方 API / 开放权重	超低价长上下文档	批量改写、代码整理、简单 agent
16	Qwen3.6 27B	`约 6-9`	本地单卡	本地最值得认真看的甜点位	小模块、多文件常规开发、仓库内日常修复
17	Qwen3.6 35B-A3B	`约 6-9`	本地单卡	本地 MoE 甜点位	高并发 agent、批量任务、成本敏感工作流
18	Mistral Small 4	`约 0`	NVIDIA NIM Free Endpoint	免费体验线里最强的一档	体验 coding、reasoning、多模态文档理解、原型验证
19	nemotron-3-super-120b-a12b	`约 0`	NVIDIA NIM Free Endpoint	免费体验线里的重型 agent / coding 档	长上下文、tool use、agentic coding、规划与验证
20	nemotron-3-nano-30b-a3b	`约 0`	NVIDIA NIM Free Endpoint	免费体验线里的轻重平衡档	coding、reasoning、RAG、子代理、原型工作流

怎么看这张表

1. 真正的前排旗舰，价格已经拉到 `¥87-218 / M`

这一段的共同点不是“贵”，而是：

能稳定处理更大的代码库
更擅长长程 agent 和复杂验证链路
更适合高价值、低失败容忍度的工程任务

如果团队目标是最终交付率，这一段仍然最强。

2. 国产和开放路线，已经把价格压到了 `¥6-32 / M`

这一段最值得认真看的是：

GLM-5.1
Kimi K2.6
MiniMax M2.7
DeepSeek V4 Pro
Qwen3.6 Plus

它们的意义不是单纯便宜，而是：

在真实 coding / agent 任务里已经足够强
单位输出价格明显低于前排闭源旗舰
很多团队的主力模型，实际上会落在这一段

3. `Step-3.5 Flash`、`DeepSeek V4 Flash` 代表的是便宜任务层

这类模型不负责最难的仓库级交付。
它们更像：

测试补全
批量改写
模板化代码生成
高频子代理

真正的价值在于把很多低价值 token 流量压到 ¥2-3 / M。

4. 轻量本地单卡仍有位置，但重型集群要另算

Qwen3.6 27B / 35B-A3B 这两行保留在表里，主要是为了给 轻量本地单卡 一个参照点。

它们最重要的意义是：

能在单卡本地认真工作
成本大致落在 ¥6-9 / M
已经能覆盖大量日常工程任务

但如果你讨论的是 DeepSeek V4 Pro、Kimi K2.6、GLM-5.1 这种前排 agent / coding 模型，自建成本应该回到本地算力账里的 NVIDIA 集群 口径，而不是直接拿单卡 ¥6-9 / M 去类比。

这也意味着一个很重要的现实：

本地不一定比平台便宜。

如果只看纯 token 单价，Step-3.5 Flash、DeepSeek V4 Flash 这一类 hosted 模型，很多时候已经比本地更便宜。
轻量本地真正买到的，更多是隐私、可控、离线和可改造空间；而重型集群买到的，则是私有化、长上下文和更强的 agent 自主性。

几个容易看错的地方

Qwen3.6 27B 这一行是轻量单卡本地示例，不代表 B300 / GB300 级 frontier 模型自建成本
DeepSeek V4 Pro 当前看起来特别便宜，是因为官方折扣仍在生效
MiniMax M2.7 不该被放到表尾，它在真实工程、Office 与 agent harness 这类任务里明显强于“便宜模型层”
NVIDIA NIM 免费线适合体验和原型验证，不适合直接把“免费”理解成长期生产成本；这里列的是 Mistral Small 4、nemotron-3-super-120b-a12b 和 nemotron-3-nano-30b-a3b

结论

这张表的目的不是做精确排行榜，而是建立 性能带 和 价格带 的全局感觉
前排闭源旗舰大致在 ¥87-218 / M
国产 hosted 主力已经压到 ¥6-32 / M
便宜任务层已经压到 ¥2-3 / M
本地 27B-35B 大致在 ¥6-9 / M，买的是私有化和可控，不是天然最低价

模型价格与能力 ​

全景表 ​

怎么看这张表 ​

1. 真正的前排旗舰，价格已经拉到 ¥87-218 / M ​

2. 国产和开放路线，已经把价格压到了 ¥6-32 / M ​

3. Step-3.5 Flash、DeepSeek V4 Flash 代表的是便宜任务层 ​

4. 轻量本地单卡仍有位置，但重型集群要另算 ​

几个容易看错的地方 ​

结论 ​

参考资料 ​