推理时算力账总览

这一章看推理阶段的算力投入。

这章到底在算什么

这章不是在讲部署架构，也不是在讲训练成本。
它只讲 推理时的算力账。

更具体地说，是同一件事的两面：

本地账：自建 NVIDIA 集群公开能打出多少 token/s、500 亿 / 月 这类目标要多少有效利用率、按 API 输出价倒推后最多能承受多少月总成本
模型账：当前常用 coding / agent 模型落在哪些性能与价格带，本地 open-weight 模型放在什么位置

最后再把这两本账合在一起看：

同样是在写代码，同样是在多生成一点 token，到底该买本地算力，还是直接买在线推理。

核心问题

自建集群多生成 1M token，现实上要用多少 token/s 和多少利用率换出来
常用 coding / agent 模型大致落在哪些性能带和价格带，本地模型又落在哪
前两个问题放在一起看，什么地方本地账真的算得过来

阅读顺序

1. 本地算力账

本地部分现在只看 4 个量：

公开 benchmark 到底有多少 token/s
500 亿 / 月 这种业务目标需要多少有效利用率
按 API 输出价倒推 后最多能承受多少 月总成本
不同 frontier 模型 该放在哪种 NVIDIA 集群档位里看

这一页会用 8× HGX B200、8× HGX B300、8× GB300 NVL72、72× GB300 NVL72 和 288× GB300 NVL72 这些公开口径，去看 DeepSeek-R1 / V4、GPT-OSS 120B 这一类 frontier open-weight 推理账。

2. 性能与价格全景表

模型部分不按开源 / 闭源拆开，而是直接把常用 coding / agent 模型放进同一张表，同时把本地能跑的 open-weight 模型放进去看位置。

重点不是价格本身，而是：

公开评测与社区反馈形成的粗排
输出 token 的人民币价格
本地可部署性
本地这一档的现实门槛

判断框架

对 frontier open-weight，先看 token/s 和 有效利用率，不要先看机器标价
DeepSeek V4 Pro 这类重型模型，自建能不能成立，通常取决于 交互速度 和 总吞吐 的取舍
DeepSeek V4 Flash 这类低价 hosted 模型，已经把纯 token 单价压得很低，自建不天然更便宜
GLM-5.1、Kimi K2.6 这类模型，更适合先用 API 输出价倒推商业空间，而不是硬写一个看上去很精确的自建成本

本章的统一口径

日期口径：截至 2026-04-30
人民币换算：1 USD ≈ 7.25 CNY
模型次序综合参考 SWE-bench、Terminal-Bench、LMArena / WebDev Arena 与社区反馈
自建集群优先用 公开 benchmark 吞吐 + API 输出价倒推 的方式估算；没有透明报价时，不伪造精确月租
对本地 token/s 的数值，优先使用 MLPerf 或厂商公开图表，不再拿轻量单卡经验值硬套 frontier 集群

本地每多生成一点 token 要花多少钱，以及这些钱最终换来了多高的编程成功率 是这一章的主线。

推理时算力账总览 ​

这章到底在算什么 ​

核心问题 ​

阅读顺序 ​

1. 本地算力账 ​

2. 性能与价格全景表 ​

判断框架 ​

本章的统一口径 ​