Appearance
推理时算力账总览
这一章看推理阶段的算力投入。
这章到底在算什么
这章不是在讲部署架构,也不是在讲训练成本。
它只讲 推理时的算力账。
更具体地说,是同一件事的两面:
本地账:自建 NVIDIA 集群公开能打出多少token/s、500 亿 / 月这类目标要多少有效利用率、按 API 输出价倒推后最多能承受多少月总成本模型账:当前常用 coding / agent 模型落在哪些性能与价格带,本地 open-weight 模型放在什么位置
最后再把这两本账合在一起看:
同样是在写代码,同样是在多生成一点 token,到底该买本地算力,还是直接买在线推理。
核心问题
- 自建集群多生成
1M token,现实上要用多少token/s和多少利用率换出来 - 常用 coding / agent 模型大致落在哪些性能带和价格带,本地模型又落在哪
- 前两个问题放在一起看,什么地方本地账真的算得过来
阅读顺序
1. 本地算力账
本地部分现在只看 4 个量:
公开 benchmark 到底有多少 token/s500 亿 / 月这种业务目标需要多少有效利用率按 API 输出价倒推后最多能承受多少月总成本不同 frontier 模型该放在哪种 NVIDIA 集群档位里看
这一页会用 8× HGX B200、8× HGX B300、8× GB300 NVL72、72× GB300 NVL72 和 288× GB300 NVL72 这些公开口径,去看 DeepSeek-R1 / V4、GPT-OSS 120B 这一类 frontier open-weight 推理账。
2. 性能与价格全景表
模型部分不按开源 / 闭源拆开,而是直接把常用 coding / agent 模型放进同一张表,同时把本地能跑的 open-weight 模型放进去看位置。
重点不是价格本身,而是:
公开评测与社区反馈形成的粗排输出 token 的人民币价格本地可部署性本地这一档的现实门槛
判断框架
- 对 frontier open-weight,先看
token/s和有效利用率,不要先看机器标价 DeepSeek V4 Pro这类重型模型,自建能不能成立,通常取决于交互速度和总吞吐的取舍DeepSeek V4 Flash这类低价 hosted 模型,已经把纯 token 单价压得很低,自建不天然更便宜GLM-5.1、Kimi K2.6这类模型,更适合先用 API 输出价倒推商业空间,而不是硬写一个看上去很精确的自建成本
本章的统一口径
- 日期口径:
截至 2026-04-30 - 人民币换算:
1 USD ≈ 7.25 CNY - 模型次序综合参考
SWE-bench、Terminal-Bench、LMArena / WebDev Arena与社区反馈 - 自建集群优先用
公开 benchmark 吞吐 + API 输出价倒推的方式估算;没有透明报价时,不伪造精确月租 - 对本地
token/s的数值,优先使用MLPerf或厂商公开图表,不再拿轻量单卡经验值硬套 frontier 集群
本地每多生成一点 token 要花多少钱,以及这些钱最终换来了多高的编程成功率 是这一章的主线。