Skip to content

推理时算力账总览

这一章看推理阶段的算力投入。

  1. 推理时算力账总览
  2. 自建推理算力账
  3. 性能与价格全景表

这章到底在算什么

这章不是在讲部署架构,也不是在讲训练成本。
它只讲 推理时的算力账

更具体地说,是同一件事的两面:

  • 本地账:自建 NVIDIA 集群公开能打出多少 token/s500 亿 / 月 这类目标要多少有效利用率、按 API 输出价倒推后最多能承受多少月总成本
  • 模型账:当前常用 coding / agent 模型落在哪些性能与价格带,本地 open-weight 模型放在什么位置

最后再把这两本账合在一起看:

同样是在写代码,同样是在多生成一点 token,到底该买本地算力,还是直接买在线推理。

核心问题

  1. 自建集群多生成 1M token,现实上要用多少 token/s 和多少利用率换出来
  2. 常用 coding / agent 模型大致落在哪些性能带和价格带,本地模型又落在哪
  3. 前两个问题放在一起看,什么地方本地账真的算得过来

阅读顺序

1. 本地算力账

本地部分现在只看 4 个量:

  1. 公开 benchmark 到底有多少 token/s
  2. 500 亿 / 月 这种业务目标需要多少有效利用率
  3. 按 API 输出价倒推 后最多能承受多少 月总成本
  4. 不同 frontier 模型 该放在哪种 NVIDIA 集群档位里看

这一页会用 8× HGX B2008× HGX B3008× GB300 NVL7272× GB300 NVL72288× GB300 NVL72 这些公开口径,去看 DeepSeek-R1 / V4GPT-OSS 120B 这一类 frontier open-weight 推理账。

2. 性能与价格全景表

模型部分不按开源 / 闭源拆开,而是直接把常用 coding / agent 模型放进同一张表,同时把本地能跑的 open-weight 模型放进去看位置。

重点不是价格本身,而是:

  • 公开评测与社区反馈形成的粗排
  • 输出 token 的人民币价格
  • 本地可部署性
  • 本地这一档的现实门槛

判断框架

  1. 对 frontier open-weight,先看 token/s有效利用率,不要先看机器标价
  2. DeepSeek V4 Pro 这类重型模型,自建能不能成立,通常取决于 交互速度总吞吐 的取舍
  3. DeepSeek V4 Flash 这类低价 hosted 模型,已经把纯 token 单价压得很低,自建不天然更便宜
  4. GLM-5.1Kimi K2.6 这类模型,更适合先用 API 输出价倒推商业空间,而不是硬写一个看上去很精确的自建成本

本章的统一口径

  • 日期口径:截至 2026-04-30
  • 人民币换算:1 USD ≈ 7.25 CNY
  • 模型次序综合参考 SWE-benchTerminal-BenchLMArena / WebDev Arena 与社区反馈
  • 自建集群优先用 公开 benchmark 吞吐 + API 输出价倒推 的方式估算;没有透明报价时,不伪造精确月租
  • 对本地 token/s 的数值,优先使用 MLPerf 或厂商公开图表,不再拿轻量单卡经验值硬套 frontier 集群

本地每多生成一点 token 要花多少钱,以及这些钱最终换来了多高的编程成功率 是这一章的主线。

价格、型号与硬件配置按 2026-04-28 的公开页面静态整理。