Skip to content

自建推理算力账

这页只沿着 NVIDIA 这条线看推理账,而且只抓一条主线:

先看硬件价格和成本分布,再看公开吞吐,最后把吞吐折成元 / M,与 API 售价对照。

在这条主线上,消费级单卡数据中心集群 都应该保留,但不能混成同一本账:

  • 如果目标是把 Qwen3.6 27B dense 这类模型在本地认真跑起来,看 RTX 5090D / 5090 级单卡
  • 如果目标是 DeepSeek V4 ProKimi K2.6GLM-5.1 这一档的 frontier agent / coding 任务,看 HGX B200 / B300GB300 NVL72 集群

真正要算的不是某张卡“能不能跑”,而是四件事:

  • 硬件采购价本身有多重
  • 公开 benchmark 到底能打出多少 token/s
  • 真实业务里能保住多少 有效利用率
  • 最后摊成多少 元 / 百万输出 token

统一口径

  • 日期口径:截至 2026-04-30
  • 硬件价格优先采用 NVIDIA 中国官网公开销售页公开财报口径
  • 吞吐优先采用 MLPerf Inference v6.0NebiusNVIDIA 官方公开数据
  • 月产出30 天 × 24 小时 连续运行折算
  • 这页优先比较 输出 token,方便直接和 API 输出价(元 / M) 对照
  • 不同模型不能直接横比;这里主要看 部署档位量级
  • HGX B300 / GB300 NVL72 的统一公开成交价并不透明,所以这页不伪造某个“官方月租”,而是把 硬件价格层吞吐层月总成本层 分开写

先记住算账公式

text
月产出(M token)
≈ token/s × 30 × 24 × 3600 / 1,000,000
text
保本输出价(元 / M)
≈ 月总成本 / 月产出(M)
text
可承受月总成本
≈ API 输出价(元 / M) × 月产出(M)

如果你把成本层也放进去,这页真正隐含的完整关系其实是:

text
月总成本
≈ 硬件折旧 + 电力 + 机房网络 + 运维
text
单位输出成本(元 / M)
≈ 月总成本 / 月产出(M)

也就是说:

  • 硬件采购价 决定折旧有多重
  • 吞吐利用率 决定分母能不能做大
  • 元 / M 是最后的结果,不是起点

第一档:消费级单卡的本地甜点位

如果你不是在做 HGX / GB300 集群,而是想在本地稳定跑 Qwen3.6 27B dense,那条最现实的 NVIDIA 路线仍然是 RTX 5090D / 5090 级单卡。

这里先沿用轻量本地口径:

  • 折旧期 36 个月
  • 每天有效推理 8 小时
  • 电价 0.6 元 / kWh
  • RTX 5090D v2 购置价按 ¥16,499
  • 功耗按 约 575W

折到每小时就是:

  • 折旧 / 小时:16499 / 8640 ≈ 1.91
  • 电费 / 小时:0.575 × 0.6 ≈ 0.35
  • 总成本 / 小时:约 2.26

这组数字很有代表性。
因为在这条单卡路线里:

  • 折旧 / 小时约 1.91
  • 电费 / 小时约 0.35

也就是说,硬件折旧 大约已经占到机器直接运行成本的 84%
这就是为什么只盯着电费,通常会把账看歪。

路线模型代表硬件总成本 / 小时速度估算输出成本估算更适合什么
消费级单卡甜点位Qwen3.6 27B denseRTX 5090D v2 24GB / 5090 级单卡约 ¥2.26约 70-85 tok/s约 ¥7.4-9.0 / M小模块、多文件常规改动、仓库内日常修复
消费级单卡甜点位Qwen3.6 35B-A3BRTX 5090D v2 24GB / 5090 级单卡约 ¥2.26约 85-105 tok/s约 ¥6.0-7.4 / M高并发 agent、批量任务、成本敏感工作流

这条线的意义很明确:

  • 不追 frontier 上限
  • 但能把常规 coding / agent 任务认真做起来
  • 单位输出成本还留在 个位数元 / M

第二档:数据中心集群先看公开吞吐基线

一旦模型切到 DeepSeek V4 Pro 这类 frontier MoE,账本就不能再用消费级单卡思路看,而要回到 HGX B200 / B300GB300 NVL72 这类公开吞吐基线。

集群档位公开模型场景公开吞吐折合月产出更像什么部署
8× HGX B200DeepSeek-R1Server51,693 token/s约 133,988M / 月第一档能认真跑 frontier MoE 的 8 卡集群
8× HGX B300DeepSeek-R1Server60,413 token/s约 156,590M / 月现在最值得看的重型单节点线
8× GB300 NVL72(按 8 卡口径)DeepSeek-R1Server64,510 token/s约 167,210M / 月比 B300 再上一档的 Blackwell Ultra 单节点口径
72× GB300 NVL72DeepSeek-R1Server575,580 token/s约 1,491,903M / 月机架级 AI factory 口径
288× GB300 NVL72DeepSeek-R1Server1,555,110 token/s约 4,030,845M / 月4 套 NVL72 规模,已经是多柜级扩展
8× HGX B300GPT-OSS 120BServer100,437 token/s约 260,333M / 月另一条 frontier open-weight 8 卡参考线
72× GB300 NVL72GPT-OSS 120BServer1,096,770 token/s约 2,842,828M / 月大规模 open-weight 推理的机架级口径

这些数字是 集群总吞吐,不是单用户流式返回速度。
它们回答的是“工厂一秒总共能产多少 token”,不是“一个用户眼前一秒能看到多少 token”。

同口径的 DeepSeek-R1 / GPT-OSS 公开吞吐,今天主要集中在 B200 / B300 / GB300 这些 Blackwell 代产品。
H100 / H200 更适合放在下面的采购价和推测成本表里,当作上一代集群折旧与代际价格的参照,而不是硬凑进同口径吞吐表。

NVIDIA 集群的采购价、成本层和推测月总成本

公开价格里最容易混的,其实是三种不同的东西:

  • NVIDIA / OEM 卖整机的公开售价
  • 按财报口径粗折出来的 直接成本影子
  • 运营方每月真正摊掉的 月总成本

如果把 NVIDIA FY2026 财报也放进来,这条线会更清楚:

  • 全年收入:$215.9B
  • 全年 cost of revenue:$62.5B
  • 全年 GAAP gross margin:71.1%
  • 全年 Data Center 收入:$193.7B,占总收入 约 89.7%

换成一句最有用的话:

text
按 NVIDIA FY2026 公司级平均口径看,客户每支付 100 元给 NVIDIA,
约 28.9 元对应直接成本,约 71.1 元留在毛利层。

这当然 不是单张 GPU 的真实 BOM,也 不是 OEM 整机的最终成本
但把它和公开整机售价放在一起,已经足够帮助读者看清利润分配:谁先拿走了硬件这层钱,谁又把它继续摊进每月账本里。

下面这张表统一把美元按 1:7.2 粗算成人民币。
其中 直接成本影子 是把公开售价再按 28.9% 粗折,只是为了看利润分配,不应当被理解为真实整机 BOM:

集群档位公开售价锚点28.9% 粗折的直接成本影子推测月总成本带这笔钱主要流向哪里
8× HGX H100约 $250K-350K,折合 约 ¥180-252 万约 ¥52-73 万约 ¥8-11 万 / 月Hopper 上一代存量很多,更多是在继续消化折旧、机房与运维成本
8× HGX H200约 $320K-420K,折合 约 ¥230-302 万约 ¥67-87 万约 ¥9-13 万 / 月HBM 提升后采购价上去,但整体仍是上一代主流重型节点
8× HGX B200约 $340K-500K+,折合 约 ¥245-360 万约 ¥71-104 万约 ¥10-15 万 / 月Blackwell 代开始把 NVIDIA 芯片溢价、OEM 整机和 IDC 成本同时抬高
8× HGX B300约 $430K-550K+,折合 约 ¥310-396 万约 ¥90-114 万约 ¥12-17 万 / 月更高的 Blackwell Ultra 采购价 + 液冷 / 网络 / 服务
72× GB300 NVL72约 $3M-4M 的机架价值带,且通常 quote only,折合 约 ¥2160-2880 万约 ¥624-832 万约 ¥80-120 万 / 月机架级 GPU / Grace / NVLink / NIC / 液冷 / 机房整体摊销

把这张表从上往下读,基本就能看到 NVIDIA 这条线怎么分层拿钱:

  • NVIDIA 直接成本层:晶圆、HBM、封装、测试、板卡、供应链,决定 直接成本影子
  • NVIDIA 价值捕获层:架构设计、CUDA、TensorRT-LLM、生态和供需稀缺,把公开售价继续抬高
  • OEM / 整机层:HGX 主板、NVSwitch、CPU、NIC、内存、SSD、机箱、电源、液冷,把芯片价格变成整机采购价
  • IDC / 运维层:机柜、IB 交换机、电力、制冷、SRE、保修、值班,把整机采购价变成每月账单

推测月总成本带 这里不是云厂商“官方月租”,而是为了算 元 / M 给出的工程口径,默认包含:

  • 36 个月折旧
  • 24×7 电力
  • 机房网络、保修、值班和基础运维

这张表真正想说明的是:

token 成本里最厚的一层,往往在 token 还没产出来之前,就已经先被 NVIDIA 毛利、OEM 整机价和 IDC 固定成本锁住了。

常规利用率下,token 成本怎么摊

如果把上面的月总成本,直接摊到公开吞吐基线上,最值得看的不是“满载神话”,而是 30% / 50% / 70% 这三档有效利用率:

  • 30%:交互优先、流量波动大、batch 经常不满
  • 50%:比较像正常在线推理业务里,已经做过调度优化的状态
  • 70%:很强的持续流量、较好的 batching、较低的空转时间

先用 DeepSeek-R1 的公开吞吐做统一硬件锚点:

集群档位30% 利用率50% 利用率70% 利用率该怎么读
8× HGX B200约 ¥2.49-3.73 / M约 ¥1.49-2.24 / M约 ¥1.07-1.60 / M8 卡 Blackwell 的账并不贵,前提是你真能把机器吃满
8× HGX B300约 ¥2.55-3.62 / M约 ¥1.53-2.17 / M约 ¥1.09-1.55 / M比 B200 更快,但采购价也更高;关键仍是利用率
72× GB300 NVL72约 ¥1.79-2.68 / M约 ¥1.07-1.61 / M约 ¥0.77-1.15 / M机架级 AI factory 能继续摊薄,但前提是持续高负载

这组数最重要的结论有两个:

  • 利用率每掉一截,元 / M 就会几乎按反比例变贵
  • GB300 NVL72 的优势不是“神奇更便宜”,而是 把极重的采购价摊到更大的吞吐分母上

所以站在利润分配角度看,AI 推理一条链上至少有三层钱:

  • NVIDIA 先在芯片和软件生态层拿走高毛利
  • OEM / 机房 再把整机、液冷、网络和运维摊进月总成本
  • 模型 / API 厂商 只能靠 吞吐 × 利用率 × 售价 去消化前两层

DeepSeek V4 Pro:单用户 token 速度越快,单位成本往往越贵

DeepSeek-R1 的 MLPerf 数据适合当硬件上限锚点。
真正落到 DeepSeek V4 Pro,还要再加一层:单用户速度总吞吐 本身就是此消彼长。

NVIDIA 给 DeepSeek V4 Pro8× B300 上画过一张典型曲线:

  • 条件是 1K 输入 / 1K 输出
  • 精度口径是模型原生 MXFP4
  • 横轴是 TPS per User,也就是单用户速度
  • 纵轴是 TPS per GPU,也就是每张 GPU 能承载的总吞吐

下面这张表按官方图近似读数,并统一用上面 8× B300约 ¥12-17 万 / 月 成本带,再按 50% 有效利用率来算:

单用户速度8 卡总吞吐折合满载月产出50% 利用率下输出成本该怎么读
13 t/s约 26.2k token/s约 67,910M / 月约 ¥3.53-5.01 / M很像 token 工厂口径,用户体感偏慢
15 t/s约 22.4k token/s约 58,061M / 月约 ¥4.13-5.86 / M仍然偏吞吐优先,还有利润空间
16.6 t/s约 19.3k token/s约 50,026M / 月约 ¥4.80-6.80 / M已经进入 API 成本分界线附近
20 t/s约 11.4k token/s约 29,549M / 月约 ¥8.12-11.51 / M交互体感更好,但单位成本明显变坏
30 t/s约 5.4k token/s约 13,997M / 月约 ¥17.15-24.29 / M更像高体验交互 API,不像 token 工厂
40 t/s约 2.9k token/s约 7,517M / 月约 ¥31.93-45.23 / M很顺滑,但总吞吐和成本都已经非常不友好

这张表背后的关系其实很简单:

text
单位输出成本
≈ 月总成本 / (总吞吐 × 有效利用率)

总吞吐 又大致受下面这个式子约束:

text
集群总吞吐
≈ 有效并发用户数 × 单用户 token 速度 × 调度效率

所以在真实服务里:

  • 你把 单用户 token 速度 往上推
  • 往往意味着 batch 更难做满,总吞吐 会往下掉
  • 总吞吐 一掉,固定月总成本就会更难摊薄
  • 结果就是 用户看到更快,但 每 1M token 反而更贵

如果不是 50% 利用率,而是别的常规档位,也很好推:

  • 掉到 30% 利用率,上表成本大约再 × 1.67
  • 升到 70% 利用率,上表成本大约再 × 0.71

这也是为什么同样一套 8× B300

  • 偏吞吐优先的人会觉得 DeepSeek V4 Pro 还能做
  • 偏交互体验的人会觉得 API 反而更便宜

API 售价给了哪些成本天花板

看 API 价,不是为了反推一个固定月产量,而是为了看:

你在常规利用率下算出来的 元 / M,能不能压到 API 输出价下面。

模型官方输出价(元 / M)对自建的含义
DeepSeek V4 Flash2.03价格已经压得很低;没有极高利用率和很强 batching,自建很难只靠“更便宜”赢
DeepSeek V4 Pro6.318× B300 只有在 15-17 t/s 左右、并且 50%-70% 利用率时,才比较有机会靠近或压住
Kimi K2.627.00API 给了很高成本缓冲,但官方还没公开 MLPerf 式集群吞吐表,暂时不该把自建账写死
GLM-5.131.90同样有较高 ceiling,更适合先当 API 价格锚,而不是写成精确的 HGX / GB300 自建成本

把几类模型放到哪档集群里看

模型公开信息更合理的成本看法
DeepSeek V3 / R1公开 benchmark 最完整的是 R1V3 更像上一代同档参考先拿 R1B200 / B300 / GB300 的公开吞吐锚点
DeepSeek V4 Pro官方公开 1.6T total / 49B active1M context当作 R1 之上的重型 MoE;决定账本的是 交互速度 × 上下文长度 × 利用率
DeepSeek V4 Flash官方公开 284B total / 13B active1M context更像高性价比大流量线;如果只比单价,hosted 往往已经很狠
Kimi K2.6官方公开 256K context、强 coding / agent 基准、¥27 / M 输出价先拿 API 价算 ceiling;官方还没给出 MLPerf 式同口径 token/s
GLM-5.1官方公开 200K context、长时 agent 能力、¥31.90 / M 输出价更适合当 API 成本参考线;没有公开 HGX/GB300 benchmark 时,不要把自建账写得太满

今天真要做 DeepSeek V3 / V4 这一系的 frontier open-weight 集群账,最有用的组合通常是:

  • DeepSeek-R1 的 MLPerf 数据看硬件上限
  • DeepSeek V4 Pro 的 NVIDIA 官方图看交互损耗
  • DeepSeek V4 Pro / Flash 的官方 API 价格看商业空间

账本规律

  • 硬件采购价是 NVIDIA 这条线里非常重的一层,不是可以略过的小项;财报里的高毛利也说明了这一点
  • Qwen3.6 27B dense 在消费级单卡上仍然是值得保留的甜点位,大致还在 ¥7-9 / M 这一档
  • 在 frontier MoE 这一档,电费通常不是第一主因,硬件折旧有效利用率软件栈优化 更重要
  • 集群总吞吐单用户 token 速度 通常是此消彼长;交互越快,单位输出成本通常越差
  • 30%70% 的利用率差,会直接把 元 / M 拉开接近一倍以上;很多利润不是输在模型本身,而是输在空转
  • DeepSeek V4 Pro8× B300 上,只有在 15-17 t/s 左右并保持 50%-70% 利用率时,单位成本才比较有机会逼近 API
  • 72× GB300 NVL72 和更大的 Blackwell Ultra 集群确实能继续摊薄 元 / M,但前提是持续高负载;否则机架级采购价会先吃掉利润
  • DeepSeek V4 Flash 这类低价 hosted 模型,已经把纯 token 单价压得很低;如果你自建只是为了“更便宜”,很多时候账并不好看
  • GLM-5.1Kimi K2.6 现在更适合先当 API ceiling line 看,不适合在缺少公开集群 benchmark 时把自建成本写成精确数字

结论

  • 这页的主线应该先看 硬件价格和成本分布,再看 公开 token/s,最后才是 元 / M
  • 轻量本地单卡没有消失;Qwen3.6 27B dense5090 级消费显卡上,仍然是 ¥7-9 / M 级别的现实甜点位
  • 8× B300 的关键不是追一个固定月产量数字,而是看 15-17 t/s 左右的吞吐配置,能不能在 50%-70% 利用率下把采购价和月总成本摊薄
  • DeepSeek V4 Pro 自建是否成立,核心不在“能不能跑”,而在“用户能不能接受较慢单用户速度,换更高总吞吐”
  • 判断成本时,必须把 集群总吞吐单用户 token 速度 分开;同一套硬件往往只能二选一地偏向其中一边
  • DeepSeek V4 Flash 这种低价 hosted 已经很接近自建极限;Kimi K2.6GLM-5.1 则更适合先拿 API 价倒推空间,而不是硬写自建报价

参考资料

价格、型号与硬件配置按 2026-04-28 的公开页面静态整理。