自建推理算力账

这页只沿着 NVIDIA 这条线看推理账，而且只抓一条主线：

先看硬件价格和成本分布，再看公开吞吐，最后把吞吐折成元 / M，与 API 售价对照。

在这条主线上，消费级单卡 和 数据中心集群 都应该保留，但不能混成同一本账：

如果目标是把 Qwen3.6 27B dense 这类模型在本地认真跑起来，看 RTX 5090D / 5090 级单卡
如果目标是 DeepSeek V4 Pro、Kimi K2.6、GLM-5.1 这一档的 frontier agent / coding 任务，看 HGX B200 / B300 和 GB300 NVL72 集群

真正要算的不是某张卡“能不能跑”，而是四件事：

硬件采购价本身有多重
公开 benchmark 到底能打出多少 token/s
真实业务里能保住多少 有效利用率
最后摊成多少 元 / 百万输出 token

统一口径

日期口径：截至 2026-04-30
硬件价格优先采用 NVIDIA 中国官网、公开销售页 或 公开财报口径
吞吐优先采用 MLPerf Inference v6.0、Nebius 与 NVIDIA 官方公开数据
月产出 按 30 天 × 24 小时 连续运行折算
这页优先比较 输出 token，方便直接和 API 输出价（元 / M） 对照
不同模型不能直接横比；这里主要看 部署档位 和 量级
HGX B300 / GB300 NVL72 的统一公开成交价并不透明，所以这页不伪造某个“官方月租”，而是把 硬件价格层、吞吐层 和 月总成本层 分开写

先记住算账公式

text

月产出（M token）
≈ token/s × 30 × 24 × 3600 / 1,000,000

text

保本输出价（元 / M）
≈ 月总成本 / 月产出（M）

text

可承受月总成本
≈ API 输出价（元 / M） × 月产出（M）

如果你把成本层也放进去，这页真正隐含的完整关系其实是：

text

月总成本
≈ 硬件折旧 + 电力 + 机房网络 + 运维

text

单位输出成本（元 / M）
≈ 月总成本 / 月产出（M）

也就是说：

硬件采购价 决定折旧有多重
吞吐 和 利用率 决定分母能不能做大
元 / M 是最后的结果，不是起点

第一档：消费级单卡的本地甜点位

如果你不是在做 HGX / GB300 集群，而是想在本地稳定跑 Qwen3.6 27B dense，那条最现实的 NVIDIA 路线仍然是 RTX 5090D / 5090 级单卡。

这里先沿用轻量本地口径：

折旧期 36 个月
每天有效推理 8 小时
电价 0.6 元 / kWh
RTX 5090D v2 购置价按 ¥16,499
功耗按 约 575W

折到每小时就是：

折旧 / 小时：16499 / 8640 ≈ 1.91
电费 / 小时：0.575 × 0.6 ≈ 0.35
总成本 / 小时：约 2.26

这组数字很有代表性。
因为在这条单卡路线里：

折旧 / 小时约 1.91
电费 / 小时约 0.35

也就是说，硬件折旧 大约已经占到机器直接运行成本的 84%。
这就是为什么只盯着电费，通常会把账看歪。

路线	模型	代表硬件	总成本 / 小时	速度估算	输出成本估算	更适合什么
消费级单卡甜点位	`Qwen3.6 27B dense`	`RTX 5090D v2 24GB / 5090 级单卡`	`约 ¥2.26`	`约 70-85 tok/s`	`约 ¥7.4-9.0 / M`	小模块、多文件常规改动、仓库内日常修复
消费级单卡甜点位	`Qwen3.6 35B-A3B`	`RTX 5090D v2 24GB / 5090 级单卡`	`约 ¥2.26`	`约 85-105 tok/s`	`约 ¥6.0-7.4 / M`	高并发 agent、批量任务、成本敏感工作流

这条线的意义很明确：

不追 frontier 上限
但能把常规 coding / agent 任务认真做起来
单位输出成本还留在 个位数元 / M

第二档：数据中心集群先看公开吞吐基线

一旦模型切到 DeepSeek V4 Pro 这类 frontier MoE，账本就不能再用消费级单卡思路看，而要回到 HGX B200 / B300 与 GB300 NVL72 这类公开吞吐基线。

集群档位	公开模型	场景	公开吞吐	折合月产出	更像什么部署
8× HGX B200	DeepSeek-R1	Server	`51,693 token/s`	`约 133,988M / 月`	第一档能认真跑 frontier MoE 的 8 卡集群
8× HGX B300	DeepSeek-R1	Server	`60,413 token/s`	`约 156,590M / 月`	现在最值得看的重型单节点线
8× GB300 NVL72（按 8 卡口径）	DeepSeek-R1	Server	`64,510 token/s`	`约 167,210M / 月`	比 B300 再上一档的 Blackwell Ultra 单节点口径
72× GB300 NVL72	DeepSeek-R1	Server	`575,580 token/s`	`约 1,491,903M / 月`	机架级 AI factory 口径
288× GB300 NVL72	DeepSeek-R1	Server	`1,555,110 token/s`	`约 4,030,845M / 月`	4 套 NVL72 规模，已经是多柜级扩展
8× HGX B300	GPT-OSS 120B	Server	`100,437 token/s`	`约 260,333M / 月`	另一条 frontier open-weight 8 卡参考线
72× GB300 NVL72	GPT-OSS 120B	Server	`1,096,770 token/s`	`约 2,842,828M / 月`	大规模 open-weight 推理的机架级口径

这些数字是 集群总吞吐，不是单用户流式返回速度。
它们回答的是“工厂一秒总共能产多少 token”，不是“一个用户眼前一秒能看到多少 token”。

同口径的 DeepSeek-R1 / GPT-OSS 公开吞吐，今天主要集中在 B200 / B300 / GB300 这些 Blackwell 代产品。
H100 / H200 更适合放在下面的采购价和推测成本表里，当作上一代集群折旧与代际价格的参照，而不是硬凑进同口径吞吐表。

NVIDIA 集群的采购价、成本层和推测月总成本

公开价格里最容易混的，其实是三种不同的东西：

NVIDIA / OEM 卖整机的公开售价
按财报口径粗折出来的 直接成本影子
运营方每月真正摊掉的 月总成本

如果把 NVIDIA FY2026 财报也放进来，这条线会更清楚：

全年收入：$215.9B
全年 cost of revenue：$62.5B
全年 GAAP gross margin：71.1%
全年 Data Center 收入：$193.7B，占总收入 约 89.7%

换成一句最有用的话：

text

按 NVIDIA FY2026 公司级平均口径看，客户每支付 100 元给 NVIDIA，
约 28.9 元对应直接成本，约 71.1 元留在毛利层。

这当然 不是单张 GPU 的真实 BOM，也 不是 OEM 整机的最终成本。
但把它和公开整机售价放在一起，已经足够帮助读者看清利润分配：谁先拿走了硬件这层钱，谁又把它继续摊进每月账本里。

下面这张表统一把美元按 1:7.2 粗算成人民币。
其中 直接成本影子 是把公开售价再按 28.9% 粗折，只是为了看利润分配，不应当被理解为真实整机 BOM：

集群档位	公开售价锚点	按 `28.9%` 粗折的直接成本影子	推测月总成本带	这笔钱主要流向哪里
8× HGX H100	`约 $250K-350K`，折合 `约 ¥180-252 万`	`约 ¥52-73 万`	`约 ¥8-11 万 / 月`	Hopper 上一代存量很多，更多是在继续消化折旧、机房与运维成本
8× HGX H200	`约 $320K-420K`，折合 `约 ¥230-302 万`	`约 ¥67-87 万`	`约 ¥9-13 万 / 月`	HBM 提升后采购价上去，但整体仍是上一代主流重型节点
8× HGX B200	`约 $340K-500K+`，折合 `约 ¥245-360 万`	`约 ¥71-104 万`	`约 ¥10-15 万 / 月`	Blackwell 代开始把 NVIDIA 芯片溢价、OEM 整机和 IDC 成本同时抬高
8× HGX B300	`约 $430K-550K+`，折合 `约 ¥310-396 万`	`约 ¥90-114 万`	`约 ¥12-17 万 / 月`	更高的 Blackwell Ultra 采购价 + 液冷 / 网络 / 服务
72× GB300 NVL72	`约 $3M-4M` 的机架价值带，且通常 `quote only`，折合 `约 ¥2160-2880 万`	`约 ¥624-832 万`	`约 ¥80-120 万 / 月`	机架级 GPU / Grace / NVLink / NIC / 液冷 / 机房整体摊销

把这张表从上往下读，基本就能看到 NVIDIA 这条线怎么分层拿钱：

NVIDIA 直接成本层：晶圆、HBM、封装、测试、板卡、供应链，决定 直接成本影子
NVIDIA 价值捕获层：架构设计、CUDA、TensorRT-LLM、生态和供需稀缺，把公开售价继续抬高
OEM / 整机层：HGX 主板、NVSwitch、CPU、NIC、内存、SSD、机箱、电源、液冷，把芯片价格变成整机采购价
IDC / 运维层：机柜、IB 交换机、电力、制冷、SRE、保修、值班，把整机采购价变成每月账单

推测月总成本带 这里不是云厂商“官方月租”，而是为了算 元 / M 给出的工程口径，默认包含：

36 个月折旧
24×7 电力
机房网络、保修、值班和基础运维

这张表真正想说明的是：

token 成本里最厚的一层，往往在 token 还没产出来之前，就已经先被 NVIDIA 毛利、OEM 整机价和 IDC 固定成本锁住了。

常规利用率下，token 成本怎么摊

如果把上面的月总成本，直接摊到公开吞吐基线上，最值得看的不是“满载神话”，而是 30% / 50% / 70% 这三档有效利用率：

30%：交互优先、流量波动大、batch 经常不满
50%：比较像正常在线推理业务里，已经做过调度优化的状态
70%：很强的持续流量、较好的 batching、较低的空转时间

先用 DeepSeek-R1 的公开吞吐做统一硬件锚点：

集群档位	`30%` 利用率	`50%` 利用率	`70%` 利用率	该怎么读
8× HGX B200	`约 ¥2.49-3.73 / M`	`约 ¥1.49-2.24 / M`	`约 ¥1.07-1.60 / M`	8 卡 Blackwell 的账并不贵，前提是你真能把机器吃满
8× HGX B300	`约 ¥2.55-3.62 / M`	`约 ¥1.53-2.17 / M`	`约 ¥1.09-1.55 / M`	比 B200 更快，但采购价也更高；关键仍是利用率
72× GB300 NVL72	`约 ¥1.79-2.68 / M`	`约 ¥1.07-1.61 / M`	`约 ¥0.77-1.15 / M`	机架级 AI factory 能继续摊薄，但前提是持续高负载

这组数最重要的结论有两个：

利用率每掉一截，元 / M 就会几乎按反比例变贵
GB300 NVL72 的优势不是“神奇更便宜”，而是 把极重的采购价摊到更大的吞吐分母上

所以站在利润分配角度看，AI 推理一条链上至少有三层钱：

NVIDIA 先在芯片和软件生态层拿走高毛利
OEM / 机房 再把整机、液冷、网络和运维摊进月总成本
模型 / API 厂商 只能靠 吞吐 × 利用率 × 售价 去消化前两层

DeepSeek V4 Pro：单用户 token 速度越快，单位成本往往越贵

DeepSeek-R1 的 MLPerf 数据适合当硬件上限锚点。
真正落到 DeepSeek V4 Pro，还要再加一层：单用户速度 和 总吞吐 本身就是此消彼长。

NVIDIA 给 DeepSeek V4 Pro 在 8× B300 上画过一张典型曲线：

条件是 1K 输入 / 1K 输出
精度口径是模型原生 MXFP4
横轴是 TPS per User，也就是单用户速度
纵轴是 TPS per GPU，也就是每张 GPU 能承载的总吞吐

下面这张表按官方图近似读数，并统一用上面 8× B300 的 约 ¥12-17 万 / 月 成本带，再按 50% 有效利用率来算：

单用户速度	8 卡总吞吐	折合满载月产出	`50%` 利用率下输出成本	该怎么读
`13 t/s`	`约 26.2k token/s`	`约 67,910M / 月`	`约 ¥3.53-5.01 / M`	很像 token 工厂口径，用户体感偏慢
`15 t/s`	`约 22.4k token/s`	`约 58,061M / 月`	`约 ¥4.13-5.86 / M`	仍然偏吞吐优先，还有利润空间
`16.6 t/s`	`约 19.3k token/s`	`约 50,026M / 月`	`约 ¥4.80-6.80 / M`	已经进入 API 成本分界线附近
`20 t/s`	`约 11.4k token/s`	`约 29,549M / 月`	`约 ¥8.12-11.51 / M`	交互体感更好，但单位成本明显变坏
`30 t/s`	`约 5.4k token/s`	`约 13,997M / 月`	`约 ¥17.15-24.29 / M`	更像高体验交互 API，不像 token 工厂
`40 t/s`	`约 2.9k token/s`	`约 7,517M / 月`	`约 ¥31.93-45.23 / M`	很顺滑，但总吞吐和成本都已经非常不友好

这张表背后的关系其实很简单：

text

单位输出成本
≈ 月总成本 / （总吞吐 × 有效利用率）

而 总吞吐 又大致受下面这个式子约束：

text

集群总吞吐
≈ 有效并发用户数 × 单用户 token 速度 × 调度效率

所以在真实服务里：

你把 单用户 token 速度 往上推
往往意味着 batch 更难做满，总吞吐 会往下掉
总吞吐 一掉，固定月总成本就会更难摊薄
结果就是 用户看到更快，但 每 1M token 反而更贵

如果不是 50% 利用率，而是别的常规档位，也很好推：

掉到 30% 利用率，上表成本大约再 × 1.67
升到 70% 利用率，上表成本大约再 × 0.71

这也是为什么同样一套 8× B300：

偏吞吐优先的人会觉得 DeepSeek V4 Pro 还能做
偏交互体验的人会觉得 API 反而更便宜

API 售价给了哪些成本天花板

看 API 价，不是为了反推一个固定月产量，而是为了看：

你在常规利用率下算出来的元 / M，能不能压到 API 输出价下面。

模型	官方输出价（元 / M）	对自建的含义
DeepSeek V4 Flash	`2.03`	价格已经压得很低；没有极高利用率和很强 batching，自建很难只靠“更便宜”赢
DeepSeek V4 Pro	`6.31`	`8× B300` 只有在 `15-17 t/s` 左右、并且 `50%-70%` 利用率时，才比较有机会靠近或压住
Kimi K2.6	`27.00`	API 给了很高成本缓冲，但官方还没公开 MLPerf 式集群吞吐表，暂时不该把自建账写死
GLM-5.1	`31.90`	同样有较高 ceiling，更适合先当 API 价格锚，而不是写成精确的 HGX / GB300 自建成本

把几类模型放到哪档集群里看

模型	公开信息	更合理的成本看法
DeepSeek V3 / R1	公开 benchmark 最完整的是 `R1`，`V3` 更像上一代同档参考	先拿 `R1` 当 `B200 / B300 / GB300` 的公开吞吐锚点
DeepSeek V4 Pro	官方公开 `1.6T total / 49B active`、`1M context`	当作 `R1` 之上的重型 MoE；决定账本的是 `交互速度 × 上下文长度 × 利用率`
DeepSeek V4 Flash	官方公开 `284B total / 13B active`、`1M context`	更像高性价比大流量线；如果只比单价，hosted 往往已经很狠
Kimi K2.6	官方公开 `256K context`、强 coding / agent 基准、`¥27 / M` 输出价	先拿 API 价算 ceiling；官方还没给出 MLPerf 式同口径 `token/s`
GLM-5.1	官方公开 `200K context`、长时 agent 能力、`¥31.90 / M` 输出价	更适合当 API 成本参考线；没有公开 HGX/GB300 benchmark 时，不要把自建账写得太满

今天真要做 DeepSeek V3 / V4 这一系的 frontier open-weight 集群账，最有用的组合通常是：

用 DeepSeek-R1 的 MLPerf 数据看硬件上限
用 DeepSeek V4 Pro 的 NVIDIA 官方图看交互损耗
用 DeepSeek V4 Pro / Flash 的官方 API 价格看商业空间

账本规律

硬件采购价是 NVIDIA 这条线里非常重的一层，不是可以略过的小项；财报里的高毛利也说明了这一点
Qwen3.6 27B dense 在消费级单卡上仍然是值得保留的甜点位，大致还在 ¥7-9 / M 这一档
在 frontier MoE 这一档，电费通常不是第一主因，硬件折旧、有效利用率 和 软件栈优化 更重要
集群总吞吐 和 单用户 token 速度 通常是此消彼长；交互越快，单位输出成本通常越差
30% 到 70% 的利用率差，会直接把 元 / M 拉开接近一倍以上；很多利润不是输在模型本身，而是输在空转
DeepSeek V4 Pro 在 8× B300 上，只有在 15-17 t/s 左右并保持 50%-70% 利用率时，单位成本才比较有机会逼近 API
72× GB300 NVL72 和更大的 Blackwell Ultra 集群确实能继续摊薄 元 / M，但前提是持续高负载；否则机架级采购价会先吃掉利润
DeepSeek V4 Flash 这类低价 hosted 模型，已经把纯 token 单价压得很低；如果你自建只是为了“更便宜”，很多时候账并不好看
GLM-5.1、Kimi K2.6 现在更适合先当 API ceiling line 看，不适合在缺少公开集群 benchmark 时把自建成本写成精确数字

结论

这页的主线应该先看 硬件价格和成本分布，再看 公开 token/s，最后才是 元 / M
轻量本地单卡没有消失；Qwen3.6 27B dense 在 5090 级消费显卡上，仍然是 ¥7-9 / M 级别的现实甜点位
8× B300 的关键不是追一个固定月产量数字，而是看 15-17 t/s 左右的吞吐配置，能不能在 50%-70% 利用率下把采购价和月总成本摊薄
DeepSeek V4 Pro 自建是否成立，核心不在“能不能跑”，而在“用户能不能接受较慢单用户速度，换更高总吞吐”
判断成本时，必须把 集群总吞吐 和 单用户 token 速度 分开；同一套硬件往往只能二选一地偏向其中一边
DeepSeek V4 Flash 这种低价 hosted 已经很接近自建极限；Kimi K2.6、GLM-5.1 则更适合先拿 API 价倒推空间，而不是硬写自建报价

自建推理算力账 ​

统一口径 ​

先记住算账公式 ​

第一档：消费级单卡的本地甜点位 ​

第二档：数据中心集群先看公开吞吐基线 ​

NVIDIA 集群的采购价、成本层和推测月总成本 ​

常规利用率下，token 成本怎么摊 ​

DeepSeek V4 Pro：单用户 token 速度越快，单位成本往往越贵 ​

API 售价给了哪些成本天花板 ​

把几类模型放到哪档集群里看 ​

账本规律 ​

结论 ​

参考资料 ​

自建推理算力账

统一口径

先记住算账公式

第一档：消费级单卡的本地甜点位

第二档：数据中心集群先看公开吞吐基线

NVIDIA 集群的采购价、成本层和推测月总成本

常规利用率下，token 成本怎么摊

DeepSeek V4 Pro：单用户 token 速度越快，单位成本往往越贵

API 售价给了哪些成本天花板

把几类模型放到哪档集群里看

账本规律

结论

参考资料