Appearance
自建推理算力账
这页只沿着 NVIDIA 这条线看推理账,而且只抓一条主线:
先看硬件价格和成本分布,再看公开吞吐,最后把吞吐折成元 / M,与 API 售价对照。
在这条主线上,消费级单卡 和 数据中心集群 都应该保留,但不能混成同一本账:
- 如果目标是把
Qwen3.6 27B dense这类模型在本地认真跑起来,看RTX 5090D / 5090级单卡 - 如果目标是
DeepSeek V4 Pro、Kimi K2.6、GLM-5.1这一档的 frontier agent / coding 任务,看HGX B200 / B300和GB300 NVL72集群
真正要算的不是某张卡“能不能跑”,而是四件事:
- 硬件采购价本身有多重
- 公开 benchmark 到底能打出多少
token/s - 真实业务里能保住多少
有效利用率 - 最后摊成多少
元 / 百万输出 token
统一口径
- 日期口径:
截至 2026-04-30 - 硬件价格优先采用
NVIDIA 中国官网、公开销售页或公开财报口径 - 吞吐优先采用
MLPerf Inference v6.0、Nebius与NVIDIA官方公开数据 月产出按30 天 × 24 小时连续运行折算- 这页优先比较
输出 token,方便直接和 API输出价(元 / M)对照 - 不同模型不能直接横比;这里主要看
部署档位和量级 HGX B300 / GB300 NVL72的统一公开成交价并不透明,所以这页不伪造某个“官方月租”,而是把硬件价格层、吞吐层和月总成本层分开写
先记住算账公式
text
月产出(M token)
≈ token/s × 30 × 24 × 3600 / 1,000,000text
保本输出价(元 / M)
≈ 月总成本 / 月产出(M)text
可承受月总成本
≈ API 输出价(元 / M) × 月产出(M)如果你把成本层也放进去,这页真正隐含的完整关系其实是:
text
月总成本
≈ 硬件折旧 + 电力 + 机房网络 + 运维text
单位输出成本(元 / M)
≈ 月总成本 / 月产出(M)也就是说:
硬件采购价决定折旧有多重吞吐和利用率决定分母能不能做大元 / M是最后的结果,不是起点
第一档:消费级单卡的本地甜点位
如果你不是在做 HGX / GB300 集群,而是想在本地稳定跑 Qwen3.6 27B dense,那条最现实的 NVIDIA 路线仍然是 RTX 5090D / 5090 级单卡。
这里先沿用轻量本地口径:
- 折旧期
36 个月 - 每天有效推理
8 小时 - 电价
0.6 元 / kWh RTX 5090D v2购置价按¥16,499- 功耗按
约 575W
折到每小时就是:
- 折旧 / 小时:
16499 / 8640 ≈ 1.91 - 电费 / 小时:
0.575 × 0.6 ≈ 0.35 - 总成本 / 小时:
约 2.26
这组数字很有代表性。
因为在这条单卡路线里:
- 折旧 / 小时约
1.91 - 电费 / 小时约
0.35
也就是说,硬件折旧 大约已经占到机器直接运行成本的 84%。
这就是为什么只盯着电费,通常会把账看歪。
| 路线 | 模型 | 代表硬件 | 总成本 / 小时 | 速度估算 | 输出成本估算 | 更适合什么 |
|---|---|---|---|---|---|---|
| 消费级单卡甜点位 | Qwen3.6 27B dense | RTX 5090D v2 24GB / 5090 级单卡 | 约 ¥2.26 | 约 70-85 tok/s | 约 ¥7.4-9.0 / M | 小模块、多文件常规改动、仓库内日常修复 |
| 消费级单卡甜点位 | Qwen3.6 35B-A3B | RTX 5090D v2 24GB / 5090 级单卡 | 约 ¥2.26 | 约 85-105 tok/s | 约 ¥6.0-7.4 / M | 高并发 agent、批量任务、成本敏感工作流 |
这条线的意义很明确:
- 不追 frontier 上限
- 但能把常规 coding / agent 任务认真做起来
- 单位输出成本还留在
个位数元 / M
第二档:数据中心集群先看公开吞吐基线
一旦模型切到 DeepSeek V4 Pro 这类 frontier MoE,账本就不能再用消费级单卡思路看,而要回到 HGX B200 / B300 与 GB300 NVL72 这类公开吞吐基线。
| 集群档位 | 公开模型 | 场景 | 公开吞吐 | 折合月产出 | 更像什么部署 |
|---|---|---|---|---|---|
| 8× HGX B200 | DeepSeek-R1 | Server | 51,693 token/s | 约 133,988M / 月 | 第一档能认真跑 frontier MoE 的 8 卡集群 |
| 8× HGX B300 | DeepSeek-R1 | Server | 60,413 token/s | 约 156,590M / 月 | 现在最值得看的重型单节点线 |
| 8× GB300 NVL72(按 8 卡口径) | DeepSeek-R1 | Server | 64,510 token/s | 约 167,210M / 月 | 比 B300 再上一档的 Blackwell Ultra 单节点口径 |
| 72× GB300 NVL72 | DeepSeek-R1 | Server | 575,580 token/s | 约 1,491,903M / 月 | 机架级 AI factory 口径 |
| 288× GB300 NVL72 | DeepSeek-R1 | Server | 1,555,110 token/s | 约 4,030,845M / 月 | 4 套 NVL72 规模,已经是多柜级扩展 |
| 8× HGX B300 | GPT-OSS 120B | Server | 100,437 token/s | 约 260,333M / 月 | 另一条 frontier open-weight 8 卡参考线 |
| 72× GB300 NVL72 | GPT-OSS 120B | Server | 1,096,770 token/s | 约 2,842,828M / 月 | 大规模 open-weight 推理的机架级口径 |
这些数字是 集群总吞吐,不是单用户流式返回速度。
它们回答的是“工厂一秒总共能产多少 token”,不是“一个用户眼前一秒能看到多少 token”。
同口径的 DeepSeek-R1 / GPT-OSS 公开吞吐,今天主要集中在 B200 / B300 / GB300 这些 Blackwell 代产品。H100 / H200 更适合放在下面的采购价和推测成本表里,当作上一代集群折旧与代际价格的参照,而不是硬凑进同口径吞吐表。
NVIDIA 集群的采购价、成本层和推测月总成本
公开价格里最容易混的,其实是三种不同的东西:
NVIDIA / OEM 卖整机的公开售价- 按财报口径粗折出来的
直接成本影子 - 运营方每月真正摊掉的
月总成本
如果把 NVIDIA FY2026 财报也放进来,这条线会更清楚:
- 全年收入:
$215.9B - 全年 cost of revenue:
$62.5B - 全年 GAAP gross margin:
71.1% - 全年 Data Center 收入:
$193.7B,占总收入约 89.7%
换成一句最有用的话:
text
按 NVIDIA FY2026 公司级平均口径看,客户每支付 100 元给 NVIDIA,
约 28.9 元对应直接成本,约 71.1 元留在毛利层。这当然 不是单张 GPU 的真实 BOM,也 不是 OEM 整机的最终成本。
但把它和公开整机售价放在一起,已经足够帮助读者看清利润分配:谁先拿走了硬件这层钱,谁又把它继续摊进每月账本里。
下面这张表统一把美元按 1:7.2 粗算成人民币。
其中 直接成本影子 是把公开售价再按 28.9% 粗折,只是为了看利润分配,不应当被理解为真实整机 BOM:
| 集群档位 | 公开售价锚点 | 按 28.9% 粗折的直接成本影子 | 推测月总成本带 | 这笔钱主要流向哪里 |
|---|---|---|---|---|
| 8× HGX H100 | 约 $250K-350K,折合 约 ¥180-252 万 | 约 ¥52-73 万 | 约 ¥8-11 万 / 月 | Hopper 上一代存量很多,更多是在继续消化折旧、机房与运维成本 |
| 8× HGX H200 | 约 $320K-420K,折合 约 ¥230-302 万 | 约 ¥67-87 万 | 约 ¥9-13 万 / 月 | HBM 提升后采购价上去,但整体仍是上一代主流重型节点 |
| 8× HGX B200 | 约 $340K-500K+,折合 约 ¥245-360 万 | 约 ¥71-104 万 | 约 ¥10-15 万 / 月 | Blackwell 代开始把 NVIDIA 芯片溢价、OEM 整机和 IDC 成本同时抬高 |
| 8× HGX B300 | 约 $430K-550K+,折合 约 ¥310-396 万 | 约 ¥90-114 万 | 约 ¥12-17 万 / 月 | 更高的 Blackwell Ultra 采购价 + 液冷 / 网络 / 服务 |
| 72× GB300 NVL72 | 约 $3M-4M 的机架价值带,且通常 quote only,折合 约 ¥2160-2880 万 | 约 ¥624-832 万 | 约 ¥80-120 万 / 月 | 机架级 GPU / Grace / NVLink / NIC / 液冷 / 机房整体摊销 |
把这张表从上往下读,基本就能看到 NVIDIA 这条线怎么分层拿钱:
NVIDIA 直接成本层:晶圆、HBM、封装、测试、板卡、供应链,决定直接成本影子NVIDIA 价值捕获层:架构设计、CUDA、TensorRT-LLM、生态和供需稀缺,把公开售价继续抬高OEM / 整机层:HGX 主板、NVSwitch、CPU、NIC、内存、SSD、机箱、电源、液冷,把芯片价格变成整机采购价IDC / 运维层:机柜、IB 交换机、电力、制冷、SRE、保修、值班,把整机采购价变成每月账单
推测月总成本带 这里不是云厂商“官方月租”,而是为了算 元 / M 给出的工程口径,默认包含:
36 个月折旧24×7电力- 机房网络、保修、值班和基础运维
这张表真正想说明的是:
token 成本里最厚的一层,往往在 token 还没产出来之前,就已经先被 NVIDIA 毛利、OEM 整机价和 IDC 固定成本锁住了。
常规利用率下,token 成本怎么摊
如果把上面的月总成本,直接摊到公开吞吐基线上,最值得看的不是“满载神话”,而是 30% / 50% / 70% 这三档有效利用率:
30%:交互优先、流量波动大、batch 经常不满50%:比较像正常在线推理业务里,已经做过调度优化的状态70%:很强的持续流量、较好的 batching、较低的空转时间
先用 DeepSeek-R1 的公开吞吐做统一硬件锚点:
| 集群档位 | 30% 利用率 | 50% 利用率 | 70% 利用率 | 该怎么读 |
|---|---|---|---|---|
| 8× HGX B200 | 约 ¥2.49-3.73 / M | 约 ¥1.49-2.24 / M | 约 ¥1.07-1.60 / M | 8 卡 Blackwell 的账并不贵,前提是你真能把机器吃满 |
| 8× HGX B300 | 约 ¥2.55-3.62 / M | 约 ¥1.53-2.17 / M | 约 ¥1.09-1.55 / M | 比 B200 更快,但采购价也更高;关键仍是利用率 |
| 72× GB300 NVL72 | 约 ¥1.79-2.68 / M | 约 ¥1.07-1.61 / M | 约 ¥0.77-1.15 / M | 机架级 AI factory 能继续摊薄,但前提是持续高负载 |
这组数最重要的结论有两个:
利用率每掉一截,元 / M就会几乎按反比例变贵GB300 NVL72的优势不是“神奇更便宜”,而是把极重的采购价摊到更大的吞吐分母上
所以站在利润分配角度看,AI 推理一条链上至少有三层钱:
NVIDIA先在芯片和软件生态层拿走高毛利OEM / 机房再把整机、液冷、网络和运维摊进月总成本模型 / API 厂商只能靠吞吐 × 利用率 × 售价去消化前两层
DeepSeek V4 Pro:单用户 token 速度越快,单位成本往往越贵
DeepSeek-R1 的 MLPerf 数据适合当硬件上限锚点。
真正落到 DeepSeek V4 Pro,还要再加一层:单用户速度 和 总吞吐 本身就是此消彼长。
NVIDIA 给 DeepSeek V4 Pro 在 8× B300 上画过一张典型曲线:
- 条件是
1K 输入 / 1K 输出 - 精度口径是模型原生
MXFP4 - 横轴是
TPS per User,也就是单用户速度 - 纵轴是
TPS per GPU,也就是每张 GPU 能承载的总吞吐
下面这张表按官方图近似读数,并统一用上面 8× B300 的 约 ¥12-17 万 / 月 成本带,再按 50% 有效利用率来算:
| 单用户速度 | 8 卡总吞吐 | 折合满载月产出 | 50% 利用率下输出成本 | 该怎么读 |
|---|---|---|---|---|
13 t/s | 约 26.2k token/s | 约 67,910M / 月 | 约 ¥3.53-5.01 / M | 很像 token 工厂口径,用户体感偏慢 |
15 t/s | 约 22.4k token/s | 约 58,061M / 月 | 约 ¥4.13-5.86 / M | 仍然偏吞吐优先,还有利润空间 |
16.6 t/s | 约 19.3k token/s | 约 50,026M / 月 | 约 ¥4.80-6.80 / M | 已经进入 API 成本分界线附近 |
20 t/s | 约 11.4k token/s | 约 29,549M / 月 | 约 ¥8.12-11.51 / M | 交互体感更好,但单位成本明显变坏 |
30 t/s | 约 5.4k token/s | 约 13,997M / 月 | 约 ¥17.15-24.29 / M | 更像高体验交互 API,不像 token 工厂 |
40 t/s | 约 2.9k token/s | 约 7,517M / 月 | 约 ¥31.93-45.23 / M | 很顺滑,但总吞吐和成本都已经非常不友好 |
这张表背后的关系其实很简单:
text
单位输出成本
≈ 月总成本 / (总吞吐 × 有效利用率)而 总吞吐 又大致受下面这个式子约束:
text
集群总吞吐
≈ 有效并发用户数 × 单用户 token 速度 × 调度效率所以在真实服务里:
- 你把
单用户 token 速度往上推 - 往往意味着 batch 更难做满,
总吞吐会往下掉 总吞吐一掉,固定月总成本就会更难摊薄- 结果就是
用户看到更快,但每 1M token反而更贵
如果不是 50% 利用率,而是别的常规档位,也很好推:
- 掉到
30%利用率,上表成本大约再× 1.67 - 升到
70%利用率,上表成本大约再× 0.71
这也是为什么同样一套 8× B300:
- 偏吞吐优先的人会觉得
DeepSeek V4 Pro还能做 - 偏交互体验的人会觉得 API 反而更便宜
API 售价给了哪些成本天花板
看 API 价,不是为了反推一个固定月产量,而是为了看:
你在常规利用率下算出来的 元 / M,能不能压到 API 输出价下面。
| 模型 | 官方输出价(元 / M) | 对自建的含义 |
|---|---|---|
| DeepSeek V4 Flash | 2.03 | 价格已经压得很低;没有极高利用率和很强 batching,自建很难只靠“更便宜”赢 |
| DeepSeek V4 Pro | 6.31 | 8× B300 只有在 15-17 t/s 左右、并且 50%-70% 利用率时,才比较有机会靠近或压住 |
| Kimi K2.6 | 27.00 | API 给了很高成本缓冲,但官方还没公开 MLPerf 式集群吞吐表,暂时不该把自建账写死 |
| GLM-5.1 | 31.90 | 同样有较高 ceiling,更适合先当 API 价格锚,而不是写成精确的 HGX / GB300 自建成本 |
把几类模型放到哪档集群里看
| 模型 | 公开信息 | 更合理的成本看法 |
|---|---|---|
| DeepSeek V3 / R1 | 公开 benchmark 最完整的是 R1,V3 更像上一代同档参考 | 先拿 R1 当 B200 / B300 / GB300 的公开吞吐锚点 |
| DeepSeek V4 Pro | 官方公开 1.6T total / 49B active、1M context | 当作 R1 之上的重型 MoE;决定账本的是 交互速度 × 上下文长度 × 利用率 |
| DeepSeek V4 Flash | 官方公开 284B total / 13B active、1M context | 更像高性价比大流量线;如果只比单价,hosted 往往已经很狠 |
| Kimi K2.6 | 官方公开 256K context、强 coding / agent 基准、¥27 / M 输出价 | 先拿 API 价算 ceiling;官方还没给出 MLPerf 式同口径 token/s |
| GLM-5.1 | 官方公开 200K context、长时 agent 能力、¥31.90 / M 输出价 | 更适合当 API 成本参考线;没有公开 HGX/GB300 benchmark 时,不要把自建账写得太满 |
今天真要做 DeepSeek V3 / V4 这一系的 frontier open-weight 集群账,最有用的组合通常是:
- 用
DeepSeek-R1的 MLPerf 数据看硬件上限 - 用
DeepSeek V4 Pro的 NVIDIA 官方图看交互损耗 - 用
DeepSeek V4 Pro / Flash的官方 API 价格看商业空间
账本规律
- 硬件采购价是 NVIDIA 这条线里非常重的一层,不是可以略过的小项;财报里的高毛利也说明了这一点
Qwen3.6 27B dense在消费级单卡上仍然是值得保留的甜点位,大致还在¥7-9 / M这一档- 在 frontier MoE 这一档,电费通常不是第一主因,
硬件折旧、有效利用率和软件栈优化更重要 集群总吞吐和单用户 token 速度通常是此消彼长;交互越快,单位输出成本通常越差30%到70%的利用率差,会直接把元 / M拉开接近一倍以上;很多利润不是输在模型本身,而是输在空转DeepSeek V4 Pro在8× B300上,只有在15-17 t/s左右并保持50%-70%利用率时,单位成本才比较有机会逼近 API72× GB300 NVL72和更大的 Blackwell Ultra 集群确实能继续摊薄元 / M,但前提是持续高负载;否则机架级采购价会先吃掉利润DeepSeek V4 Flash这类低价 hosted 模型,已经把纯 token 单价压得很低;如果你自建只是为了“更便宜”,很多时候账并不好看GLM-5.1、Kimi K2.6现在更适合先当 API ceiling line 看,不适合在缺少公开集群 benchmark 时把自建成本写成精确数字
结论
- 这页的主线应该先看
硬件价格和成本分布,再看公开 token/s,最后才是元 / M - 轻量本地单卡没有消失;
Qwen3.6 27B dense在5090级消费显卡上,仍然是¥7-9 / M级别的现实甜点位 8× B300的关键不是追一个固定月产量数字,而是看15-17 t/s左右的吞吐配置,能不能在50%-70%利用率下把采购价和月总成本摊薄DeepSeek V4 Pro自建是否成立,核心不在“能不能跑”,而在“用户能不能接受较慢单用户速度,换更高总吞吐”- 判断成本时,必须把
集群总吞吐和单用户 token 速度分开;同一套硬件往往只能二选一地偏向其中一边 DeepSeek V4 Flash这种低价 hosted 已经很接近自建极限;Kimi K2.6、GLM-5.1则更适合先拿 API 价倒推空间,而不是硬写自建报价
参考资料
- NVIDIA:FY2026 Financial Results
- NVIDIA 中国:GeForce RTX 5090 D v2
- Epoch AI:B200 Cost Breakdown
- IntuitionLabs:NVIDIA AI GPU Prices: H100 ($27K-$40K) & H200 ($315K/8-GPU) Cost Guide
- Nebius:MLPerf Inference v6.0 on NVIDIA Blackwell and Blackwell Ultra
- NVIDIA:Lowest Token Cost Enabled by Extreme Co-Design
- NVIDIA:Build with DeepSeek V4 Using NVIDIA Blackwell
- SLYD:Enterprise AI Server Comparison 2026
- HPE:NVIDIA GB300 NVL72 by HPE
- DeepSeek API Docs:Models & Pricing
- Kimi API:Kimi K2.6
- Kimi API:Kimi K2.6 定价
- Moonshot AI:Kimi K2.6 Blog
- Z.AI:GLM-5.1
- Z.AI:Pricing