Appearance
运维成本
开发期更像一次性项目费用。
线上费用更像“活的基础设施账单”。
场景 1:AI 搜索 / 知识问答
假设:
- 月 50,000 次问答
- 每次
2,000 input + 400 output
那月度 token 大约是:
- 输入:
100M - 输出:
20M
粗略月成本:
- Step-3.5 Flash:
$16 - Qwen3.6 Plus:
$71.5 - GPT-5.4 mini:
$90 - Claude Sonnet 4:
$324
场景 2:AI 客服
假设:
- 月 100,000 会话
- 每次
1,200 input + 300 output
月度 token 大约是:
- 输入:
120M - 输出:
30M
场景 3:内部 AI 编程助手
假设:
- 200 名工程师
- 每人每天平均消耗
20,000token - 每月工作 22 天
月度 token 大约是:
200 * 20,000 * 22 = 88M token
平台级系统为什么会进入另一种预算模式
平台级系统不再只是“多少 token”。
它开始同时受以下项目影响:
- token 费用
- 搜索和浏览器费用
- code execution / container 费用
- embedding 与向量库存储
- 本地节点或 GPU 集群的固定成本
- 观测、审计、人工兜底
降成本最有效的几个手段
模型分层控制输出长度提高缓存命中率让检索更精准给 agent 设预算上限
你真正该盯的运维指标
| 指标 | 为什么关键 |
|---|---|
| 每请求 token | 看单次是否失控 |
| 每会话 token | 看多轮任务是否膨胀 |
| 输入/输出比例 | 判断是 prompt 过长还是回答过长 |
| 缓存命中率 | 直接影响毛利 |
| fallback 比例 | 判断主模型是否太贵或太不稳 |
| 人工接管率 | 决定 AI 是否真的省人力 |
| 真实业务成功率 | 决定花出去的钱有没有转化成价值 |
结论
- 线上成本不是单一模型单价,而是一整条工作流的结果
- 平台级系统最终会进入
AI FinOps - 不做观测,就很难真正控住 AI 账单