Skip to content

运维成本

开发期更像一次性项目费用。
线上费用更像“活的基础设施账单”。

场景 1:AI 搜索 / 知识问答

假设:

  • 月 50,000 次问答
  • 每次 2,000 input + 400 output

那月度 token 大约是:

  • 输入:100M
  • 输出:20M

粗略月成本:

  • Step-3.5 Flash:$16
  • Qwen3.6 Plus:$71.5
  • GPT-5.4 mini:$90
  • Claude Sonnet 4:$324

场景 2:AI 客服

假设:

  • 月 100,000 会话
  • 每次 1,200 input + 300 output

月度 token 大约是:

  • 输入:120M
  • 输出:30M

场景 3:内部 AI 编程助手

假设:

  • 200 名工程师
  • 每人每天平均消耗 20,000 token
  • 每月工作 22 天

月度 token 大约是:

200 * 20,000 * 22 = 88M token

平台级系统为什么会进入另一种预算模式

平台级系统不再只是“多少 token”。
它开始同时受以下项目影响:

  • token 费用
  • 搜索和浏览器费用
  • code execution / container 费用
  • embedding 与向量库存储
  • 本地节点或 GPU 集群的固定成本
  • 观测、审计、人工兜底

降成本最有效的几个手段

  1. 模型分层
  2. 控制输出长度
  3. 提高缓存命中率
  4. 让检索更精准
  5. 给 agent 设预算上限

你真正该盯的运维指标

指标为什么关键
每请求 token看单次是否失控
每会话 token看多轮任务是否膨胀
输入/输出比例判断是 prompt 过长还是回答过长
缓存命中率直接影响毛利
fallback 比例判断主模型是否太贵或太不稳
人工接管率决定 AI 是否真的省人力
真实业务成功率决定花出去的钱有没有转化成价值

结论

  • 线上成本不是单一模型单价,而是一整条工作流的结果
  • 平台级系统最终会进入 AI FinOps
  • 不做观测,就很难真正控住 AI 账单

价格、型号与硬件配置按 2026-04-28 的公开页面静态整理。