运维成本

开发期更像一次性项目费用。
线上费用更像“活的基础设施账单”。

场景 1：AI 搜索 / 知识问答

假设：

月 50,000 次问答
每次 2,000 input + 400 output

那月度 token 大约是：

输入：100M
输出：20M

粗略月成本：

Step-3.5 Flash：$16
Qwen3.6 Plus：$71.5
GPT-5.4 mini：$90
Claude Sonnet 4：$324

场景 2：AI 客服

假设：

月 100,000 会话
每次 1,200 input + 300 output

月度 token 大约是：

输入：120M
输出：30M

场景 3：内部 AI 编程助手

假设：

200 名工程师
每人每天平均消耗 20,000 token
每月工作 22 天

月度 token 大约是：

200 * 20,000 * 22 = 88M token

平台级系统为什么会进入另一种预算模式

平台级系统不再只是“多少 token”。
它开始同时受以下项目影响：

token 费用
搜索和浏览器费用
code execution / container 费用
embedding 与向量库存储
本地节点或 GPU 集群的固定成本
观测、审计、人工兜底

降成本最有效的几个手段

模型分层
控制输出长度
提高缓存命中率
让检索更精准
给 agent 设预算上限

你真正该盯的运维指标

指标	为什么关键
每请求 token	看单次是否失控
每会话 token	看多轮任务是否膨胀
输入/输出比例	判断是 prompt 过长还是回答过长
缓存命中率	直接影响毛利
fallback 比例	判断主模型是否太贵或太不稳
人工接管率	决定 AI 是否真的省人力
真实业务成功率	决定花出去的钱有没有转化成价值

结论

线上成本不是单一模型单价，而是一整条工作流的结果
平台级系统最终会进入 AI FinOps
不做观测，就很难真正控住 AI 账单