Skip to content

Model Infrastructure:算力、集群与模型服务

如果说 AI 应用最后呈现给用户的是一个会回答、会调用工具、会持续执行任务的系统,那么最底下首先要成立的一层,是 Model Infrastructure

这一层不负责理解业务,不负责组织工作流,也不直接决定 agent 会不会做事。它负责的是另一件更基础的事:

让模型能够被训练出来、部署起来、稳定地提供推理服务。

很多讨论里,一说 AI Infrastructure,默认指的就是这一层。

这一层到底在解决什么

可以把 Model Infrastructure 理解成模型世界里的地基工程。它要回答的不是“模型会不会做任务”,而是:

  • 模型能不能装进硬件
  • 训练集群能不能稳定把模型跑完
  • 推理服务能不能在目标延迟下吐出足够吞吐
  • 多用户同时请求时会不会崩
  • 更新模型版本时会不会把线上服务拖垮

如果这些问题没解决,上层所有 RAG、工具调用、workflow 和 agent 设计都会失去前提。

这一层通常包含哪些东西

Model Infrastructure 最常见的对象包括:

  • GPU / TPU
  • 高速网络
  • 存储
  • 训练集群
  • 推理集群
  • serving engine
  • 模型权重分发
  • 调度与弹性伸缩
  • 监控与故障恢复

这些词放在一起时看起来像“资源堆叠”,但真正的问题其实只有一个:

如何把一个又大、又贵、又吃带宽、又吃显存的模型,变成一个稳定可用的服务。

1. 计算:模型先得有地方跑

模型基础设施的第一件事当然是计算。

但这里的“计算”不是抽象的 CPU 时间,而是非常具体的限制条件:

  • 显存够不够
  • 卡间带宽够不够
  • 节点间网络够不够快
  • 单卡吞吐能不能支撑目标并发
  • 整体功耗和散热能不能承受

大模型之所以强,不只是因为参数多,也因为它把基础设施问题推得很极端。模型越大,工程上越容易碰到这些硬边界:

  • 权重放不下
  • KV cache 撑爆显存
  • batch 一上来延迟飙升
  • 节点一多,通信开销吞掉收益

所以这一层最先要学会的,不是“模型提示词怎么写”,而是 容量、带宽、延迟、吞吐、利用率 这些底层物理约束。

2. 训练集群:把模型从参数初始化推到可用状态

训练时的基础设施,解决的是 模型如何被造出来

这时真正关键的往往不是某一张卡有多快,而是整个训练系统能不能稳定长时间运行:

  • 数据怎么持续喂进去
  • checkpoint 怎么保存
  • 节点故障后怎么恢复
  • 通信拓扑怎么减少浪费
  • 训练任务怎么调度到合适集群

读者容易把训练理解成“多买点 GPU 就行”。但工程现实通常更像:

训练不是单机跑久一点,而是一个长时间、高同步、高成本、极怕中断的分布式系统。

所以当你看到别人讨论训练集群时,重点常常不是模型架构本身,而是:

  • IB / NVLink / NVSwitch
  • 分布式训练框架
  • checkpoint 恢复
  • 存储吞吐
  • 调度稳定性

这些都属于 Model Infrastructure,而不是上层 AI 应用架构。

3. 推理集群:把模型变成在线服务

模型训练出来以后,还要面对另一类完全不同的问题:怎么服务真实请求

推理集群最常关心的是:

  • 首 token 延迟能不能接受
  • 每秒 token 吞吐够不够
  • 并发高了以后服务是否还能稳定
  • 长上下文会不会把显存和 KV cache 压爆
  • 混合模型路由时如何维持整体 SLA

训练时你关注的是“能不能把模型训完”,推理时你关注的是“能不能以合理延迟、合理成本持续服务用户”。

这也是为什么推理基础设施会非常重视:

  • batching
  • KV cache 管理
  • paged attention
  • continuous batching
  • speculative decoding
  • 多模型部署
  • 冷热实例切换

这些都不是业务逻辑,而是“模型服务化”本身的工程学。

4. Serving Engine:把权重接成可调用接口

很多人把“部署模型”想成起一个 API。真正做过之后会发现,中间差着一整层 serving engine。

这层负责的事包括:

  • 加载权重
  • 管理 tokenizer
  • 管理并发请求
  • 维护 KV cache
  • 实现 batch 策略
  • 提供 OpenAI-compatible 或自定义接口

所以你会经常看到这些名字:

  • vLLM
  • TensorRT-LLM
  • Triton Inference Server
  • TGI
  • SGLang

它们不是“可有可无的封装”,而是把模型从一堆张量参数,变成一个可部署、可并发、可调优服务的关键层。

5. 调度与可靠性:把单次运行变成长期服务

只要模型进入生产环境,问题就不再是“它能跑一次”,而是“它能不能一直跑”。

所以 Model Infrastructure 还要负责:

  • 服务发现
  • 自动扩缩容
  • 多区域部署
  • 故障转移
  • 发布回滚
  • 权重版本管理
  • GPU 资源分配
  • 健康检查

这一层跟传统分布式系统很像,但又更苛刻,因为模型服务通常同时具备三个特点:

  • 资源占用高
  • 时延敏感
  • 请求方差大

也就是说,一点点调度失误,就可能表现成非常具体的用户问题:首字慢、回答突然截断、流式输出卡住、长上下文请求大量超时。

6. 为什么这一层不能替代上层

Model Infrastructure 非常重要,但它解决的是“模型能不能稳定跑”,不是“模型能不能稳定工作”。

哪怕你把部署做得很好,下面这些事仍然不会自动发生:

  • 模型不会凭空理解你的企业知识
  • 模型不会自动接上数据库和浏览器
  • 模型不会自动形成多步执行能力
  • 模型不会自动知道哪些操作需要审批
  • 模型不会自动解释自己为什么失败

所以很多团队在 Model Infrastructure 上投入很多以后,仍然会发现业务效果不够好。不是因为底层不重要,而是因为 跑起来用起来 根本是两层不同的问题。

你应该怎样理解这一层

对读者来说,最重要的不是背多少厂商名词,而是建立一个判断习惯:

当一个讨论主要围绕下面这些问题时,你大概率就在谈 Model Infrastructure:

  • 显存和带宽够不够
  • 训练和推理集群怎么配
  • serving engine 选什么
  • 并发、吞吐和延迟怎么平衡
  • 权重如何发布、回滚和扩缩容

一旦问题开始转向知识接入、工具调用、workflow、观测和审批,那通常就已经不是这一层了。

结论

  • Model Infrastructure 负责把模型变成可训练、可部署、可服务的底层能力
  • 它的核心问题是计算、带宽、吞吐、延迟、调度和可靠性
  • 它决定模型能不能稳定跑,但不决定模型能不能完成真实工作

参考资料

价格、型号与硬件配置按 2026-04-28 的公开页面静态整理。