Skip to content

Agentic Infrastructure:上下文、工具、运行时与治理

上一页把 AI 应用基础设施分成了三层。本页专门展开第三层,也就是 Agentic Infrastructure

这里讨论的不是 GPU、推理引擎或成本核算,而是模型在接入知识与工具之后,如何真正变成一个可持续工作的 agent。

这一层在补什么

可以把 Agentic Infrastructure 理解成:

给模型补外部记忆、外部身体、外部运行时、外部反馈和外部制度。

它最常见的五组系统如下:

组成推荐叫法它在补什么
上下文与记忆Context Layer / Context Engineering模型无状态、缺业务语境
工具与连接器Tooling Layer / MCP Ecosystem模型只能生成文本,不能直接行动
运行时与编排Agent Runtime / Agent Orchestration长任务易丢状态,缺少多步执行能力
观测与评测AgentOps / AI Observability失败不可解释,系统无法持续改进
治理与审批Agentic AI Governance权限边界不清,风险不可控

1. Context Layer:让模型知道自己身处什么环境

模型参数只是旧世界的压缩记忆,它不知道你当前的组织规则、项目背景、数据库状态和历史决策。

所以 Agentic Infrastructure 的第一部分,往往是上下文层。这里的“上下文”不只是 prompt 里的几段文字,而是让模型理解任务环境所需的全部工作记忆。

上下文类型典型内容常见实现
短期上下文当前对话、最近几步操作、临时计划thread state、scratchpad、session memory
长期上下文用户偏好、组织知识、项目约束memory store、知识库、profile store
程序性上下文这类事通常应该怎么做AGENTS.md、内部 SOP、Skills
情景上下文某次失败为何发生、后来如何修复incident notes、run history、failure library

这也是为什么 RAG 不该被当成这一层的全部。RAG 只是把文档证据送进上下文的一种常见方式;真正的 context layer 还包括业务定义、组织规则、历史决策和工作记忆。

2. Tooling Layer:让模型从“会说”变成“会做”

模型默认只能生成文本。真正进入生产环境后,它必须能够:

  • 查数据库
  • 读写文件
  • 搜索网页
  • 操作浏览器
  • 调业务 API
  • 执行脚本

这就是工具层的工作。当前最常见的叫法包括:

  • Tool Use
  • Tooling Layer
  • Connector Layer
  • MCP Ecosystem

其中 MCP 的价值,不只是“多一个协议”,而是把外部上下文和工具接入做成相对统一的接口。

真正决定工具层效果的,往往也不是接没接上,而是工具界面是否适合模型使用:

  • 命名空间是否清楚
  • 输入参数是否稳定
  • 返回结果是否高信号
  • 错误信息是否能帮助模型恢复
  • 权限边界是否明确

把原始 API 直接暴露给模型通常效果很差。更有效的方式,是把它们重新包装成模型容易理解、容易恢复、边界清楚的 agent interface。

3. Agent Runtime:让多步任务能持续执行

即使有了上下文和工具,系统也还不等于 agent。要让模型真正持续工作,还需要运行时和编排层来解决下面这些问题:

  • 任务如何拆成多步
  • 中途失败后怎么恢复
  • 已完成步骤如何避免重做
  • 多个 agent 如何交接
  • 人类审批后如何继续
  • 高风险操作是否需要沙箱

所以这一层常见的系统会包括:

  • agent runtime
  • workflow engine
  • checkpoint
  • durable execution
  • handoff
  • sandbox
  • agents-as-tools

如果进一步进入多 agent 协作,还会碰到 A2A 这类 agent-to-agent 互操作问题。重点不在于“是不是多 agent”,而在于职责边界、状态边界和恢复边界是否更清楚。

一句话说,这一层的目的不是堆 agent,而是:

把上下文和工具组织成一个能暂停、恢复、交接和持续执行的工作流系统。

4. AgentOps:让系统从黑箱变成可调试对象

当 agent 开始跑长任务,失败来源会迅速增多:

  • 上下文取错了
  • 工具选错了
  • 参数传错了
  • handoff 断了
  • 验证器过严或过松
  • 新版本 prompt 造成回归

所以真正能上线的 agent system,一定需要观测与评测层。现在比较合适的词是:

  • AgentOps
  • AI Observability
  • Agent Evaluation

这层最常见的对象包括:

  • trace
  • tool logs
  • retrieval evidence
  • eval runs
  • regression suite
  • failure taxonomy
  • task success rate

没有这层能力,你就无法系统回答:

  • 它为什么成功
  • 它为什么失败
  • 新版本到底有没有变好
  • 哪一类任务最容易退化

5. Governance:给 agent 加上边界、审批与责任

一旦模型能操作外部系统,治理就不再是附属品,而是系统本体的一部分。

典型问题包括:

  • 哪些工具可以调用
  • 哪些数据可以读取
  • 哪些操作必须审批
  • 哪些动作需要审计
  • 哪些步骤必须人工兜底

所以这一层常见的系统会包括:

  • tool governance
  • guardrails
  • policy layer
  • RBAC
  • human-in-the-loop
  • 审计日志
  • 沙箱隔离

这里真正要解决的,不只是“防止出错”,而是让自动化有责任边界。系统必须知道什么能自动做,什么只能建议,什么必须停下来等人确认。

结论

  • Context Layer 负责把业务现场翻译成模型能理解的工作环境
  • Tooling Layer 负责把语言能力接成真实行动能力
  • Agent Runtime 负责把多步任务组织成可暂停、可恢复、可交接的执行系统
  • AgentOps 负责让系统行为可观测、可评测、可回归
  • Governance 负责给 agent 加上权限边界、审批机制和审计责任

参考资料

价格、型号与硬件配置按 2026-04-28 的公开页面静态整理。