Appearance
Agentic Infrastructure:上下文、工具、运行时与治理
上一页把 AI 应用基础设施分成了三层。本页专门展开第三层,也就是 Agentic Infrastructure。
这里讨论的不是 GPU、推理引擎或成本核算,而是模型在接入知识与工具之后,如何真正变成一个可持续工作的 agent。
这一层在补什么
可以把 Agentic Infrastructure 理解成:
给模型补外部记忆、外部身体、外部运行时、外部反馈和外部制度。
它最常见的五组系统如下:
| 组成 | 推荐叫法 | 它在补什么 |
|---|---|---|
| 上下文与记忆 | Context Layer / Context Engineering | 模型无状态、缺业务语境 |
| 工具与连接器 | Tooling Layer / MCP Ecosystem | 模型只能生成文本,不能直接行动 |
| 运行时与编排 | Agent Runtime / Agent Orchestration | 长任务易丢状态,缺少多步执行能力 |
| 观测与评测 | AgentOps / AI Observability | 失败不可解释,系统无法持续改进 |
| 治理与审批 | Agentic AI Governance | 权限边界不清,风险不可控 |
1. Context Layer:让模型知道自己身处什么环境
模型参数只是旧世界的压缩记忆,它不知道你当前的组织规则、项目背景、数据库状态和历史决策。
所以 Agentic Infrastructure 的第一部分,往往是上下文层。这里的“上下文”不只是 prompt 里的几段文字,而是让模型理解任务环境所需的全部工作记忆。
| 上下文类型 | 典型内容 | 常见实现 |
|---|---|---|
| 短期上下文 | 当前对话、最近几步操作、临时计划 | thread state、scratchpad、session memory |
| 长期上下文 | 用户偏好、组织知识、项目约束 | memory store、知识库、profile store |
| 程序性上下文 | 这类事通常应该怎么做 | AGENTS.md、内部 SOP、Skills |
| 情景上下文 | 某次失败为何发生、后来如何修复 | incident notes、run history、failure library |
这也是为什么 RAG 不该被当成这一层的全部。RAG 只是把文档证据送进上下文的一种常见方式;真正的 context layer 还包括业务定义、组织规则、历史决策和工作记忆。
2. Tooling Layer:让模型从“会说”变成“会做”
模型默认只能生成文本。真正进入生产环境后,它必须能够:
- 查数据库
- 读写文件
- 搜索网页
- 操作浏览器
- 调业务 API
- 执行脚本
这就是工具层的工作。当前最常见的叫法包括:
- Tool Use
- Tooling Layer
- Connector Layer
- MCP Ecosystem
其中 MCP 的价值,不只是“多一个协议”,而是把外部上下文和工具接入做成相对统一的接口。
真正决定工具层效果的,往往也不是接没接上,而是工具界面是否适合模型使用:
- 命名空间是否清楚
- 输入参数是否稳定
- 返回结果是否高信号
- 错误信息是否能帮助模型恢复
- 权限边界是否明确
把原始 API 直接暴露给模型通常效果很差。更有效的方式,是把它们重新包装成模型容易理解、容易恢复、边界清楚的 agent interface。
3. Agent Runtime:让多步任务能持续执行
即使有了上下文和工具,系统也还不等于 agent。要让模型真正持续工作,还需要运行时和编排层来解决下面这些问题:
- 任务如何拆成多步
- 中途失败后怎么恢复
- 已完成步骤如何避免重做
- 多个 agent 如何交接
- 人类审批后如何继续
- 高风险操作是否需要沙箱
所以这一层常见的系统会包括:
- agent runtime
- workflow engine
- checkpoint
- durable execution
- handoff
- sandbox
- agents-as-tools
如果进一步进入多 agent 协作,还会碰到 A2A 这类 agent-to-agent 互操作问题。重点不在于“是不是多 agent”,而在于职责边界、状态边界和恢复边界是否更清楚。
一句话说,这一层的目的不是堆 agent,而是:
把上下文和工具组织成一个能暂停、恢复、交接和持续执行的工作流系统。
4. AgentOps:让系统从黑箱变成可调试对象
当 agent 开始跑长任务,失败来源会迅速增多:
- 上下文取错了
- 工具选错了
- 参数传错了
- handoff 断了
- 验证器过严或过松
- 新版本 prompt 造成回归
所以真正能上线的 agent system,一定需要观测与评测层。现在比较合适的词是:
- AgentOps
- AI Observability
- Agent Evaluation
这层最常见的对象包括:
- trace
- tool logs
- retrieval evidence
- eval runs
- regression suite
- failure taxonomy
- task success rate
没有这层能力,你就无法系统回答:
- 它为什么成功
- 它为什么失败
- 新版本到底有没有变好
- 哪一类任务最容易退化
5. Governance:给 agent 加上边界、审批与责任
一旦模型能操作外部系统,治理就不再是附属品,而是系统本体的一部分。
典型问题包括:
- 哪些工具可以调用
- 哪些数据可以读取
- 哪些操作必须审批
- 哪些动作需要审计
- 哪些步骤必须人工兜底
所以这一层常见的系统会包括:
- tool governance
- guardrails
- policy layer
- RBAC
- human-in-the-loop
- 审计日志
- 沙箱隔离
这里真正要解决的,不只是“防止出错”,而是让自动化有责任边界。系统必须知道什么能自动做,什么只能建议,什么必须停下来等人确认。
结论
- Context Layer 负责把业务现场翻译成模型能理解的工作环境
- Tooling Layer 负责把语言能力接成真实行动能力
- Agent Runtime 负责把多步任务组织成可暂停、可恢复、可交接的执行系统
- AgentOps 负责让系统行为可观测、可评测、可回归
- Governance 负责给 agent 加上权限边界、审批机制和审计责任
参考资料
- Andreessen Horowitz: Your Data Agents Need Context
- Anthropic: Introducing the Model Context Protocol
- Model Context Protocol: Introduction
- OpenAI: Agents SDK
- OpenAI Agents SDK: Tracing
- Google Cloud Documentation: Agent Development Kit
- Google Developers Blog: Agent2Agent Protocol
- IBM: What is AgentOps?
- Google Cloud: Tool governance in Vertex AI Agent Builder
- McKinsey: Reimagining tech infrastructure for and with agentic AI