Agentic Infrastructure：上下文、工具、运行时与治理

上一页把 AI 应用基础设施分成了三层。本页专门展开第三层，也就是 Agentic Infrastructure。

这里讨论的不是 GPU、推理引擎或成本核算，而是模型在接入知识与工具之后，如何真正变成一个可持续工作的 agent。

这一层在补什么

可以把 Agentic Infrastructure 理解成：

给模型补外部记忆、外部身体、外部运行时、外部反馈和外部制度。

它最常见的五组系统如下：

组成	推荐叫法	它在补什么
上下文与记忆	Context Layer / Context Engineering	模型无状态、缺业务语境
工具与连接器	Tooling Layer / MCP Ecosystem	模型只能生成文本，不能直接行动
运行时与编排	Agent Runtime / Agent Orchestration	长任务易丢状态，缺少多步执行能力
观测与评测	AgentOps / AI Observability	失败不可解释，系统无法持续改进
治理与审批	Agentic AI Governance	权限边界不清，风险不可控

1. Context Layer：让模型知道自己身处什么环境

模型参数只是旧世界的压缩记忆，它不知道你当前的组织规则、项目背景、数据库状态和历史决策。

所以 Agentic Infrastructure 的第一部分，往往是上下文层。这里的“上下文”不只是 prompt 里的几段文字，而是让模型理解任务环境所需的全部工作记忆。

上下文类型	典型内容	常见实现
短期上下文	当前对话、最近几步操作、临时计划	thread state、scratchpad、session memory
长期上下文	用户偏好、组织知识、项目约束	memory store、知识库、profile store
程序性上下文	这类事通常应该怎么做	AGENTS.md、内部 SOP、Skills
情景上下文	某次失败为何发生、后来如何修复	incident notes、run history、failure library

这也是为什么 RAG 不该被当成这一层的全部。RAG 只是把文档证据送进上下文的一种常见方式；真正的 context layer 还包括业务定义、组织规则、历史决策和工作记忆。

2. Tooling Layer：让模型从“会说”变成“会做”

模型默认只能生成文本。真正进入生产环境后，它必须能够：

查数据库
读写文件
搜索网页
操作浏览器
调业务 API
执行脚本

这就是工具层的工作。当前最常见的叫法包括：

Tool Use
Tooling Layer
Connector Layer
MCP Ecosystem

其中 MCP 的价值，不只是“多一个协议”，而是把外部上下文和工具接入做成相对统一的接口。

真正决定工具层效果的，往往也不是接没接上，而是工具界面是否适合模型使用：

命名空间是否清楚
输入参数是否稳定
返回结果是否高信号
错误信息是否能帮助模型恢复
权限边界是否明确

把原始 API 直接暴露给模型通常效果很差。更有效的方式，是把它们重新包装成模型容易理解、容易恢复、边界清楚的 agent interface。

3. Agent Runtime：让多步任务能持续执行

即使有了上下文和工具，系统也还不等于 agent。要让模型真正持续工作，还需要运行时和编排层来解决下面这些问题：

任务如何拆成多步
中途失败后怎么恢复
已完成步骤如何避免重做
多个 agent 如何交接
人类审批后如何继续
高风险操作是否需要沙箱

所以这一层常见的系统会包括：

agent runtime
workflow engine
checkpoint
durable execution
handoff
sandbox
agents-as-tools

如果进一步进入多 agent 协作，还会碰到 A2A 这类 agent-to-agent 互操作问题。重点不在于“是不是多 agent”，而在于职责边界、状态边界和恢复边界是否更清楚。

一句话说，这一层的目的不是堆 agent，而是：

把上下文和工具组织成一个能暂停、恢复、交接和持续执行的工作流系统。

4. AgentOps：让系统从黑箱变成可调试对象

当 agent 开始跑长任务，失败来源会迅速增多：

上下文取错了
工具选错了
参数传错了
handoff 断了
验证器过严或过松
新版本 prompt 造成回归

所以真正能上线的 agent system，一定需要观测与评测层。现在比较合适的词是：

AgentOps
AI Observability
Agent Evaluation

这层最常见的对象包括：

trace
tool logs
retrieval evidence
eval runs
regression suite
failure taxonomy
task success rate

没有这层能力，你就无法系统回答：

它为什么成功
它为什么失败
新版本到底有没有变好
哪一类任务最容易退化

5. Governance：给 agent 加上边界、审批与责任

一旦模型能操作外部系统，治理就不再是附属品，而是系统本体的一部分。

典型问题包括：

哪些工具可以调用
哪些数据可以读取
哪些操作必须审批
哪些动作需要审计
哪些步骤必须人工兜底

所以这一层常见的系统会包括：

tool governance
guardrails
policy layer
RBAC
human-in-the-loop
审计日志
沙箱隔离

这里真正要解决的，不只是“防止出错”，而是让自动化有责任边界。系统必须知道什么能自动做，什么只能建议，什么必须停下来等人确认。

结论

Context Layer 负责把业务现场翻译成模型能理解的工作环境
Tooling Layer 负责把语言能力接成真实行动能力
Agent Runtime 负责把多步任务组织成可暂停、可恢复、可交接的执行系统
AgentOps 负责让系统行为可观测、可评测、可回归
Governance 负责给 agent 加上权限边界、审批机制和审计责任

Agentic Infrastructure：上下文、工具、运行时与治理 ​

这一层在补什么 ​

1. Context Layer：让模型知道自己身处什么环境 ​

2. Tooling Layer：让模型从“会说”变成“会做” ​

3. Agent Runtime：让多步任务能持续执行 ​

4. AgentOps：让系统从黑箱变成可调试对象 ​

5. Governance：给 agent 加上边界、审批与责任 ​

结论 ​

参考资料 ​