SAGE 模型：LLM Agent 工具体系的四象限分类与演进趋势

撰写时间：2026 年 3 月 | 读者在引用本文结论时，请对照自身所处时间点，校准预测的时效性。

在大语言模型（LLM）驱动的 Agent 系统中，工具（Tool）与技能（Skill）的设计核心在于对冲 LLM 的架构缺陷与概率不确定性。将一个功能封装为 Tool 的判定标尺是：该任务 LLM 理论上能做，但大规模场景下极易出错、消耗极大算力（Token），或缺乏与外部真实世界的连接。

本文提出 SAGE 模型，将 Agent 的工具箱从通用软件工程与任务执行的视角划分为四个象限——Solve（求解）、Anchor（锚定）、Gate（门控）、Expert（专鉴），并对每个象限给出短期（1 年内）、中期（2–3 年）和长期（5 年以上）的演进预测。

SAGE 象限定位图

以"LLM 可替代性"和"外部世界耦合度"为坐标轴，四类工具的战略定位一目了然：

quadrantChart
    title "SAGE 模型：Agent 工具象限定位"
    x-axis "纯内部计算" --> "连接外部世界"
    y-axis "标准化 / 可替代" --> "高度定制 / 不可替代"
    quadrant-1 "永恒刚需区"
    quadrant-2 "分化收缩区"
    quadrant-3 "消亡区"
    quadrant-4 "标准化基建区"
    "S (浅层卸载)": [0.25, 0.20]
    "S (重型计算)": [0.30, 0.65]
    "A (状态锚定)": [0.75, 0.30]
    "G (感知降噪)": [0.20, 0.10]
    "E (领域诊断)": [0.82, 0.90]

Agent 工具调用架构

LLM Agent 内核通过四条通道与 SAGE 工具层交互——向外求解、向下锚定、向内过滤、向上求证：

graph TB
    subgraph core["LLM Agent 内核"]
        LLM["基座模型"]
    end

    subgraph solve["S · Solve — 认知卸载"]
        S1["Code Interpreter"]
        S2["计算引擎 API"]
        S3["MapReduce 引擎"]
    end

    subgraph anchor["A · Anchor — 状态锚定"]
        A1["Web Search / Browser"]
        A2["Memory DB / KV"]
        A3["时钟 / Git API"]
    end

    subgraph gate["G · Gate — 感知降噪"]
        G1["HTML Sanitizer"]
        G2["Stack Summarizer"]
        G3["OCR / Vision Pipeline"]
    end

    subgraph expert["E · Expert — 领域诊断"]
        E1["SAST / DAST Scanner"]
        E2["Profiler / FlameGraph"]
        E3["Compliance Engine"]
    end

    LLM -- "外包计算" --> solve
    LLM -- "注入事实" --> anchor
    gate -- "清洗输入" --> LLM
    expert -- "专家裁决" --> LLM

    style core fill:#1a1a2e,stroke:#e94560,color:#fff
    style solve fill:#0f3460,stroke:#53a8b6,color:#fff
    style anchor fill:#0f3460,stroke:#53a8b6,color:#fff
    style gate fill:#2d4059,stroke:#ea5455,color:#fff
    style expert fill:#16213e,stroke:#e94560,color:#fff

I. Solve — 认知卸载（Cognitive Offloading）

此类工具旨在解决 LLM 面对长逻辑链、复杂数学运算、空间推理及深层嵌套结构时产生的"认知过载"。其核心机制是将高维计算与繁杂推演外包给确定性计算单元，LLM 仅负责意图下发与结果验收。

核心痛点： 循环逻辑的脑内模拟失败、大数运算的概率性错误、空间拓扑关系的理解偏差。

典型工具（Tools）

代码执行沙盒（Code Interpreter）： 面对复杂的数据处理需求，Agent 不直接生成最终结果，而是生成一段 Python 脚本在沙盒中运行（如遍历 10 万行 Excel 进行统计），直接获取准确结果。
计算引擎 API（如 Wolfram Alpha）： 处理微积分、复杂代数方程或精准单位换算，彻底杜绝 LLM 依靠概率"背诵"数学答案的风险。
文本到图表生成器（PlantUML / Mermaid Render）： 当需要梳理复杂的数据库表关联或微服务调用链路时，工具将 LLM 生成的描述文本渲染为可视化架构图，降低人机沟通成本。
大规模数据 MapReduce 工具： 面临 GB 级日志或文档时，由外部工具先进行分片清洗与聚合运算，LLM 仅阅读高度浓缩的摘要信息。

关联调用范式（Skills）

"模拟代替推演"（Execute-to-Verify）： Agent 内部固化的行为准则——遇到超过 3 步的逻辑循环或数学计算，主动抑制自身生成的冲动，转而编写脚本交由解释器执行。

趋势预测：结构性分化——浅层工具被内化，重型工具保留

随着具备强化学习和思维链（Chain of Thought）能力的"慢思考"模型（如 OpenAI o1 及其后继者）崛起，LLM 的原生逻辑推演能力飞速提升，这一象限将出现显著分化：

浅层卸载工具（减少）： 如 AST 差异提取器、简单的文本转图表（PlantUML）等工具将逐步淘汰——模型内部的推理算力已足够强大，能在"脑内"直接完成拓扑转换。
重型/海量卸载工具（保留并专业化）： 无论模型多聪明，绝不会用昂贵的 LLM Token 算力去遍历和聚合 10TB 的数据库表。外挂的 MapReduce 引擎、专业的重型代码解释器沙盒，依然会作为 Agent 的标准"算力外包"存在。

短期（2026–2027）： 浅层工具仍在广泛使用，但头部 Agent 框架开始内置"直接推理 vs. 调用工具"的路由策略——简单计算和短链逻辑不再外发。代码解释器沙盒依然是标配，但调用频率下降约 30–50%。

中期（2028–2029）： 模型原生推理能力覆盖绝大多数浅层卸载场景（100 步以内的循环模拟、中等复杂度的数学推导）。PlantUML/Mermaid 等轻量可视化工具被模型直接生成前端代码所取代。重型沙盒开始走向标准化——少数几家平台提供通用的"算力外包"基础设施。

长期（2030+）： Agent 几乎不再调用小工具来辅助思考，只在面对真正的"体力活"——TB 级数据聚合、数值仿真、重型编译——时才调用专业化的计算外包服务。

II. Anchor — 确定性状态锚定（Deterministic & State-keeping）

LLM 本质上是无状态的、静态的：知识停留在预训练截止时间，且缺乏跨会话的记忆锚点。此类工具充当 Agent 的 "感知天线、外接硬盘与物理时钟"，强制注入外部世界的绝对客观事实。

核心痛点： 幻觉造数据、时效性信息缺失、长周期任务中的状态遗忘。

典型工具（Tools）

实时搜索引擎 / Web Browser： 解决知识的时效性问题——获取最新的 API 文档、实时汇率、天气或突发新闻。
长效记忆向量库 / KV 数据库： 在持续数周的开发任务中，Agent 通过数据库存储和读取前几天的架构决策、用户偏好或已完成的里程碑状态。
时钟与日历 API： 获取绝对精确的当前系统时间、时区信息或节假日安排，用于调度定时任务。
版本控制系统探针（Git API）： 在执行代码重构任务前，获取当前代码分支、最新 Commit Hash 及冲突状态，而非依靠 LLM 猜测。

关联调用范式（Skills）

"先查后言"（Grounding before Generation）： 强制约定——凡是涉及客观事实、时间流逝或外部状态的输出，必须先调用检索探针获取客观依据。

趋势预测：绝对量平稳，走向"标准化与基础设施化"

LLM 的本质是概率模型，它永远被"冻结"在预训练完成的那一刻——永远无法内化一个绝对准确的物理时钟，也无法凭空"梦出"当前 GitHub 某个分支的最新状态。

这类工具不会衍生出五花八门的形态，而是会收敛为几套类似 TCP/IP 协议般的标准基础设施 API：

所有 Agent 接入同一套标准化的时间/日历服务。
所有 Agent 依赖标准化的 KV 记忆数据库（Memory Bank）维持跨会话状态。
所有 Agent 挂载标准化的 Web Search API 作为外部探针。

短期（2026–2027）： 各 Agent 框架各自实现 Web Search、Memory、时钟等基础连接器，接口碎片化严重。MCP（Model Context Protocol）等协议开始推广，但尚未形成事实标准，开发者面临多套适配的成本。

中期（2028–2029）： 行业收敛至 1–2 套主流的 Agent 工具协议标准。时间/日历、KV 记忆、Web Search 成为 Agent 运行时的"默认挂载点"，无需开发者手动配置。跨 Agent 的状态互通（如 Agent A 的记忆被 Agent B 读取）开始落地。

长期（2030+）： 变成 Agent 操作系统的底层系统调用（System Calls），像水和电一样透明且不可或缺。开发者不再"选择"要不要接搜索或记忆——这些能力与 Agent 内核融为一体。

III. Gate — 环境感知与降噪（Environment Perception & Sanitization）

现实世界的输入数据往往嘈杂、非结构化且多模态。直接将这些数据喂给 LLM 会浪费 Token 并严重干扰注意力机制。此类工具旨在为 Agent 构建高信噪比、纯净的语义输入管道。

核心痛点： 非文本噪音干扰、海量冗余信息撑爆上下文窗口、多模态信息解析困难。

典型工具（Tools）

网页 DOM 树清洗器（HTML Sanitizer）： 当 Agent 浏览网页时，工具负责剥离 CSS、JS 脚本、广告和无关导航栏，将凌乱的网页转化为高密度的纯净 Markdown 文本。
堆栈错误摘要提取器（Stack-trace Summarizer）： 面对 Java 或 Node.js 动辄数百上千行的报错堆栈，工具自动过滤系统级底层调用，只提取与业务代码相关的 Caused by 链路。
OCR 与视觉解析管道（Vision-to-Text）： 赋予系统阅读图片、PDF 扫描件或 UI 截图的能力，将其转化为结构化描述文本供基座模型理解。
格式强制化解析器（JSON/YAML Linter）： 在 Agent 读取外部配置文件时，预先剔除格式错误或非法注释，确保输入 LLM 的数据结构绝对规整。

关联调用范式（Skills）

注意力聚焦与降维（Attention Funneling）： Agent 学会拒绝处理原始"脏数据"，在面对超大输入流时，自动调度清洗工具进行降维与预处理。

趋势预测：大幅减少，甚至逐渐消亡

这类工具（如 HTML 清洗器、日志乱码剥离器、堆栈摘要提取器）本质上是人类为迁就早期 LLM"上下文窗口太小"和"容易被噪音干扰导致注意力分散"而发明的"拐杖"。

消亡原因：

无限上下文与"大海捞针"能力的普及： 随着 1M 甚至 10M Token 窗口成为标配，且模型对长文本的召回率逼近 100%，Agent 不再需要把 10 万行 Raw Log 提炼成 100 行——直接将完整的、未经清洗的系统日志 Dump 给模型，它自己就能精准定位错误行。
原生多模态的降维打击： 当模型原生具备极强的视觉（Vision）能力时，Agent 访问网页不再需要将 DOM 树清洗成 Markdown——模型可以直接"看"网页的像素渲染截图来理解 UI 结构。

短期（2026–2027）： 大部分 Agent 仍依赖 HTML 清洗器和堆栈摘要提取器，因为当前主流模型的有效上下文窗口虽已达 128K–1M，但"长文本注意力衰减"问题尚未完全解决。OCR 工具因 Vision 模型的快速进步开始被边缘化。

中期（2028–2029）： 10M+ Token 有效窗口落地，长文本召回率逼近 100%。HTML Sanitizer、Stack-trace Summarizer 等预处理工具的调用量下降 80% 以上——Agent 直接处理原始数据成为常态。仅在极端噪音场景（如恶意混淆的日志）下仍需专用清洗器。

长期（2030+）： 被 LLM 的原生底层能力彻底吞噬。这一象限的工具将从 Agent 工具箱中基本消失，残余需求（如极端格式兼容）被折叠进通用 I/O 适配层。

IV. Expert — 领域神谕与诊断（Domain Oracle & Diagnostic）

某些专业领域的规则、隐式约束或性能瓶颈，无法单纯通过"阅读表面代码或文本"来推导。此类工具封装了人类积累的专家经验和底层探测技术，赋予 Agent 跨维度的透视与审判能力。

核心痛点： 缺乏行业 Common Sense、无法推导运行时性能瓶颈、不懂安全合规红线。

典型工具（Tools）

代码静态安全扫描工具（SAST，如 SonarQube）： Agent 生成代码后，由该工具根据最新的 CVE 漏洞库进行扫描，指出 SQL 注入、越界访问等深层安全隐患。
性能火焰图分析器（Profiler / FlameGraph）： 当系统遇到性能瓶颈时，单纯看代码无法知道哪个函数占用了 80% 的 CPU——工具通过运行时采样，向 Agent 提供精准的性能热点报告。
合规与法律引擎（Compliance Oracle）： 在 Agent 生成商业合同或处理用户数据方案时，由该引擎校验其是否符合 GDPR 等特定国家或行业的硬性法律条文。
UI/UX 自动化测试框架（如 Playwright / Selenium）： 在前端开发中，Agent 生成界面代码后，调用该工具模拟人类点击、滑动，以验证交互逻辑是否跑通、组件是否被遮挡。

关联调用范式（Skills）

权威求证与委派（Oracle Delegation）： Agent 明确自身的领域认知边界——在交付涉及安全、性能、合规等"高危"结果前，主动唤醒神谕引擎进行最终裁决与打分。

趋势预测：指数级爆发，成为各行各业真正的"护城河"

无论 LLM 的智商多高，它终究是个"缸中之脑"——不可能在脑内模拟出一个具有特定发热特性的物理 GPU 硬件，也不可能原生知道某家跨国银行在 2026 年刚更新的内部安全合规红线。物理世界和商业世界的运行法则是不可计算的，必须通过执行与诊断来获取。

爆发原因： 这是纯软件（AI）与硬核物理/商业世界交互的唯一接口。未来，区分普通 Agent 和顶尖专家 Agent 的核心，不在于底层 LLM 是什么，而在于它们掌握了多少独家的"神谕工具"：

AI 基础设施领域： 专用的 CUDA 并发死锁分析器、微架构级的性能火焰图生成器会层出不穷。
金融领域： 专有的量化回测执行沙盒、合规审计引擎会成为核心资产。

短期（2026–2027）： 头部科技公司和垂直领域 SaaS 开始将内部诊断能力封装为 Agent-callable API。安全扫描（SAST/DAST）、UI 自动化测试（Playwright）已成为 Coding Agent 的标配工具链。但跨行业的神谕工具仍以定制开发为主，缺乏通用市场。

中期（2028–2029）： "神谕工具市场"（Oracle Tool Marketplace）形成——类似当年的 SaaS App Store，企业向 Agent 网络售卖专有诊断 API 的调用权。金融风控引擎、医疗合规检查器、芯片热力学仿真器等垂直工具批量上线。工具数量进入指数增长期。

长期（2030+）： 每一个垂直行业的深水区，都会诞生成千上万种高度定制化的"神谕工具"。科技公司的核心商业模式从售卖软件转向售卖"神谕工具的 API 调用权"。这一象限成为 Agent 生态中价值密度最高、壁垒最深的层级。

风险与制约：数据主权壁垒下的"神谕悖论"

上述"指数爆发"预测建立在一个隐含假设之上：领域诊断能力可以被封装为标准化的外部 API，供跨组织的 Agent 网络调用。然而，这一假设在高监管行业中面临根本性挑战。

数据主权的硬约束。 金融、医疗、国防等行业的核心诊断场景，往往需要接触最敏感的业务数据：

金融风控引擎要审计的是真实交易流水和客户资产信息；
医疗合规检查器要读取的是患者病历和用药记录；
芯片仿真器要模拟的是尚未发布的微架构设计图纸。

这些数据受 GDPR、HIPAA、《数据安全法》等法规的严格管辖，许多根本不允许离开企业内网——遑论发往第三方 API。这就形成了一个 "神谕悖论"：最需要专家工具裁决的场景，恰恰是数据最不能外泄的场景。

可能的演化路径。 这一矛盾并非无解，但会显著改变 E 象限的商业形态：

本地化部署模式： 神谕工具不以 SaaS API 形态交付，而是作为容器化组件部署在客户的私有环境中——类似当年 Oracle 数据库的 On-Premise 模式。这会大幅提高交付成本，限制工具提供商的规模化速度。
联邦诊断（Federated Diagnosis）： 借鉴联邦学习的思路，诊断引擎被拆分为"模型侧"和"数据侧"——模型下发到数据所在地执行，诊断结果（而非原始数据）上传回工具平台。技术上可行，但增加了架构复杂度。
可信执行环境（TEE）： 通过硬件级隔离（如 Intel SGX、ARM CCA），在加密飞地中执行诊断任务，使工具提供商无法接触明文数据。这是长期最有前景的方案，但 TEE 的性能开销和信任链建立仍需时间成熟。

对预测的修正： E 象限的"指数爆发"仍然成立，但爆发形态会因行业而异——开放行业（如软件开发、内容创作）将率先形成 API 化的工具市场；高监管行业的爆发则会滞后 2–3 年，且以本地化部署和联邦模式为主。

总览：SAGE 演进全景

演进时间线

gantt
    title "SAGE 四象限演进路线图（2026–2032）"
    dateFormat YYYY
    axisFormat %Y

    section "S · Solve"
    "浅层工具仍广泛使用，调用频率开始下降"     :active, s1, 2026, 2y
    "浅层工具大部分被内化，重型沙盒走向标准化"  :s2, 2028, 2y
    "仅保留重型计算外包服务"                  :s3, 2030, 2y

    section "A · Anchor"
    "接口碎片化，协议竞争期 (MCP 等)"          :active, a1, 2026, 2y
    "收敛至 1-2 套标准协议，默认挂载"          :a2, 2028, 2y
    "融入 Agent OS 底层系统调用"               :a3, 2030, 2y

    section "G · Gate"
    "仍为主流 Agent 标配"                     :active, g1, 2026, 2y
    "调用量下降 80%+，仅极端场景保留"          :g2, 2028, 2y
    "基本消亡，残余并入 I/O 适配层"            :crit, g3, 2030, 2y

    section "E · Expert"
    "头部公司封装诊断 API，定制开发为主"       :active, e1, 2026, 2y
    "Oracle Marketplace 形成，工具批量上线"     :e2, 2028, 2y
    "垂直行业工具指数爆发，成为核心商业模式"  :crit, e3, 2030, 2y

趋势走向对比

graph LR
    subgraph now["2026 · 当前"]
        direction TB
        SN["<b>S · Solve</b><br/>████████████ 高频"]
        AN["<b>A · Anchor</b><br/>████████ 中频"]
        GN["<b>G · Gate</b><br/>████████████ 高频"]
        EN["<b>E · Expert</b><br/>████ 低频"]
        SN1["&nbsp;"]
        style SN1 fill:none,stroke:none
    end

    subgraph future["2030+ · 长期"]
        direction TB
        SF["<b>S · Solve</b><br/>███ 仅重型"]
        AF["<b>A · Anchor</b><br/>████████ 稳定"]
        GF["<b>G · Gate</b><br/>█ 消亡"]
        EF["<b>E · Expert</b><br/>██████████████ 爆发"]
        EF1["&nbsp;"]
        style EF1 fill:none,stroke:none
    end

    SN -- "↓ 收缩" --> SF
    AN -- "→ 稳定" --> AF
    GN -- "↓↓ 消亡" --> GF
    EN -- "↑↑ 爆发" --> EF

    style now fill:#1a1a2e,stroke:#53a8b6,color:#fff
    style future fill:#16213e,stroke:#e94560,color:#fff

SAGE 总结速查表

象限	关键词	核心价值	短期 (2026–2027)	中期 (2028–2029)	长期 (2030+)	投资建议
S · Solve	求解	算力外包	浅层调用频率 -30~50%	浅层基本被内化	仅存重型计算服务	轻量工具止损；重型沙盒加注
A · Anchor	锚定	真实世界连接	协议碎片化竞争	收敛为标准基建	融入 Agent OS	押注协议标准制定者
G · Gate	门控	输入降噪	仍为标配	调用量 -80%	基本消亡	不建议新投入
E · Expert	专鉴	领域裁决权	头部公司试水	Marketplace 成型	指数爆发，核心壁垒	最高优先级赛道

weiqiangt/tools.md

Select an option

No results found

Select an option

No results found

SAGE 模型：LLM Agent 工具体系的四象限分类与演进趋势

SAGE 象限定位图

Agent 工具调用架构

I. Solve — 认知卸载（Cognitive Offloading）

典型工具（Tools）

关联调用范式（Skills）

趋势预测：结构性分化——浅层工具被内化，重型工具保留

II. Anchor — 确定性状态锚定（Deterministic & State-keeping）

典型工具（Tools）

关联调用范式（Skills）

趋势预测：绝对量平稳，走向"标准化与基础设施化"

III. Gate — 环境感知与降噪（Environment Perception & Sanitization）

典型工具（Tools）

关联调用范式（Skills）

趋势预测：大幅减少，甚至逐渐消亡

IV. Expert — 领域神谕与诊断（Domain Oracle & Diagnostic）

典型工具（Tools）

关联调用范式（Skills）

趋势预测：指数级爆发，成为各行各业真正的"护城河"

风险与制约：数据主权壁垒下的"神谕悖论"

总览：SAGE 演进全景

演进时间线

趋势走向对比

SAGE 总结速查表