Skip to content

Instantly share code, notes, and snippets.

@weiqiangt
Last active March 31, 2026 10:30
Show Gist options
  • Select an option

  • Save weiqiangt/ab156d1d1f38fe42af7ece1b91ee6275 to your computer and use it in GitHub Desktop.

Select an option

Save weiqiangt/ab156d1d1f38fe42af7ece1b91ee6275 to your computer and use it in GitHub Desktop.

SAGE 模型:LLM Agent 工具体系的四象限分类与演进趋势

撰写时间:2026 年 3 月 | 读者在引用本文结论时,请对照自身所处时间点,校准预测的时效性。

在大语言模型(LLM)驱动的 Agent 系统中,工具(Tool)与技能(Skill)的设计核心在于对冲 LLM 的架构缺陷与概率不确定性。将一个功能封装为 Tool 的判定标尺是:该任务 LLM 理论上能做,但大规模场景下极易出错、消耗极大算力(Token),或缺乏与外部真实世界的连接。

本文提出 SAGE 模型,将 Agent 的工具箱从通用软件工程与任务执行的视角划分为四个象限——Solve(求解)、Anchor(锚定)、Gate(门控)、Expert(专鉴),并对每个象限给出短期(1 年内)、中期(2–3 年)和长期(5 年以上)的演进预测。

SAGE 象限定位图

以"LLM 可替代性"和"外部世界耦合度"为坐标轴,四类工具的战略定位一目了然:

quadrantChart
    title "SAGE 模型:Agent 工具象限定位"
    x-axis "纯内部计算" --> "连接外部世界"
    y-axis "标准化 / 可替代" --> "高度定制 / 不可替代"
    quadrant-1 "永恒刚需区"
    quadrant-2 "分化收缩区"
    quadrant-3 "消亡区"
    quadrant-4 "标准化基建区"
    "S (浅层卸载)": [0.25, 0.20]
    "S (重型计算)": [0.30, 0.65]
    "A (状态锚定)": [0.75, 0.30]
    "G (感知降噪)": [0.20, 0.10]
    "E (领域诊断)": [0.82, 0.90]
Loading

Agent 工具调用架构

LLM Agent 内核通过四条通道与 SAGE 工具层交互——向外求解、向下锚定、向内过滤、向上求证:

graph TB
    subgraph core["LLM Agent 内核"]
        LLM["基座模型"]
    end

    subgraph solve["S · Solve — 认知卸载"]
        S1["Code Interpreter"]
        S2["计算引擎 API"]
        S3["MapReduce 引擎"]
    end

    subgraph anchor["A · Anchor — 状态锚定"]
        A1["Web Search / Browser"]
        A2["Memory DB / KV"]
        A3["时钟 / Git API"]
    end

    subgraph gate["G · Gate — 感知降噪"]
        G1["HTML Sanitizer"]
        G2["Stack Summarizer"]
        G3["OCR / Vision Pipeline"]
    end

    subgraph expert["E · Expert — 领域诊断"]
        E1["SAST / DAST Scanner"]
        E2["Profiler / FlameGraph"]
        E3["Compliance Engine"]
    end

    LLM -- "外包计算" --> solve
    LLM -- "注入事实" --> anchor
    gate -- "清洗输入" --> LLM
    expert -- "专家裁决" --> LLM

    style core fill:#1a1a2e,stroke:#e94560,color:#fff
    style solve fill:#0f3460,stroke:#53a8b6,color:#fff
    style anchor fill:#0f3460,stroke:#53a8b6,color:#fff
    style gate fill:#2d4059,stroke:#ea5455,color:#fff
    style expert fill:#16213e,stroke:#e94560,color:#fff
Loading

I. Solve — 认知卸载(Cognitive Offloading)

此类工具旨在解决 LLM 面对长逻辑链、复杂数学运算、空间推理及深层嵌套结构时产生的"认知过载"。其核心机制是将高维计算与繁杂推演外包给确定性计算单元,LLM 仅负责意图下发与结果验收。

核心痛点: 循环逻辑的脑内模拟失败、大数运算的概率性错误、空间拓扑关系的理解偏差。

典型工具(Tools)

  • 代码执行沙盒(Code Interpreter): 面对复杂的数据处理需求,Agent 不直接生成最终结果,而是生成一段 Python 脚本在沙盒中运行(如遍历 10 万行 Excel 进行统计),直接获取准确结果。
  • 计算引擎 API(如 Wolfram Alpha): 处理微积分、复杂代数方程或精准单位换算,彻底杜绝 LLM 依靠概率"背诵"数学答案的风险。
  • 文本到图表生成器(PlantUML / Mermaid Render): 当需要梳理复杂的数据库表关联或微服务调用链路时,工具将 LLM 生成的描述文本渲染为可视化架构图,降低人机沟通成本。
  • 大规模数据 MapReduce 工具: 面临 GB 级日志或文档时,由外部工具先进行分片清洗与聚合运算,LLM 仅阅读高度浓缩的摘要信息。

关联调用范式(Skills)

  • "模拟代替推演"(Execute-to-Verify): Agent 内部固化的行为准则——遇到超过 3 步的逻辑循环或数学计算,主动抑制自身生成的冲动,转而编写脚本交由解释器执行。

趋势预测:结构性分化——浅层工具被内化,重型工具保留

随着具备强化学习和思维链(Chain of Thought)能力的"慢思考"模型(如 OpenAI o1 及其后继者)崛起,LLM 的原生逻辑推演能力飞速提升,这一象限将出现显著分化:

  • 浅层卸载工具(减少): 如 AST 差异提取器、简单的文本转图表(PlantUML)等工具将逐步淘汰——模型内部的推理算力已足够强大,能在"脑内"直接完成拓扑转换。
  • 重型/海量卸载工具(保留并专业化): 无论模型多聪明,绝不会用昂贵的 LLM Token 算力去遍历和聚合 10TB 的数据库表。外挂的 MapReduce 引擎、专业的重型代码解释器沙盒,依然会作为 Agent 的标准"算力外包"存在。

短期(2026–2027): 浅层工具仍在广泛使用,但头部 Agent 框架开始内置"直接推理 vs. 调用工具"的路由策略——简单计算和短链逻辑不再外发。代码解释器沙盒依然是标配,但调用频率下降约 30–50%。

中期(2028–2029): 模型原生推理能力覆盖绝大多数浅层卸载场景(100 步以内的循环模拟、中等复杂度的数学推导)。PlantUML/Mermaid 等轻量可视化工具被模型直接生成前端代码所取代。重型沙盒开始走向标准化——少数几家平台提供通用的"算力外包"基础设施。

长期(2030+): Agent 几乎不再调用小工具来辅助思考,只在面对真正的"体力活"——TB 级数据聚合、数值仿真、重型编译——时才调用专业化的计算外包服务。


II. Anchor — 确定性状态锚定(Deterministic & State-keeping)

LLM 本质上是无状态的、静态的:知识停留在预训练截止时间,且缺乏跨会话的记忆锚点。此类工具充当 Agent 的 "感知天线、外接硬盘与物理时钟",强制注入外部世界的绝对客观事实。

核心痛点: 幻觉造数据、时效性信息缺失、长周期任务中的状态遗忘。

典型工具(Tools)

  • 实时搜索引擎 / Web Browser: 解决知识的时效性问题——获取最新的 API 文档、实时汇率、天气或突发新闻。
  • 长效记忆向量库 / KV 数据库: 在持续数周的开发任务中,Agent 通过数据库存储和读取前几天的架构决策、用户偏好或已完成的里程碑状态。
  • 时钟与日历 API: 获取绝对精确的当前系统时间、时区信息或节假日安排,用于调度定时任务。
  • 版本控制系统探针(Git API): 在执行代码重构任务前,获取当前代码分支、最新 Commit Hash 及冲突状态,而非依靠 LLM 猜测。

关联调用范式(Skills)

  • "先查后言"(Grounding before Generation): 强制约定——凡是涉及客观事实、时间流逝或外部状态的输出,必须先调用检索探针获取客观依据。

趋势预测:绝对量平稳,走向"标准化与基础设施化"

LLM 的本质是概率模型,它永远被"冻结"在预训练完成的那一刻——永远无法内化一个绝对准确的物理时钟,也无法凭空"梦出"当前 GitHub 某个分支的最新状态。

这类工具不会衍生出五花八门的形态,而是会收敛为几套类似 TCP/IP 协议般的标准基础设施 API:

  • 所有 Agent 接入同一套标准化的时间/日历服务。
  • 所有 Agent 依赖标准化的 KV 记忆数据库(Memory Bank)维持跨会话状态。
  • 所有 Agent 挂载标准化的 Web Search API 作为外部探针。

短期(2026–2027): 各 Agent 框架各自实现 Web Search、Memory、时钟等基础连接器,接口碎片化严重。MCP(Model Context Protocol)等协议开始推广,但尚未形成事实标准,开发者面临多套适配的成本。

中期(2028–2029): 行业收敛至 1–2 套主流的 Agent 工具协议标准。时间/日历、KV 记忆、Web Search 成为 Agent 运行时的"默认挂载点",无需开发者手动配置。跨 Agent 的状态互通(如 Agent A 的记忆被 Agent B 读取)开始落地。

长期(2030+): 变成 Agent 操作系统的底层系统调用(System Calls),像水和电一样透明且不可或缺。开发者不再"选择"要不要接搜索或记忆——这些能力与 Agent 内核融为一体。


III. Gate — 环境感知与降噪(Environment Perception & Sanitization)

现实世界的输入数据往往嘈杂、非结构化且多模态。直接将这些数据喂给 LLM 会浪费 Token 并严重干扰注意力机制。此类工具旨在为 Agent 构建高信噪比、纯净的语义输入管道。

核心痛点: 非文本噪音干扰、海量冗余信息撑爆上下文窗口、多模态信息解析困难。

典型工具(Tools)

  • 网页 DOM 树清洗器(HTML Sanitizer): 当 Agent 浏览网页时,工具负责剥离 CSS、JS 脚本、广告和无关导航栏,将凌乱的网页转化为高密度的纯净 Markdown 文本。
  • 堆栈错误摘要提取器(Stack-trace Summarizer): 面对 Java 或 Node.js 动辄数百上千行的报错堆栈,工具自动过滤系统级底层调用,只提取与业务代码相关的 Caused by 链路。
  • OCR 与视觉解析管道(Vision-to-Text): 赋予系统阅读图片、PDF 扫描件或 UI 截图的能力,将其转化为结构化描述文本供基座模型理解。
  • 格式强制化解析器(JSON/YAML Linter): 在 Agent 读取外部配置文件时,预先剔除格式错误或非法注释,确保输入 LLM 的数据结构绝对规整。

关联调用范式(Skills)

  • 注意力聚焦与降维(Attention Funneling): Agent 学会拒绝处理原始"脏数据",在面对超大输入流时,自动调度清洗工具进行降维与预处理。

趋势预测:大幅减少,甚至逐渐消亡

这类工具(如 HTML 清洗器、日志乱码剥离器、堆栈摘要提取器)本质上是人类为迁就早期 LLM"上下文窗口太小"和"容易被噪音干扰导致注意力分散"而发明的"拐杖"。

消亡原因:

  • 无限上下文与"大海捞针"能力的普及: 随着 1M 甚至 10M Token 窗口成为标配,且模型对长文本的召回率逼近 100%,Agent 不再需要把 10 万行 Raw Log 提炼成 100 行——直接将完整的、未经清洗的系统日志 Dump 给模型,它自己就能精准定位错误行。
  • 原生多模态的降维打击: 当模型原生具备极强的视觉(Vision)能力时,Agent 访问网页不再需要将 DOM 树清洗成 Markdown——模型可以直接"看"网页的像素渲染截图来理解 UI 结构。

短期(2026–2027): 大部分 Agent 仍依赖 HTML 清洗器和堆栈摘要提取器,因为当前主流模型的有效上下文窗口虽已达 128K–1M,但"长文本注意力衰减"问题尚未完全解决。OCR 工具因 Vision 模型的快速进步开始被边缘化。

中期(2028–2029): 10M+ Token 有效窗口落地,长文本召回率逼近 100%。HTML Sanitizer、Stack-trace Summarizer 等预处理工具的调用量下降 80% 以上——Agent 直接处理原始数据成为常态。仅在极端噪音场景(如恶意混淆的日志)下仍需专用清洗器。

长期(2030+): 被 LLM 的原生底层能力彻底吞噬。这一象限的工具将从 Agent 工具箱中基本消失,残余需求(如极端格式兼容)被折叠进通用 I/O 适配层。


IV. Expert — 领域神谕与诊断(Domain Oracle & Diagnostic)

某些专业领域的规则、隐式约束或性能瓶颈,无法单纯通过"阅读表面代码或文本"来推导。此类工具封装了人类积累的专家经验和底层探测技术,赋予 Agent 跨维度的透视与审判能力。

核心痛点: 缺乏行业 Common Sense、无法推导运行时性能瓶颈、不懂安全合规红线。

典型工具(Tools)

  • 代码静态安全扫描工具(SAST,如 SonarQube): Agent 生成代码后,由该工具根据最新的 CVE 漏洞库进行扫描,指出 SQL 注入、越界访问等深层安全隐患。
  • 性能火焰图分析器(Profiler / FlameGraph): 当系统遇到性能瓶颈时,单纯看代码无法知道哪个函数占用了 80% 的 CPU——工具通过运行时采样,向 Agent 提供精准的性能热点报告。
  • 合规与法律引擎(Compliance Oracle): 在 Agent 生成商业合同或处理用户数据方案时,由该引擎校验其是否符合 GDPR 等特定国家或行业的硬性法律条文。
  • UI/UX 自动化测试框架(如 Playwright / Selenium): 在前端开发中,Agent 生成界面代码后,调用该工具模拟人类点击、滑动,以验证交互逻辑是否跑通、组件是否被遮挡。

关联调用范式(Skills)

  • 权威求证与委派(Oracle Delegation): Agent 明确自身的领域认知边界——在交付涉及安全、性能、合规等"高危"结果前,主动唤醒神谕引擎进行最终裁决与打分。

趋势预测:指数级爆发,成为各行各业真正的"护城河"

无论 LLM 的智商多高,它终究是个"缸中之脑"——不可能在脑内模拟出一个具有特定发热特性的物理 GPU 硬件,也不可能原生知道某家跨国银行在 2026 年刚更新的内部安全合规红线。物理世界和商业世界的运行法则是不可计算的,必须通过执行与诊断来获取。

爆发原因: 这是纯软件(AI)与硬核物理/商业世界交互的唯一接口。未来,区分普通 Agent 和顶尖专家 Agent 的核心,不在于底层 LLM 是什么,而在于它们掌握了多少独家的"神谕工具":

  • AI 基础设施领域: 专用的 CUDA 并发死锁分析器、微架构级的性能火焰图生成器会层出不穷。
  • 金融领域: 专有的量化回测执行沙盒、合规审计引擎会成为核心资产。

短期(2026–2027): 头部科技公司和垂直领域 SaaS 开始将内部诊断能力封装为 Agent-callable API。安全扫描(SAST/DAST)、UI 自动化测试(Playwright)已成为 Coding Agent 的标配工具链。但跨行业的神谕工具仍以定制开发为主,缺乏通用市场。

中期(2028–2029): "神谕工具市场"(Oracle Tool Marketplace)形成——类似当年的 SaaS App Store,企业向 Agent 网络售卖专有诊断 API 的调用权。金融风控引擎、医疗合规检查器、芯片热力学仿真器等垂直工具批量上线。工具数量进入指数增长期。

长期(2030+): 每一个垂直行业的深水区,都会诞生成千上万种高度定制化的"神谕工具"。科技公司的核心商业模式从售卖软件转向售卖"神谕工具的 API 调用权"。这一象限成为 Agent 生态中价值密度最高、壁垒最深的层级。

风险与制约:数据主权壁垒下的"神谕悖论"

上述"指数爆发"预测建立在一个隐含假设之上:领域诊断能力可以被封装为标准化的外部 API,供跨组织的 Agent 网络调用。然而,这一假设在高监管行业中面临根本性挑战。

数据主权的硬约束。 金融、医疗、国防等行业的核心诊断场景,往往需要接触最敏感的业务数据:

  • 金融风控引擎要审计的是真实交易流水和客户资产信息;
  • 医疗合规检查器要读取的是患者病历和用药记录;
  • 芯片仿真器要模拟的是尚未发布的微架构设计图纸。

这些数据受 GDPR、HIPAA、《数据安全法》等法规的严格管辖,许多根本不允许离开企业内网——遑论发往第三方 API。这就形成了一个 "神谕悖论":最需要专家工具裁决的场景,恰恰是数据最不能外泄的场景。

可能的演化路径。 这一矛盾并非无解,但会显著改变 E 象限的商业形态:

  • 本地化部署模式: 神谕工具不以 SaaS API 形态交付,而是作为容器化组件部署在客户的私有环境中——类似当年 Oracle 数据库的 On-Premise 模式。这会大幅提高交付成本,限制工具提供商的规模化速度。
  • 联邦诊断(Federated Diagnosis): 借鉴联邦学习的思路,诊断引擎被拆分为"模型侧"和"数据侧"——模型下发到数据所在地执行,诊断结果(而非原始数据)上传回工具平台。技术上可行,但增加了架构复杂度。
  • 可信执行环境(TEE): 通过硬件级隔离(如 Intel SGX、ARM CCA),在加密飞地中执行诊断任务,使工具提供商无法接触明文数据。这是长期最有前景的方案,但 TEE 的性能开销和信任链建立仍需时间成熟。

对预测的修正: E 象限的"指数爆发"仍然成立,但爆发形态会因行业而异——开放行业(如软件开发、内容创作)将率先形成 API 化的工具市场;高监管行业的爆发则会滞后 2–3 年,且以本地化部署和联邦模式为主。


总览:SAGE 演进全景

演进时间线

gantt
    title "SAGE 四象限演进路线图(2026–2032)"
    dateFormat YYYY
    axisFormat %Y

    section "S · Solve"
    "浅层工具仍广泛使用,调用频率开始下降"     :active, s1, 2026, 2y
    "浅层工具大部分被内化,重型沙盒走向标准化"  :s2, 2028, 2y
    "仅保留重型计算外包服务"                  :s3, 2030, 2y

    section "A · Anchor"
    "接口碎片化,协议竞争期 (MCP 等)"          :active, a1, 2026, 2y
    "收敛至 1-2 套标准协议,默认挂载"          :a2, 2028, 2y
    "融入 Agent OS 底层系统调用"               :a3, 2030, 2y

    section "G · Gate"
    "仍为主流 Agent 标配"                     :active, g1, 2026, 2y
    "调用量下降 80%+,仅极端场景保留"          :g2, 2028, 2y
    "基本消亡,残余并入 I/O 适配层"            :crit, g3, 2030, 2y

    section "E · Expert"
    "头部公司封装诊断 API,定制开发为主"       :active, e1, 2026, 2y
    "Oracle Marketplace 形成,工具批量上线"     :e2, 2028, 2y
    "垂直行业工具指数爆发,成为核心商业模式"  :crit, e3, 2030, 2y
Loading

趋势走向对比

graph LR
    subgraph now["2026 · 当前"]
        direction TB
        SN["<b>S · Solve</b><br/>████████████ 高频"]
        AN["<b>A · Anchor</b><br/>████████ 中频"]
        GN["<b>G · Gate</b><br/>████████████ 高频"]
        EN["<b>E · Expert</b><br/>████ 低频"]
        SN1["&nbsp;"]
        style SN1 fill:none,stroke:none
    end

    subgraph future["2030+ · 长期"]
        direction TB
        SF["<b>S · Solve</b><br/>███ 仅重型"]
        AF["<b>A · Anchor</b><br/>████████ 稳定"]
        GF["<b>G · Gate</b><br/>█ 消亡"]
        EF["<b>E · Expert</b><br/>██████████████ 爆发"]
        EF1["&nbsp;"]
        style EF1 fill:none,stroke:none
    end

    SN -- "↓ 收缩" --> SF
    AN -- "→ 稳定" --> AF
    GN -- "↓↓ 消亡" --> GF
    EN -- "↑↑ 爆发" --> EF

    style now fill:#1a1a2e,stroke:#53a8b6,color:#fff
    style future fill:#16213e,stroke:#e94560,color:#fff
Loading

SAGE 总结速查表

象限 关键词 核心价值 短期 (2026–2027) 中期 (2028–2029) 长期 (2030+) 投资建议
S · Solve 求解 算力外包 浅层调用频率 -30~50% 浅层基本被内化 仅存重型计算服务 轻量工具止损;重型沙盒加注
A · Anchor 锚定 真实世界连接 协议碎片化竞争 收敛为标准基建 融入 Agent OS 押注协议标准制定者
G · Gate 门控 输入降噪 仍为标配 调用量 -80% 基本消亡 不建议新投入
E · Expert 专鉴 领域裁决权 头部公司试水 Marketplace 成型 指数爆发,核心壁垒 最高优先级赛道
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment