管理工具上下文

在 tool search、编程式工具调用、prompt caching 和上下文编辑之间选择,以管理上下文膨胀。


工具定义和累积的 tool_result 块会消耗你的上下文窗口。拥有大量工具或大量轮次的长时间运行 agent 可能在任务完成之前就耗尽可用上下文。四种方法在管道的不同阶段解决这个问题。

四种方法

每种方法针对不同来源的上下文压力。选择与你的 token 消耗位置匹配的方法。

方法减少的内容适用场景了解更多
Tool search预加载的工具定义大型工具集(20+ 个工具),大多数工具并非每轮都需要Tool search tool
编程式工具调用tool_result 往返可以作为单个脚本执行的工具调用链编程式工具调用
Prompt caching重复工具定义的 token 成本跨多个请求的稳定工具集工具使用与 prompt caching
上下文编辑历史记录中的旧 tool_result早期结果不再相关的长对话上下文编辑

Tool search 将工具定义保持在上下文窗口之外,直到 Claude 请求它们。你不需要预先发送 50 个工具 schema,而是发送一个 tool_search 工具,让 Claude 按需发现其余工具。这以少量延迟(查找工具需要额外一轮)换取基线上下文使用量的大幅减少。

编程式工具调用

编程式工具调用将一系列工具调用折叠为 Claude 编写并由 Anthropic 代码执行沙箱运行的单个代码块。Claude 不需要五轮 tool_usetool_result 往返,而是发出一个脚本,从沙箱内部调用所有五个函数。中间结果永远不会进入对话历史。

Prompt caching

Prompt caching 不会减少上下文中的 token 数量,但会减少后续请求中为它们支付的费用。如果你的工具定义是稳定的,缓存一次并在数千个请求中复用缓存前缀。当工具集很大但固定时,这是正确的选择。

上下文编辑

上下文编辑在旧的 tool_result 块完成其使命后从对话历史中移除它们。长时间运行的 agent 循环可能产生数百个当时有用但现在已成为累赘的中间结果。上下文编辑允许你在不重启对话的情况下修剪它们。

组合使用

这些方法可以组合使用。长时间运行的 agent 可能使用 tool search 保持工具集精简,使用 prompt caching 分摊剩余定义的成本,并使用上下文编辑在对话增长时修剪过时的结果。每个方法解决问题的不同部分,因此组合使用不会产生冲突。

高流量 agent 的合理起点:

  1. 从第一天起就对工具定义启用 prompt caching。缓存写入比基础输入定价高出 25% 的费用,这在第二次命中缓存的请求中就会回本。
  2. 当工具集增长到大约 20 个工具以上或基线上下文使用量变得明显时,添加 tool search。
  3. 当单个对话运行时间足够长,使得早期结果变得无关紧要时,添加上下文编辑。
  4. 如果你注意到重复的小型工具调用链可以作为单个批次运行,考虑使用编程式工具调用。

下一步