来源:arXiv 2604.11557标题:Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents链接:arXiv 摘要页 · PDF · 代码仓库
我先提炼的关键信息
- 这篇论文想解决 LLM Agent 的 tool use 研究不统一 这个老问题:数据表示不统一、轨迹结构覆盖不均、评测 benchmark 各说各话。
- 作者提出一个统一框架 UniToolCall,把 工具池构建、训练数据生成、评测表示 这三件事整到一套标准里。
- 数据规模不小:
- 22k+ tools 的工具池
- 390k+ 训练样本
- 融合 10 个标准化公开数据集 + 结构可控的合成轨迹
- 明确建模多种交互结构:
- single-hop / multi-hop
- single-turn / multi-turn
- serial / parallel execution
- 为了让多轮调用前后能接上,作者还加了一个 Anchor Linkage 机制,用来显式约束跨轮依赖。
- 评测部分把 7 个公开 benchmark 统一改写成 QAOA(Query–Action–Observation–Answer) 表示,并且在 函数调用 / turn / 整个对话 三层粒度评估。
- 结果上,论文声称用他们的数据微调 Qwen3-8B 后,tool-use 表现明显提升;在 distractor-heavy 的 Hybrid-20 设置下,单轮 Strict Precision 达到 93.0%,超过 GPT / Gemini / Claude。
Abstract 精译
Tool-use capability is a fundamental component of LLM agents, enabling them to interact with external systems through structured function calls.
LLM Agent 的工具使用能力是其核心组成部分,它让模型可以通过结构化函数调用与外部系统交互。
However, existing research exhibits inconsistent interaction representations, largely overlooks the structural distribution of tool-use trajectories, and relies on incompatible evaluation benchmarks.
但现有研究存在三个明显问题:交互表示不一致、对工具使用轨迹的结构分布考虑不足,以及 评测基准彼此不兼容。
We present UniToolCall, a unified framework for tool learning that standardizes the entire pipeline from toolset construction and dataset generation to evaluation.
作者提出了 UniToolCall,这是一个面向工具学习的统一框架,试图把 工具集构建、数据集生成到评测 的整条流程标准化。
The framework curates a large tool pool of 22k+ tools and constructs a hybrid training corpus of 390k+ instances by combining 10 standardized public datasets with structurally controlled synthetic trajectories.
该框架整理了一个 2.2 万+ 工具 的大规模工具池,并通过整合 10 个标准化公开数据集 与 结构可控的合成轨迹,构建出 39 万+ 样本 的混合训练语料。
It explicitly models diverse interaction patterns, including single-hop vs. multi-hop and single-turn vs. multi-turn, while capturing both serial and parallel execution structures.
它显式建模了多种交互模式,包括 单跳/多跳、单轮/多轮,同时覆盖 串行与并行执行结构。
To support coherent multi-turn reasoning, we further introduce an Anchor Linkage mechanism that enforces cross-turn dependencies.
为了支持连贯的多轮推理,作者进一步引入 Anchor Linkage 机制,用来强制建模跨轮依赖关系。
Furthermore, we convert 7 public benchmarks into a unified Query--Action--Observation--Answer (QAOA) representation with fine-grained evaluation at the function-call, turn, and conversation levels.
此外,作者把 7 个公开 benchmark 统一转换为 QAOA(Query--Action--Observation--Answer) 表示,并在 函数调用级、轮次级、对话级 做细粒度评测。
Experiments show that fine-tuning Qwen3-8B on our dataset substantially improves tool-use performance. Under the distractor-heavy Hybrid-20 setting, achieves 93.0% single-turn Strict Precision, outperforming commercial models including GPT, Gemini, and Claude.
实验表明,在该数据集上微调 Qwen3-8B 能显著提升工具使用能力;在干扰项很多的 Hybrid-20 场景下,其单轮 Strict Precision 达到 93.0%,并超过 GPT、Gemini、Claude 等商业模型。
这篇论文值不值得看
值得看
- 你如果最近在看 Agent / tool calling / function calling / benchmark,这篇很对路
- 它不只是提模型技巧,而是在补 数据和评测标准化 这一层基础设施
- 对做 agent data construction、eval design、trajectory modeling 的人很有参考价值
先别期待太高
- abstract 里成绩很亮,但还要看 benchmark 转换是否带来偏置
- 22k 工具池和 390k 样本的构造细节,决定这东西到底有多可复用
- “超过商业模型” 这类表述,要看设置是否完全公平,尤其是 prompt、tool schema、distractor 设计
我建议你重点看这几块
- QAOA 表示到底怎么定义,和现有 function calling trace 有什么本质差别
- 结构控制的 synthetic trajectories 是怎么造出来的,是否会过于模板化
- Anchor Linkage 的形式化定义与训练注入方式
- Hybrid-20 评测设置怎么构建 distractor tools
- 和现有 ToolBench / BFCL / APIBench 一类工作相比,统一方式到底解决了多少真实问题
备注
- arXiv 页面备注:18 pages, 8 figures, 6 tables
- 代码与数据已公开: UniToolCall GitHub
- 当前这份是基于摘要页做的首轮收录,后面如果你要,我可以继续把 PDF 通读后补一版更细的笔记。