大型语言模型(LLMs)凭借其处理各种任务的出色能力,在推理和规划任务方面取得了重大进展,其中将复杂问题分解为可执行工作流程是这一过程中的关键环节。现有的工作流程评估框架要么仅关注整体绩效,要么受限于场景覆盖不足、工作流程结构过于简单以及评估标准宽松等局限。为此,我们推出了WORFBENCH,一个统一的工作流程生成基准,具有多方面的场景和复杂的图形工作流程结构。此外,我们还提出了WORFEVAL,一个系统评估协议,利用子序列和子图匹配算法准确量化LLM代理的工作流程生成能力。通过对不同类型LLM的全面评估,我们发现LLM代理在序列规划能力和图形规划能力之间存在明显差距,即使是GPT-4也表现出约15%的差距。我们还训练了两个开源模型,并评估了它们在保留任务上的泛化能力。此外,我们观察到,生成的工作流程能够增强下游任务,使它们在推理时以更少的时间实现更优的性能。
研究背景大型语言模型(LLMs)在处理复杂任务方面取得了显著进展,这些任务通常需要将复杂问题分解为可执行的工作流。现有的工作流评估框架要么只关注整体性能,要么存在场景覆盖有限、工作流结构简单和评估标准宽松等限制。为了解决这些问题,研究者们提出了WORFBENCH,一个包含多方面场景和复杂图结构工作流的统一基准。
主要贡献提出了WORFBENCH,一个包含多方面场景和复杂工作流结构的统一工作流生成基准。引入了WORFEVAL,一个使用子序列和子图匹配算法来评估LLM智能体工作流生成能力的系统性评估协议。在多种不同规模的闭源和开源模型上进行了综合评估,并进一步利用生成的工作流来促进下游任务,实现了更优越和高效的性能。研究方法研究者们构建了一个包含18k训练样本、2146个测试样本和723个保留任务的数据集,以评估模型的泛化能力。他们使用有向无环图(DAG)来模拟工作流,并引入了节点链作为原始任务和工作流图之间的中间结构。此外,他们还提出了一种基于子序列和子图匹配的定量评估方法,以准确评估智能体生成的工作流。
实验结果实验结果显示,大型语言模型(LLMs)在生成复杂工作流方面存在显著挑战。即使是先进的模型如GPT-4,在图规划能力上也比线性规划能力低约15%。研究者通过训练开源模型并评估其在保留任务上的泛化能力,发现LLMs与实际工作流规划专家相比还有很大差距。实验还表明,结构化工作流可以提升下游任务的性能,减少推理时间,并缩短规划步骤。这些发现强调了将世界知识整合到LLM智能体中以提高其规划能力的重要性。。
结论WORFBENCH和WORFEVAL为评估和提高LLM智能体在生成复杂工作流方面的能力提供了一个有效的平台。研究者们的实验结果揭示了现有模型在图规划能力上的不足,并为未来的研究提供了有价值的见解。
一句话总结这篇论文通过引入WORFBENCH和WORFEVAL,为评估和提升LLM智能体生成复杂工作流的能力提供了新的基准和评估方法,并揭示了现有模型在这一领域的局限性。
论文链接https://arxiv.org/abs/2410.07869