这篇论文的标题是《MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs》,由 Salesforce AI Research 和新加坡管理大学共同研究。
摘要:最近的大型语言模型(LLMs)在长上下文场景中展示了多样化的能力。虽然一些新的基准测试已经被开发出来,以评估LLMs的长上下文能力,但目前缺乏针对LLMs在长上下文中数学推理能力的基准测试,而这对于LLMs在真实场景中的应用至关重要。在本文中,我们介绍了MathHay,这是一个自动化基准测试,旨在评估LLMs的长上下文数学推理能力。与过去专注于长文本中信息检索的基准(如“大海捞针”)不同,MathHay要求模型具备信息获取和复杂数学推理的双重能力。我们在MathHay上进行了广泛的实验,以评估八个表现优异的LLMs的长上下文数学推理能力。即使是表现最好的模型Gemini-1.5-Pro-002,在长上下文下的数学推理上仍然面临困难,在128K标记时只达到了51.26%的准确率。这突显了MathHay基准测试上的显著改进空间。
研究背景: 随着大型语言模型(LLMs)在多种长文本场景下展示出多才多艺的能力,评估它们在长文本上下文中的数学推理能力变得尤为重要。尽管已经有一些基准测试工具被开发出来,但缺乏评估 LLMs 在长文本数学推理能力的工具。
主要贡献:
提出了一种自动化方法,用于创建针对特定时间段内现实世界场景的高质量长文本数学推理基准测试。提出了 MathHay 基准测试,包含不同难度级别的问题,以评估 LLMs 在不同输入长度(32K、64K、128K)上的推理能力。在 MathHay 上对八种顶尖 LLMs 进行了广泛的实验,结果表明当前的 LLMs 在处理长文本数学推理任务时存在困难。研究方法: MathHay 基准测试的构建包括四个关键阶段:文档收集、问题生成、质量控制和Hay构建。研究者们收集了包含现实世界数学推理场景的文档,并生成了四种不同类型的测试任务。通过不同的策略生成解决方案,然后进行质量控制以确保数据的高质量。最后,通过在噪声文本中插入相关文档构建了 MathHay 的Haystack。
实验结果: 实验结果显示,即便是表现最好的模型(Gemini-1.5-Pro-002),在处理长达 128K tokens 的长文本时,准确率也只有 51.26%,这表明在 MathHay 基准测试上有很大的改进空间。
结论: MathHay 基准测试是评估 LLMs 在长文本数学推理能力方面的一个有用的工具。实验结果揭示了 LLMs 在处理长文本和噪声文本时面临的挑战,并为未来改进模型提供了方向。
一句话总结: 这篇论文介绍了 MathHay,这是一个新的自动化基准测试工具,用于评估大型语言模型在长文本上下文中的数学推理能力,并发现即便是最先进的模型在这方面也有很大的提升空间。
论文链接https://arxiv.org/abs/2410.04698