这篇论文的标题是《GSM-Symbolic:Understanding the Limitations of Mathematical Reasoning in Large Language Models》,由苹果公司的研究团队撰写。
摘要:最近,大型语言模型(LLMs)的进展引发了人们对其正式推理能力的兴趣,尤其是在数学方面。GSM8K基准广泛用于评估模型在小学水平问题上的数学推理能力。尽管近年来LLMs在GSM8K上的表现显著提升,但尚不清楚它们的数学推理能力是否真的有所提高,这引发了对报告指标可靠性的质疑。为了解决这些问题,我们对几种最先进的开源和闭源模型进行了大规模研究。为了克服现有评估的局限性,我们引入了GSM-Symbolic,这是一个基于符号模板创建的改进基准,允许生成多样化的问题集。GSM-Symbolic使评估更加可控,提供了关键见解和更可靠的度量标准,以衡量模型的推理能力。我们的研究发现,LLMs在回答同一问题的不同实例时表现出明显的差异。具体来说,当在GSM-Symbolic基准中仅改变问题中的数值时,所有模型的表现都会下降。此外,我们调查了这些模型在数学推理方面的脆弱性,并证明随着问题中子句数量的增加,它们的表现显著劣化。我们假设这种下降是由于当前的LLMs无法进行真正的逻辑推理;相反,它们试图复制训练数据中观察到的推理步骤。当我们添加一个看似与问题相关的单一子句时,所有最先进的模型的表现都会显著下降(最高可达65%),尽管添加的子句并未对达到最终答案所需的推理链做出贡献。总体而言,我们的工作提供了对LLMs在数学推理能力及其局限性更细致的理解。
研究背景: LLMs在多个领域展现出了显著的能力,特别是在数学和编码等复杂推理任务上。然而,这些模型是否真正具备逻辑推理能力仍然是研究的重点。
主要贡献:
引入了GSM-Symbolic,一个通过符号模板生成多样化问题的增强基准测试,提供了更可靠的评估方法。通过大规模研究,揭示了LLMs在数学推理任务中的表现差异,特别是在数值变化时模型性能的下降。展示了LLMs在处理增加复杂性的问题时性能显著下降,暗示了它们在数学推理方面的脆弱性。研究方法: 研究者们创建了GSM-Symbolic基准测试,并使用它来评估LLMs在数学推理任务上的性能。他们通过改变问题中的数值和增加无关信息来测试模型的鲁棒性。
实验结果: 研究发现,即使是最先进的模型,在处理GSM-Symbolic中的数学问题时也表现出显著的性能变化,表明了它们的推理能力存在局限性。特别是,当问题中的数值发生变化时,所有模型的性能都会下降。此外,当问题中的条款数量增加时,模型的性能也会显著下降。
结论: LLMs在数学推理方面的能力有限,它们的性能在不同问题实例中存在显著差异,并且在处理复杂问题时性能下降。这些发现表明LLMs可能依赖于在训练数据中观察到的推理步骤的模式匹配,而不是真正的逻辑推理。
一句话总结: 这篇论文通过引入GSM-Symbolic基准测试,揭示了大型语言模型在数学推理任务中的局限性,特别是在处理数值变化和增加复杂性的问题时的性能下降。
论文链接https://arxiv.org/abs/2410.05229