CORE-Bench:通过计算可重复性智能体基准促进发表研究的可信度

成天评科技文化 2024-10-03 21:04:35

这篇论文的标题是《CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark》,由 Zachary S. Siegel 和他的同事们于2024年9月17日发表。

摘要: 本文介绍了CORE-Bench(Computational Reproducibility Agent Benchmark),这是一个旨在衡量人工智能智能体在科学计算可重复性方面准确性的基准测试。计算可重复性是科学研究的基础,涉及使用提供的代码和数据复制研究结果。CORE-Bench 包含基于90篇科学论文的270个任务,涵盖计算机科学、社会科学和医学三个学科。这些任务分为三个难度级别,包括仅语言和视觉-语言任务。研究者提供了一个评估系统,可以快速且可并行化地测量智能体的准确性,与顺序实现相比,每次运行节省了数天的评估时间。研究者评估了两种基线智能体:通用的AutoGPT和针对任务特定的CORE-Agent。最好的智能体在最难级别的任务上达到了21%的准确率,表明在自动化常规科学任务方面有很大的改进空间。

研究背景: 计算可重复性对于科学研究至关重要,但近年来的研究表明,包括心理学、经济学、医学、政治科学、生命科学、地球科学和计算机科学在内的多个领域存在严重的计算可重复性问题。即使提供了代码和数据,复制研究结果也可能面临诸多挑战。

主要贡献:

1. 提出了CORE-Bench基准测试,包含270个基于90篇论文的任务,这些论文涵盖了计算机科学、社会科学和医学领域,且具有Python或R的代码库。

2. 开发了一个评估工具,可以在隔离的虚拟机上并行运行每个任务,从而实现快速且可重复的评估。

研究方法: 研究者基于CodeOcean上的胶囊(capsules)构建了CORE-Bench,这些胶囊是已知可轻易复制的。他们手动创建了关于成功复制论文输出的任务问题。研究者还开发了CORE-Agent,这是一个为CORE-Bench的每个难度级别定制的智能体。

实验结果: CORE-Agent在最简单任务级别的准确率达到60%,但在最难级别的任务上准确率下降到21%。这表明尽管可以通过特定任务的简单修改来提高通用智能体的性能,但在自动化计算可重复性方面仍有很大的改进空间。

结论: 尽管完全自动化科学研究是一个崇高的目标,但在此之前,代理必须能够复制现有的研究成果。CORE-Bench旨在提高计算可重复性的状态,并激发未来研究智能体的发展。

一句话总结: 这篇论文介绍了一个新的基准测试CORE-Bench,用于评估和提高AI智能体在科学研究中的计算可重复性,这对于建立可靠和可信赖的科学发现至关重要。

论文链接https://arxiv.org/abs/2409.11363

0 阅读:0