谷歌研究:合成数据使大模型数学推理能力提升八倍 谷歌、卡内基梅隆大学和MultiOn的联合研究团队发表研究,探讨合成数据在大型模型训练中的应用。报告显示,全球公开可用的高质量文本训练标记预计到2026年将被耗尽,合成数据成为重要替代方案。研究人员探索了正向数据(正确的问题解决方案)和负向数据(错误的问题解决步骤)两种合成数据类型。通过直接偏好优化(DPO)方法,模型能够从错误中学习,增强逻辑推理能力。研究表明,经过正向和负向合成数据预训练的大模型,在数学推理任务上的性能实现了八倍的提升,验证了合成数据在增强大模型逻辑推理能力方面的潜力。
谷歌研究:合成数据使大模型数学推理能力提升八倍 谷歌、卡内基梅隆大学和Mult
游乐看科技
2025-04-07 10:52:02
0
阅读:0