Archon:推理时间技术的架构搜索框架

成天评科技文化 2024-10-03 21:04:35

这篇论文的标题是 Archon: An Architecture Search Framework for Inference-Time Techniques,由斯坦福大学和华盛顿大学的研究者共同完成。论文提出了一个名为 Archon 的框架,旨在优化大型语言模型(LLM)在推理时的技术。

摘要: 论文指出,推理时技术(如生成集成、多采样、排名、融合等)作为提高大型语言模型(LLM)能力的有效工具,目前尚缺乏将这些技术与一个或多个LLM结合使用的系统开发最佳实践。挑战包括有效分配推理计算预算、理解不同推理时技术组合之间的相互作用及其对下游性能的影响,以及高效搜索模型选择、推理时技术和它们的组合的广阔空间。为了应对这些挑战,研究者介绍了 Archon,一个自动化框架,用于设计推理时架构。

研究背景: 研究背景强调了推理时技术在提升模型性能方面的潜力,以及目前缺乏有效的推理时架构设计方法。现有的系统如Mixture-of-Agents (MoA) 和 LLM-Blender 虽然取得了进展,但在任务泛化和性能提升方面仍有局限。

主要贡献:

1. 开发了 Archon,一个模块化的框架,用于设计结合多种推理时技术的LLM系统。

2. 引入了推理时架构搜索(ITAS),一种自动化算法,用于针对目标基准测试进行优化。

3. 展示了通过增加推理时架构层数来优化端到端性能的有效方法。

4. 发现了有效的新的测试时技术组合,并证明了模型基础的单元测试生成和评估在提高编码能力方面的有效性。

研究方法: 研究者定义了一个可扩展的设计空间,包括多种方法,并将选择和组合LLM和推理时技术的问题转化为一个超参数优化目标。他们提出了自动化的推理时架构搜索(ITAS)算法,用于在给定目标基准、推理计算预算和可用LLM的情况下输出优化的架构。

实验结果: 实验表明,Archon 在多个指令遵循和推理基准测试中的表现超过了强大的模型,如GPT-4o和Claude 3.5 Sonnet,平均提高了15.1和11.2个百分点。

结论: Archon 框架和ITAS算法在提高LLM在各种任务中的性能方面具有潜力,特别是通过结合多种推理时技术。

一句话总结: 这篇论文介绍了 Archon,一个用于优化大型语言模型在推理时性能的自动化架构搜索框架,通过结合多种推理时技术,显著提高了模型在多个基准测试中的表现。

论文链接https://arxiv.org/abs/2409.15254

代码链接https://github.com/ScalingIntelligence/Archon

0 阅读:0