这篇论文的标题是《Addition is All You Need for Energy-Efficient Language Models》,以下是对论文各部分的介绍:
摘要这篇论文提出了一种新的算法——线性复杂度乘法(ℒ-Mul),它可以用整数加法操作来近似浮点数的乘法,从而显著减少计算资源的消耗,同时保持高精度。该算法与8位浮点数乘法相比,能够实现更高的精度,并且消耗的计算资源更少。论文还展示了在各种文本、视觉和符号任务上的评估结果,表明该算法在自然语言理解、结构推理、数学和常识问答等任务上的应用是有效的。
研究背景现代人工智能(AI)系统,尤其是大型语言模型(LLMs),在推理过程中需要进行大量的计算,消耗了大量的电力资源。为了减少能源消耗和提高推理速度,关键在于减少神经网络所需的计算量。特别是,神经网络中的注意力机制由于其计算复杂度为O(N^2),是计算效率的主要瓶颈。
主要贡献提出了ℒ-Mul算法,它可以用整数加法来近似浮点数乘法,减少了计算资源的消耗。证明了ℒ-Mul算法在精度上优于8位浮点数乘法,并且在能效上有显著提升。在多种语言和视觉任务上验证了ℒ-Mul算法的有效性,并且展示了在不同的模型和任务上应用该算法几乎不会损失性能。研究方法提出了ℒ-Mul算法,该算法通过观察浮点数的表示和乘法操作的特性,用整数加法来近似实现浮点数的乘法。对ℒ-Mul算法的理论误差进行了估计,并在不同的数值精度设置下进行了实验验证。在包括自然语言推理、视觉问答和数学问题解答在内的多个基准测试上评估了ℒ-Mul算法的性能。实验结果实验表明,使用ℒ-Mul算法的模型在多种任务上与使用标准浮点数乘法的模型相比,性能几乎无损,并且在一些情况下甚至有所提升。此外,实验还证明了ℒ-Mul算法在能效上的优势,能够在保持高精度的同时显著降低能源消耗。
结论论文最后得出结论,ℒ-Mul算法是一种有效的方法,可以在保持模型性能的同时显著提高能源效率。这种算法对于数据中心、机器人技术以及各种边缘计算设备中的AI部署具有重要的实际意义。
一句话总结这篇论文提出了一种新的算法,通过使用整数加法来近似浮点数乘法,实现了在不损失模型性能的情况下显著提高能源效率。
论文链接https://arxiv.org/abs/2410.00907