这篇论文的标题是《Selective Attention Improves Transformer》,以下是对论文各部分的介绍:
摘要论文提出了一种名为“选择性注意力”(Selective Attention)的新机制,这是一个简单的、无需额外参数的改进,用于标准注意力机制。它通过减少对不需要的上下文元素的关注来提高性能。研究表明,选择性注意力在多种模型大小和上下文长度下提高了语言建模的性能,并且可以减少推理过程中的记忆和计算需求。
研究背景在处理不同任务时,记忆需求差异很大。例如,复制任意序列需要保留所有元素的记忆,而确定一个特定元素是否至少出现一次只需要保留固定数量的记忆。现有的Transformer模型将整个历史保留在上下文缓冲区中,虽然能够解决复制等任务,但这也导致了计算成本的平方增长。
主要贡献提出了选择性注意力机制,它允许一个标记(token)决定另一个标记不再需要,从而减少未来标记对它的关注。展示了选择性注意力在不同合成任务和自然语言建模中的性能提升。证明了通过选择性注意力可以安全地从注意力的上下文中移除被遗忘的元素,从而在不降低质量的情况下显著减少推理过程中的记忆和计算需求。研究方法选择性注意力通过一个简单的修改实现,在标准注意力机制的基础上增加了一个软掩码矩阵,用于决定哪些标记应该被忽略。该方法没有引入新的参数,计算量增加可以忽略不计。
实验结果实验表明,使用选择性注意力的Transformer在C4数据集上进行语言建模训练时,即使在减少注意力模块的上下文大小的情况下,也能与没有使用选择性注意力的模型保持相同的验证困惑度(perplexity),同时显著减少了所需的内存。
结论选择性注意力是一个有效的机制,可以提高Transformer模型的性能,并且有助于减少推理时的内存和计算需求。由于它不需要额外的参数和计算,因此可以作为Transformer解码器的默认设置。
一句话总结这篇论文介绍了一种名为“选择性注意力”的改进机制,它通过减少对不必要元素的关注来提高Transformer模型的性能,并显著降低了推理时的内存和计算需求。
论文链接https://arxiv.org/abs/2410.02703