大模型合成数据机理分析，人大刘勇团队：信息增益影响泛化能力

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

在大语言模型（LLMs）后训练任务中，由于高质量的特定领域数据十分稀缺，合成数据已成为重要资源。虽然已有多种方法被用于生成合成数据，但合成数据的理论理解仍存在缺口。为了解决这一问题，本文首先对当前流行的合成数据生成过程进行了数学建模。在此基础上，本文证明了后训练模型的泛化能力关键取决于生成模型带来的信息增益，并从一个新的反向瓶颈视角进行了分析。此外，本文引入了互信息泛化增益（GGMI）的概念，阐明了泛化增益与信息增益之间的关系。我们希望为合成数据的应用提供理论基础，进而为合成数据生成技术的设计与后训练过程的优化提供新的理解。

It's not the form of data, but the information it brings that truly matters.

图表 1: 合成数据一般生成范式

正如著名的 Scaling laws 所说的那样，大语言模型（LLMs）的效能在很大程度上依赖于训练数据的规模和质量 [1]。然而，在 LLM 的后训练阶段，尤其是在微调和模型对齐的过程中，可用的高质量数据十分稀缺。

为解决这一问题，在真实数据匮乏的情况下合成数据在最近的研究中里逐渐成为增强模型训练的关键手段。截至 2024 年 9 月，在 Hugging Face 平台上标注为 “合成” 的数据集已超过 1000 个。许多前沿的大语言模型，如 LLaMA [2]、Falcon [3]、Qwen [4] 和 GPT-4 [5] 都在其技术报告中表面在后训练阶段广泛使用了合成数据。

近年来，研究人员提出了多种合成数据生成方法 [6-8]，其中最为有效且常见的是通过一个在相关内容上进行过预训练的大语言模型生成合成数据。具体来说，生成过程通常是基于少量的真实数据，编写一组特定的 prompt，再经由生成模型生成具有针对性和高质量的合成数据，如图 1 所示。这种方法不仅能够缓解后训练过程中数据不足的问题，还能够为模型提供更丰富的任务相关信息，进而提升模型的泛化能力和对齐精度。这一范式已经在多个前沿的大语言模型中得到了广泛应用，显示出其在后训练任务中的巨大潜力。

然而，当前对合成数据的建模和理论分析仍然存在显著的不足，这在一定程度上限制了我们对其内在机制的深入理解 [9]。缺乏系统的理论框架使得我们难以准确预测合成数据在不同 LLM 应用中的有效性，也限制了生成模型在更具针对性的合成数据生成方面的优化 [10]。

因此，深入研究合成数据在模型训练过程中的作用成为提升模型性能和可靠性的重要方向。通过加强对合成数据与大语言模型在训练阶段如何相互作用的理解，我们有望开发出更加精准的合成数据集，有效填补训练数据中的特定空白，进而全面提升模型的表现和泛化能力。这不仅能为大语言模型在各类任务中的应用提供强有力的支持，还为未来的模型优化提供了理论依据。

合成数据为何能有效提升模型能力？这种提升又是基于什么关键因素？针对这些核心问题，我们将从对合成数据生成过程的建模开始，将其与模型的泛化能力建立联系，并试图探究这一框架下影响模型泛化能力的关键因素。

论文标题：Towards a Theoretical Understanding of Synthetic Data in LLM Post-Training: A Reverse-Bottleneck Perspective论文链接：https://arxiv.org/abs/2410.01720

在此工作中，我们主要作出了如下贡献：

我们对合成数据生成过程的进行了更加详尽的数学建模，并从期望的角度揭示了这一过程的本质，即对生成模型输出的分布的压缩；我们将合成数据的生成过程与后训练模型的泛化能力进行了连接，并提出了 “反信息瓶颈” 视角，解释了合成数据在训练过程中的作用机理；我们基于上述分析，从信息论的角度为合成数据训练的模型提出了泛化误差上界，并揭示了用于合成数据生成的生成模型所带来的信息增益的重要地位。

模拟实验设置

如图 2 所示，在本研究中，我们使用混合高斯模型（GMM）来对合成数据的生成过程进行模拟。

简单来说，我们设置了一个包含 K+J 个子高斯分布的 GMM 作为 ground-truth（gt-GMM），并在此基础上引入 L 个额外的随机子高斯分布构成用于模拟生成模型的 M。我们从 gt-GMM 的前 K 个子高斯进行采样作为真实数据，从 M 中进行采样作为最终的合成数据，并将其用于后续的验证。

图表 2: 模拟实验设置

1 合成数据的生成过程是对生成模型输出分布的压缩

图表 4: 分布的压缩过程示意图

图表 5: GMM 模拟实验分布结果

我们使用一组混合高斯模型（GMM）对合成数据的生成进行了模拟，结果如图 5 所示。其中，蓝色的点为锚点数据，采样自用蓝色椭圆表示中心的分布中。黄色的点为合成数据，采样自黄色椭圆表示中心的分布中。

在实验的设置中，合成数据（黄色）的分布是对锚点数据（蓝色）观测的拟合和模拟，但由于 GMM 具体设置的差异，黄色椭圆最终无法完全覆盖蓝色椭圆，并且还覆盖了蓝色椭圆未覆盖的位置，这与之前的分析相符。

2 连接数据合成过程与模型的泛化能力

对合成数据的生成过程的建模从分布的角度刻画了其本质特征。

图表 7: GMM 泛化增益模拟实验结果

从图 7 中可以看出，更大的信息增益能有效提升 KL Gap，即提升了使用合成数据训练的模型相比于未使用合成数据的模型对 ground-truth 的拟合结果。此外，对其他变量的改变也相应的影响了 KL Gap 的结果，进一步验证了这一结论。

5 小结

我们从大模型中合成数据的生成过程出发，为常见的数据合成提供了数学上的建模，并将其与模型的泛化能力相结合，从而为合成数据的应用提供了理论基础。基于此，我们从独特的 “逆信息瓶颈” 视角切入，将模型的泛化能力归约在了生成模型所引入的信息增益上，并通过模拟实验的形式进行了验证。

在未来的工作中，一方面我们希望能为大模型合成数据的作用机理提供更加深入的解析，从而为数据合成的方法研究提供理论依据；另一方面，我们希望能解决生成模型与后训练任务间匹配的关系，通过动态的方式自适应的提升合成数据的质量。

作者介绍

刘勇，中国人民大学，长聘副教授，博士生导师，国家级高层次青年人才。长期从事机器学习基础理论研究，共发表论文 100 余篇，其中以第一作者 / 通讯作者发表顶级期刊和会议论文近 50 篇，涵盖机器学习领域顶级期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和顶级会议 ICML、NeurIPS 等。获中国人民大学 “杰出学者”、中国科学院 “青年创新促进会” 成员、中国科学院信息工程研究所 “引进优青” 等称号。主持国家自然科学面上 / 基金青年、北京市面上项目、中科院基础前沿科学研究计划、腾讯犀牛鸟基金、CCF - 华为胡杨林基金等项目。

甘泽宇，中国人民大学高瓴人工智能学院博士研究生，本科及硕士研究生毕业于中国人民大学信息学院。当前主要研究方向包括大模型对齐与机器学习理论。

参考文献

[1] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.

[2] Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, and et al. The llama 3 herd of models, 2024. URLhttps://arxiv.org/abs/2407.21783.

[3] Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, and et al. The falcon series of open language models, 2023. URL https://arxiv.org/abs/2311.16867.

[4] Jinze Bai, Shuai Bai, Yunfei Chu, and et al. Qwen technical report, 2023. URL https://arxi v.org/abs/2309.16609.

[5] OpenAI, Josh Achiam, Steven Adler, and et al. Gpt-4 technical report, 2024. URL https: //arxiv.org/abs/2303.08774.

[6] Ajay Patel, Colin Raffel, and Chris Callison-Burch. Datadreamer: A tool for synthetic data genera tion and reproducible llm workflows. arXiv preprint arXiv:2402.10379, 2024.

[7] Anders Giovanni Møller, Jacob Aarup Dalsgaard, Arianna Pera, and Luca Maria Aiello. The parrot dilemma: Human-labeled vs. llm-augmented data inification tasks. arXiv preprint arXiv:2304.13861, 2023.

[8] Jeiyoon Park, Chanjun Park, and Heuiseok Lim. Chatlang-8: An llm-based synthetic data generation framework for grammatical error correction. arXiv preprint arXiv:2406.03202, 2024.

[9] Hao Liang, Linzhuang Sun, Jingxuan Wei, Xijie Huang, Linkun Sun, Bihui Yu, Conghui He, and Wentao Zhang. Synth-empathy: Towards high-quality synthetic empathy data. arXiv preprint arXiv:2407.21669, 2024.

[10] Oscar Giles, Kasra Hosseini, Grigorios Mingas, Oliver Strickson, Louise Bowler, Camila Rangel Smith, Harrison Wilde, Jen Ning Lim, Bilal Mateen, Kasun Amarasinghe, et al. Faking feature importance: A cautionary tale on the use of differentially-private synthetic data. arXiv preprint arXiv:2203.01363, 2022.

[11] Lin Long, Rui Wang, Ruixuan Xiao, Junbo Zhao, Xiao Ding, Gang Chen, and Haobo Wang. On llms-driven synthetic data generation, curation, and evaluation: A survey, 2024. URL https: //arxiv.org/abs/2406.15126.

古典风资讯网

大模型合成数据机理分析，人大刘勇团队：信息增益影响泛化能力

机器心科技身