AI绘画的技术爆炸：从残差网络到扩散模型

2003年，广东执信中学的何凯明以高考满分900分的成绩备受瞩目，他放弃了清华大学机械与自动化专业的保送，选择了技术科学班，并最终投身于计算机研究。12年后，在微软担任研究员的他，在论文《Deep Residual Learning for Image Recognition》中首次提出了残差网络。这一技术解决了深度神经网络的退化问题——即网络层数增加到一定程度后，性能反而下降。残差网络的原理是在网络层之间添加连接，保证模型在深度增加时性能至少不下降。这项技术为包括AlphaGo和CLIP在内的众多AI模型奠定了基础。可以将AI模型比作搭积木，残差网络的出现就像在积木块之间搭建连接的桥梁，确保积木塔即使很高也能保持稳定。

多模态预训练模型与CLIP的崛起

残差网络的突破使得AI模型参数量得以迅速增长，认知和学习能力也随之增强。其中，与AI绘画最相关的技术是多模态预训练模型。多模态是指AI能够理解和处理多种信息表达形式，例如文字、图像等，并学习它们之间的隐含关系。然而，早期的多模态预训练模型在生成内容时非常依赖Prompt（提示词），需要大量的描述性标签来引导AI生成想要的内容。这些标签，尤其是约束条件标签，有时甚至需要近百个才能达到顶尖画师的水平。随着Nova AI的爆火，标签也演变成了一门学问，在各大论坛形成了堪比古代炼丹术的现代“炼丹纲要”。OpenAI开发的CLIP模型是多模态预训练的集大成者，为如今的Nova AI和DALL-E等模型的诞生奠定了基础。

Diffusion：AI绘画的点睛之笔

AI理解信息并不等于能够创作，AI绘画能力的提升离不开另一个关键技术——Diffusion（扩散模型）。Diffusion算法并非新技术，自2015年提出以来一直在发展，直到近年与多模态等技术结合才成为生成式AI领域的点睛之笔。Diffusion算法可以理解为一种深度生成模型，它通过学习已有的数据集来生成符合真实数据分布的新数据。Diffusion的核心思想是模拟“扩散”过程：先在一幅画中逐渐加入噪点，直到画面变成白噪声，然后记录并反转这个过程，让AI学习如何从噪声中还原图像。这种巧妙的方法将绘画转化为去噪过程，从而绕开了某些数学上的难题。在Nova AI流行之前，Stable Diffusion和Disco Diffusion是Diffusion算法的典型应用，但由于缺乏约束条件，生成效果仍不够完美。事实上，同样基于CLIP和Diffusion、比Nova AI更强大、画风更广的DALL-E 2尚未开源。

AI绘画的未来与挑战

如果说二次元AI绘画在2022年秋季爆发，那么AI绘画的真正高潮可能尚未到来。AI绘画的真正意义在于它能够与AI剧本创作、AI配音等技术结合，创造无限可能。这将取代许多中低端画师，但真正的艺术家并不会受到冲击。他们可以利用AI学习自己的画风，并通过设置参数来快速完成创作。

当然，这对算力提出了更高的要求。AI绘画也面临着版权的争议。尽管AI绘画并非简单的素材拼接，而是在像素层面进行创作，但仍然存在素材重复的可能性。版权问题是一个复杂的社会问题，需要进一步探讨和解决，但我们不能因此而阻碍技术的发展。AI绘画的发展历程，与其他AI技术一样，并非线性发展，而是在螺旋上升中伴随着技术爆炸。2017年AlphaGo战胜柯洁时，人们认为AI只是一个下棋工具。

但随后几年，AI在多个领域取得突破，从游戏到蛋白质结构预测，再到自动驾驶。在文化领域，AI也开始逐渐取代低端编曲和配音工作。我们正处于技术变革的浪潮之中，如同18世纪的纺织女工面对蒸汽机的出现一样。不同的是，我们拥有更多获取信息和学习的渠道。技术发展的滞后性决定了我们今天所看到的，只是几年前实验室中宏伟蓝图的一角。将这些技术应用于现实生活，仍面临诸多挑战。科技发展就是不断打破这些阻碍，让我们在未知的边界探索，并最终找到答案的过程。