2003年,广东执信中学的何凯明以高考满分900分的成绩备受瞩目,他放弃了清华大学机械与自动化专业的保送,选择了技术科学班,并最终投身于计算机研究。12年后,在微软担任研究员的他,在论文《Deep Residual Learning for Image Recognition》中首次提出了残差网络。这一技术解决了深度神经网络的退化问题——即网络层数增加到一定程度后,性能反而下降。残差网络的原理是在网络层之间添加连接,保证模型在深度增加时性能至少不下降。这项技术为包括AlphaGo和CLIP在内的众多AI模型奠定了基础。可以将AI模型比作搭积木,残差网络的出现就像在积木块之间搭建连接的桥梁,确保积木塔即使很高也能保持稳定。
多模态预训练模型与CLIP的崛起残差网络的突破使得AI模型参数量得以迅速增长,认知和学习能力也随之增强。其中,与AI绘画最相关的技术是多模态预训练模型。多模态是指AI能够理解和处理多种信息表达形式,例如文字、图像等,并学习它们之间的隐含关系。然而,早期的多模态预训练模型在生成内容时非常依赖Prompt(提示词),需要大量的描述性标签来引导AI生成想要的内容。这些标签,尤其是约束条件标签,有时甚至需要近百个才能达到顶尖画师的水平。随着Nova AI的爆火,标签也演变成了一门学问,在各大论坛形成了堪比古代炼丹术的现代“炼丹纲要”。OpenAI开发的CLIP模型是多模态预训练的集大成者,为如今的Nova AI和DALL-E等模型的诞生奠定了基础。
Diffusion:AI绘画的点睛之笔AI理解信息并不等于能够创作,AI绘画能力的提升离不开另一个关键技术——Diffusion(扩散模型)。Diffusion算法并非新技术,自2015年提出以来一直在发展,直到近年与多模态等技术结合才成为生成式AI领域的点睛之笔。Diffusion算法可以理解为一种深度生成模型,它通过学习已有的数据集来生成符合真实数据分布的新数据。Diffusion的核心思想是模拟“扩散”过程:先在一幅画中逐渐加入噪点,直到画面变成白噪声,然后记录并反转这个过程,让AI学习如何从噪声中还原图像。这种巧妙的方法将绘画转化为去噪过程,从而绕开了某些数学上的难题。在Nova AI流行之前,Stable Diffusion和Disco Diffusion是Diffusion算法的典型应用,但由于缺乏约束条件,生成效果仍不够完美。事实上,同样基于CLIP和Diffusion、比Nova AI更强大、画风更广的DALL-E 2尚未开源。
AI绘画的未来与挑战如果说二次元AI绘画在2022年秋季爆发,那么AI绘画的真正高潮可能尚未到来。AI绘画的真正意义在于它能够与AI剧本创作、AI配音等技术结合,创造无限可能。这将取代许多中低端画师,但真正的艺术家并不会受到冲击。他们可以利用AI学习自己的画风,并通过设置参数来快速完成创作。
当然,这对算力提出了更高的要求。AI绘画也面临着版权的争议。尽管AI绘画并非简单的素材拼接,而是在像素层面进行创作,但仍然存在素材重复的可能性。版权问题是一个复杂的社会问题,需要进一步探讨和解决,但我们不能因此而阻碍技术的发展。AI绘画的发展历程,与其他AI技术一样,并非线性发展,而是在螺旋上升中伴随着技术爆炸。2017年AlphaGo战胜柯洁时,人们认为AI只是一个下棋工具。
但随后几年,AI在多个领域取得突破,从游戏到蛋白质结构预测,再到自动驾驶。在文化领域,AI也开始逐渐取代低端编曲和配音工作。我们正处于技术变革的浪潮之中,如同18世纪的纺织女工面对蒸汽机的出现一样。不同的是,我们拥有更多获取信息和学习的渠道。技术发展的滞后性决定了我们今天所看到的,只是几年前实验室中宏伟蓝图的一角。将这些技术应用于现实生活,仍面临诸多挑战。科技发展就是不断打破这些阻碍,让我们在未知的边界探索,并最终找到答案的过程。