北京时间10月8日下午5点45分,2024年诺贝尔物理学奖揭晓,奖项授予约翰·霍普菲尔德(John J. Hopfield)和杰弗里·辛顿(Geoffrey E. Hinton),以表彰他们在人工神经网络实现机器学习方面的基础性发现和发明。
看到这一消息之后,很多人都会疑惑:机器学习和人工神经网络确实是近几年很火的应用,但这不应该是计算机领域的成就吗?就算得奖也应该是数学和计算机相关的图灵奖,为什么会得诺贝尔物理学奖呢?(辛顿也正是2018年图灵奖得主之一,由此成为历史上第一位诺贝尔奖和图灵奖双料得主)
别急,笔者这就给大家来解释一下,这两位科学家是如何从物理学中汲取灵感,从而为人工神经网络奠定基础的。
2024年诺贝尔物理学奖得主John J. Hopfield(左)和 Geoffrey Hinton(右) (图片来源:瑞典皇家科学院)
机器如何能像人类一样学习?即使很小的孩子也可以指着不同的动物,自信地说出它是狗、猫还是松鼠。他们偶尔会弄错,但很快他们就能做到几乎每次都给出正确的答案。
即使没有看到任何关于动物的图表或解释,孩子也可以学会辨认。在遇到每种类型的动物的几个例子后,不同的类别就会在孩子的脑海中形成。
然而,像识别动物这种对人脑非常简单的事情,计算机却完全不擅长。这是因为,人脑会使用很多超出于逻辑之外的方式来认识或者模拟世界。
早在1943年,神经学家就提出了大脑细胞的协作模型。在他们的模型中,一个神经细胞通过感受来自其它神经细胞的信号,来决定它自己会产生什么信号。
同时人们还发现,大脑的神经细胞是通过“有电”或者“没电”的电信号来进行交流的,这本身是一种二进制信号。也就是说,大脑用许多细胞的二进制信号来形成了完整的图像识别功能。
天然神经系统和人工神经网络的相似性。关于人工神经网络的理论在几十年前就已形成,但当时人们并没有找到实现它的方法(图片来源:瑞典皇家科学院)
计算机中使用的也是二进制信号,那么可不可以利用计算机来模拟大脑的神经系统呢?这是人工神经网络(artificial neural network)的思想雏形。虽然计算机学家认为这在理论上可行,却完全找不到合适的实现方法。因此,关于人工神经网络的工作在接下来的几十年里鲜有人问津。
神经网络示意图(图片来源:Pixabay)
水滴和神经网络的共同点如何解决这一难题?科学家在物理学中获得了灵感。
物质中的每个分子每时每刻都在进行无规则的热运动,但是许多分子集合起来却能表现出整齐划一的磁现象;单个水分子会做出杂乱的流动,但大量水分子集合起来却可以形成整齐的漩涡流动。
这说明,许多物理体系中的集体现象虽然是建立在单个个体的基础之上的,但是会产生完全超越个体的新现象,并且能够稳定存在。
凝聚态物理学家霍普菲尔德由此产生一个大胆的联想:神经网络的本质,不也是和这些集体现象一样吗?单个神经元看似杂乱的行动,却能够产生稳定的图像功能,这就是物理学中不规则的个体所形成的有规律的集体现象的翻版。如果能用规范物理集体的方程来规范我们的计算机二进制节点,那么应该也能实现与大脑的神经网络相似的功能。
于是,霍普菲尔德开始考虑用单个分子的自旋来代替神经元,然后用多个分子体系的总能量来代替神经系统所能产生的状态。在物理学中,系统总是倾向于处于能量最低的状态。他想通过理论计算的方式来证明,这些分子的自旋状态之间相互影响,从而使整个体系处在能量最低态。
霍普菲尔德使用了两个古老的方程,其中一个方程描述了原子的磁矩是如何对齐的,另一个用来描述磁铁中的能量分布。在应用了这两个方程之后,他建立一种联想记忆模型,后来被称为霍普菲尔德网络(Hopfield neural network)。
霍普菲尔德网络通过向节点输入图像(原始模型中只有30个分子,因此这是一个只有30个点的图像)进行编程,这些节点被赋予1或0的值。然后使用能量公式调整网络的连接,使这几个分子体系获得低能量。此时,就好比我们的大脑记住了一幅图。
当向分子体系输入另一个状态时,科学家设置了一个逐个遍历节点并检查网络是否具有更低能量的规则。如果一个黑色像素变成白色后能量降低,那么它就会改变颜色。这个过程会一直持续下去,直到能量无法降低,也就是达到了能量最低态。
当达到这一点时,分子体系会呈现出它最初保存的原始图像。这就好比,我们先记住一幅图,然后再看另一幅图,人脑可以清晰地指出这个图与我们记住的图之间有什么不同。
简单地说,霍普菲尔德训练了一个由30个分子组成的体系,让它们学会玩“大家来找茬”游戏。
霍普菲尔德的模型示意图。首先让分子体系记住右下角的图像(字母“J”)。此时,如果将分子体系的状态改成右上角的图,那么每个分子会按照既定的规则更改自身的能量,最终使得整体重新回到右下角的图像。(图片来源:瑞典皇家科学院)
如果你只保存一个模式,这可能看起来并不那么显著。也许你在想,为什么你不只是保存图像本身,并将其与正在测试的另一个图像进行比较,但霍普菲尔德的模型的特殊之处在于,它不仅可以同时保存几幅图片,并且可以对图片进行区分。这就好比,我们的大脑可以同时记住好几张图,然后再判断新看到的图与记住的哪张图类似。
虽然只有30个点,但霍普菲尔德网络成功模拟了大脑的工作模式。这是物理学家对物理现象进行抽象和重新运用得到的结论。
物理现象居然和生物现象有着某种相通的工作方式,不知道是自然界的默契,还是背后有更深刻的原理。
静能记住,动能算数正如前文所说,霍普菲尔德的神经网络是具有记忆能力的。然而人的大脑除了定态的记忆功能之外,还有动态的计算功能。那么这种计算功能如何实现呢?
当霍普菲尔德发表他的论文时,杰弗里·辛顿正在美国匹兹堡的卡内基梅隆大学工作。此前,他曾在英国学习实验心理学和人工智能,并思考机器能否学会以类似于人类的方式处理模式,为信息分类和解释找到自己的类别。
结合统计物理学的思想,辛顿和美国计算神经科学家特里·谢泽诺斯基(Terry Sejnowski)创造了新的模型,为霍普菲尔德网络赋予了计算功能。该模型被命名为玻尔兹曼机(Boltzmann machine)。
玻尔兹曼是十九世纪的统计物理学家,他提出的玻尔兹曼分布(Boltzmann distribution)描述了多个分子组成的系统。方程表明,虽然系统整体的状态无法预测,但是可以算出各个状态存在的概率,也就是说,某些状态会以更高的概率出现。
统计物理学家路德维希·玻尔兹曼 (图片来源:Wikipedia)
玻尔兹曼分布是一种指数分布 (图片来源:Wikipedia)
辛顿把玻尔兹曼方程与霍普菲尔德的神经网络模型结合起来,用统计物理学分析各个节点的行为所能导致的最终体系状态,并计算它们发生的概率。
玻尔兹曼机通常使用两种不同类型的节点。信息被馈送到一个称为可见节点的组。其他节点形成一个隐藏层,隐藏节点的值和连接也贡献整个网络的能量。
当向网络输入数值时,玻尔兹曼机会按照既定的概率逐个改变每个节点的值,而这些概率由玻尔兹曼分布计算确定。当体系的能量无法继续减少时,玻尔兹曼机就会输出一个它认为系统最有可能呈现的状态。
玻尔兹曼机和霍普菲尔德模型的不同在于,内部增加了隐藏节点,使得节点之间可以通过概率调节整个网络的功能(图片来源:瑞典皇家科学院)
虽然最初的玻尔兹曼机中只有30个节点,但它与如今拥有上万亿个节点的ChatGPT的工作原理是一样的,都是根据有限的输入,经过概率计算,输出它认为最有可能出现的结果。这虽然看起来是数学和算法的突破,但给辛顿启迪的,却是来自十九世纪的物理学定律。
从0到1,再从1到1亿当然,相比起物理学的背景,人工神经网络更广为人知的是在机器学习和认知科学领域中的运用,后续的发展也超出了几乎所有人的预料。
2006年,基于玻尔兹曼机对神经网络的训练,辛顿与团队发表两篇重磅论文,正式提出了深度学习的概念。深度学习促进了计算机视觉和文本处理能力的巨大进步,以ChatGPT为代表的大语言模型让全世界领略到人工智能的强大能力,而其背后的工作原理正是基于深度学习算法和各种先进的神经网络技术。
深度神经网络是深度学习 (图片来源:Towards Data Science)
追本溯源,神经网络通过模仿有意识的人类大脑创造的未来大厦,而其最初的灵感居然来自于无意识的物理体系内部的运动规律。也许从深度学习到大语言模型,人工智能已经实现了从1到1亿的突破;但从物理学的统计现象联想到神经网络的天才想法,可能才是从0到1的跨越。无论1的后面有多少个0,我们总要铭记最前面的1给人类带来的崭新世界。
参考文献 :
[1] J.J. Hopfield, Proc. Natl. Acad. Sci. USA 79, 2554 (1982).
[2] J.J. Hopfield, Proc. Natl. Acad. Sci. USA 81, 3088 (1984).
[3] J.J. Hopfield and D.W. Tank, Biol. Cybern. 52, 141 (1985).
[4] S.E. Fahlman, G.E. Hinton and T.J. Sejnowski. In Proceedings of the AAAI-83
conference, pp. 109-113 (1983).
[5] D.H. Ackley, G.E. Hinton and T.J. Sejnowski, Cogn. Sci. 9, 147 (1985).
作者:牧心