AI是如何做数学题的?很象是人在思考,但内核是AlphaGo式的搜索算法。目前还不如人类顶尖高手
1. 图一,一个高考数学题。这个题有一定难度,主要是第二问,要求极值。我让DeepSeek的“深度思考(R1)”模式测试,做出来了。第一问的答案见图二,第二问的答案在图三。看答案简单,但这没有看头。
2. 真正的“干货”,是DeepSeek的思考过程。为了解决这个问题,它足足思考了183秒。简单的第一问,它也输出很长的思考过程(这个过程会在APP里展示),要七个截屏。第二问就更长。我们看第一问,就能明白AI在干什么了。
3. 它就在那自言自语,说要干什么。从形式上看,完全模仿了人类的思考过程。据说在AI训练早期阶段,人是看不懂思考过程的,但是后期通过训练,把过程弄得人能看懂了。这叫思维链(Chain Of Thought,COT),挺有意思的。之前的大模型输出是没有的,最近才引入。
4. 它在那思考得很繁琐,但是每仔细,每一步都是简单的,有“根据”的。而这些简单的步骤,是人类语料提供的。它其实只知道是一些符号的关系,不知道对应什么东西。但很多情况下,人做数学题其实也就是符号游戏,并没有去对应物理世界。
5. 我们还看到,它在那思考,有些情况,都是“歪”了,得出了一些怎么都说“可能不太好”的中间结果。然后就说,换个思路,再来处理算式。换思路好,就能推出更多不错的中间结果,最后就把第一问做出来了。而这就是“搜索”,一个方向处理不好,就换个方向干。在AlphaGo下围棋时,我们已经见识了机器搜索的威力。
6. 第二问,它思考的过程要长得多,因为难度大了很多。它换了几次方向,最后还是做出来了。有时AI在做出来之后,还会回头去检查下过程,自由自语地说,过程没错,可以输出了,看上去很象人做出来了检查。
7. 但是,我们仔细看整个过程,就发现了AI的可怕。它最终答案给的很简单,但是思考过程长得吓人,感觉有上万字。没有人会这样做题,就象没有人象AlphaGo那样下棋,为了下一招棋,它能把整盘棋反复下完几万次,统计下赢的概率。没有人会象AI那样,耐心地去把可能的思考路线都去走走看。其中有些路线看上去很可笑,越推越乱。
8. 而这就是AI厉害的地方,看了这个过程,我确信AI做高考数学题满分是没有问题的。现在的AI的自然语言理解水平,已经能把数学题,“形式化”成机器可以理解的标准格式文字了。然后,对于这些数学条件输入,研究者就可以开发各种AlphaZero式的搜索大招,能让机器跑出一堆“中间结果”。而其中会用到不少“中间概念”,人类在语料中提供了充足的知识,机器知道去试某条相关的知识,不行就换一条试。以高考的数学水平,中间概念都必然是教过的,出现在语料中的,机器总会搜索了答案,然后回头检查过程正确,输出。
9. 而AI做数学题不如人类顶尖数学高手的地方,可能是发明一些“中间概念”,这些套路是语料中没有的,需要深刻的洞察力。例如证明一个结果,需要10个引理,有的是已经有的,有的容易,有的难。AI可能会得出1万种“内部结果”,但基本都是混乱的。特别是,AI不知道怎么将10个引理都弄出来,组合成一个精妙的结构。可能它弄出了6条,下次模拟弄出了另外4条,但没有一次能把10条有机组合起来。数学题,还是比下棋要难。