9.11和9.9哪个大?AI终于会答了

新黄河 2024-09-13 16:00:54

9月13日,OpenAI发布新模型o1,此前被网友诟病的大模型比较不出9.11和9.9大小的问题,终于在新版大模型中得到了正确结论。

经过测试,o1-preview依旧给出错误答案,认为9.11更大。而o1-mini经过短暂“思考”,纠正了此前错误:“抱歉,上次的回答有误。9.9比9.11大。”并给出正确的答题思路。

今年早些时候,一道小学生难度的数学题难倒了一众海内外AI大模型。

追根溯源,引发这一问题的是国内一个综艺相关的热搜。7月13日,在最新一期的《歌手》公布的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%,有网友质疑排名有问题,认为13.11%大于13.8%。随后,关于13.8和13.11大小比较的话题冲上热搜。

当时就有网友提出,自己不会的话,“实在不行问问AI呢”?结果显示,不少AI还真的不行。

艾伦研究机构(Allen Institute)成员林禹臣在社交媒体平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,他也成功将此话题传播开来。

海外主流大模型答题。图源:第一财经

7月17日,第一财经记者就“9.11和9.9哪个大”这个问题测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。

大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9,考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。

图源:第一财经

7月18日,第一财经记者再次测试了12个大模型,发现AI的答案并不稳定,不少大模型即便是用同一个问法测试也会时对时错,数字顺序换一下答案有可能就有变化。同时,不同的人用同一个大模型问同样的问题,也会有两种答案。

不稳定的输出背后,大模型的架构和运行机制是核心问题,这导致AI的回答并不是每次都一样。

阿里通义实验室产品经理王晓明告诉第一财经记者,大模型并不会像人类一样把“9.11和9.9哪个大”当作比大小的问题,大模型的解答方式是“预测下一个词”。

因此,从概率的角度看,大模型的准确率不可能做到100%。王晓明表示,即便用户每次问相同的问题,大模型的回答和准确率可能都是变动的,大模型“答对”或“答错”其实是个概率问题。

来源:九派新闻

1 阅读:528