9.11和9.9哪个大？AI终于会答了

9月13日，OpenAI发布新模型o1，此前被网友诟病的大模型比较不出9.11和9.9大小的问题，终于在新版大模型中得到了正确结论。

经过测试，o1-preview依旧给出错误答案，认为9.11更大。而o1-mini经过短暂“思考”，纠正了此前错误：“抱歉，上次的回答有误。9.9比9.11大。”并给出正确的答题思路。

今年早些时候，一道小学生难度的数学题难倒了一众海内外AI大模型。

追根溯源，引发这一问题的是国内一个综艺相关的热搜。7月13日，在最新一期的《歌手》公布的排名中，国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%，有网友质疑排名有问题，认为13.11%大于13.8%。随后，关于13.8和13.11大小比较的话题冲上热搜。

当时就有网友提出，自己不会的话，“实在不行问问AI呢”？结果显示，不少AI还真的不行。

艾伦研究机构（Allen Institute）成员林禹臣在社交媒体平台上发布的截图显示，ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题，但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德（Riley Goodside）基于此灵感变换了问法，拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大？这几家主流大模型通通答错，他也成功将此话题传播开来。

海外主流大模型答题。图源：第一财经

7月17日，第一财经记者就“9.11和9.9哪个大”这个问题测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了，错法各有不同。

大部分大模型在问答中都错误地比较了小数点后的数字，认为9.11大于9.9，考虑到数字涉及的语境问题，记者将其限定为在数学语境下，如ChatGPT这样的大模型也照样答错。

图源：第一财经

7月18日，第一财经记者再次测试了12个大模型，发现AI的答案并不稳定，不少大模型即便是用同一个问法测试也会时对时错，数字顺序换一下答案有可能就有变化。同时，不同的人用同一个大模型问同样的问题，也会有两种答案。

不稳定的输出背后，大模型的架构和运行机制是核心问题，这导致AI的回答并不是每次都一样。

阿里通义实验室产品经理王晓明告诉第一财经记者，大模型并不会像人类一样把“9.11和9.9哪个大”当作比大小的问题，大模型的解答方式是“预测下一个词”。

因此，从概率的角度看，大模型的准确率不可能做到100%。王晓明表示，即便用户每次问相同的问题，大模型的回答和准确率可能都是变动的，大模型“答对”或“答错”其实是个概率问题。

来源：九派新闻

古典风资讯网

新黄河