只要你会“计数”,就比大模型要强不久前有一个著名问题,“strawberry”有

烨华聊商业 2025-03-31 17:41:12

只要你会“计数”,就比大模型要强

不久前有一个著名问题,“strawberry”有几个r,不少大模型都答错了,说2个,实际是3个。后来大模型打了补丁,这种问题似乎解决了。

刚我试了下改头换面的问题:对于字符串“~~~~~~~~~~~~~~~~~~~~~~~~~~~p”,它有多少个'~'符号?(实际是27个。)问kimi,长思考模式,它说是15个。问deepseek R1满血版,深度思考,过了很长时间,居然弄死机了,没给回答。

降低些难度,问:对于字符串“111111111p”,它有多少个'1'符号?这个kimi答对了。再问,对于字符串“p",它有多少个’’符号?kimi也答对了。再问,对于字符串“p",它有多少个”“符号?嘿嘿,kimi又说是15个。

所以,kimi像是对几个字符能数清楚,但多了就答15个,多了就不会数数。

再问deepseek,对于字符串“p",它有多少个’’符号?这回deepseek答对了,8个。

再问它,对于字符串“p",它有多少个”“符号?推理了一通之后,回答是35个,字符串总长是36,减掉一个p,是35个。这听上去很象回事啊,难道deepseek会?但实际上,正确答案是33个。

为什么会这样?这是因为,“计数”是一个抽象能力,人类会了就是会了。对问题进行各种改头换面,人类都能够按正确的计数办法,数手指头那样,算出个数。我们可以说,人类掌握了“通用计数”能力,这大家都有信心。

但大模型其实只会根据训练样本,算单词token之间的关联概率,会的招其实很有限。人类用海量的语料,教会了他很多“套路”。在计数上,也安排了一个套路。例如,算单词里r的个数,把字母一个个排列出来,能算清。

但是,人类只能用语料教基于统计的套路,教不了“计数”这个抽象能力。符号一多,它的套路就崩了。

从这么简单的“计数”能力看,大模型严重依赖训练语料教的套路,而非领悟到人类共同的计数能力。研发者只能打补丁去教它计数,但这种补丁肯定是打不完的,因为提问者会有各种变形办法来考验它。它如果没有实质掌握“计数”这个抽象能力,加再多素材也会被考倒。

可以说大模型的能力是有严重缺陷的,用现在这个统计架构,学不会“计数”这个抽象能力。外接工具能解决这个问题,但这就复杂了。实际这个问题很本质,并没有想象中那么好解决。

如果你担心大模型抢自己的饭碗,就让它计个数,稍长一些就不行了。

0 阅读:53
烨华聊商业

烨华聊商业

感谢大家的关注