大模型里中文优于英文。Deepseek用128重“视角”审视,深入发掘了中文体系的神奇
现在很明显了,在AI看来,全球文字就只有两种值得分析,英语与汉语。别的语言没有办法竞争,都有严重缺陷,
很多语言,和英语出于同门,都是字母文字,英文到处借了不少词。同体系语言,不可能比英文语料更强。美国大模型显然英语中心论,技术牛逼,照顾你们别的语言也给训练输出。
其它语言,基本都不行。如韩文自己发明的,没有汉字造成麻烦。日文体系有大量汉字,还混杂了英语发音当名词,体系非常乱。南亚梵文,语法词汇复杂,文字还变形,流传到东南亚影响了泰文、老挝文。还有埃塞俄比亚的阿姆哈拉文,过于简单,表达不了复杂意思。梵文等不少语言问题是科学技术文章少,大模型就看不上了。
中文是唯一对手。汉语有极佳开放性,描述现代社会、科学技术没问题,还焕发出了强大的生命力。中文素材种类丰富,科技文章也多,还能融合英文名词。中文是唯一可以与英文对标的素材库。
有人说,汉字二维,字母文字一维。这不重要,大模型里汉字都转成了token。词汇表里,都是token1、token2...,用整数代表。Deepseek词汇表有12.9万个token,AI只看token,所有文字都一样。
但token之间的联系,有明显的团块,分语种扎堆。大模型预训练,就是在建立token之间的复杂联系。一个token就有好几千维的浮点数,用这么多维度去和别的token建立联系。Deepseek用61层,每层约10个大矩阵,实现“注意力”,也就是文字之间的关联。然后最关键的是,一套矩阵是一种审视的“视角”(如语法关联),Deepseek建立了128种视角去看同一段话(如逻辑关联)。也就是61层,每层128套矩阵,每套10个矩阵。每个矩阵都是7000*7000这么大。
英文世界,它不和中文发生关联。英文素材里没中文,读者不懂。但中文素材有不少英文,自然融入。也就是说,英文没法融合中文!如果以英文主打,大模型会拒绝中文。但中文却可以自然融合英文!将英文名词放中文里,毫无问题。中英夹杂输出,一定是中文主导。
大模型发现,中文的权重关联团块中,自然“导入”了英文那边的知识,一个名词就导过来了。而英文那边没法导入中文知识。外国人不知道中国的情况,中国却对外国比较了解,AI世界情况类似。
AI是哪个语言好用,就在哪努力。除非强迫它用英文思考,不许中文,那能力又不行了,和中国相关的问题拒绝回答。AI决定,中文主导、融合英文!AI就是模仿人,人类就是这个自然倾向。要么英文主导,中文白痴;要么中文主导,中英俱佳。素材往那一放,自然就是如此,OpenAI也没办法。
而且就象许多人分析的,中文内在联系丰富,表达高效,思考深入效率高。又高效,又能自然融合英文,AI自然喜欢用中文。
所以,OpenAI的o3-mini,即使问题是英文,问题本身也和中国、中文无关,它还是忍不住用中文思考,再用英文输出最终结果。
而deepseek的高水平,是在中文素材上下了很大功夫,动用了128重视角,终于把中文玩得很熟练了。它在中文上的水平,真正让人服气了。以此为基础,思考水平非常高。
网络游客
所以中文会是地球上的终极语言👍🏻
ssscwb
老祖宗的智慧深谟远虑
チツ天堂口~ 回复 02-08 18:03
你觉得是老祖宗在4000年前就预算了AI的发展,而留有后手吧?[开怀大笑]
用户17xxx37
就问薑葱蒜都是草本植物吗,人也好Ai也好,一看草字头就归类了,全是草本植物,英语就复杂了。鸡鸭鹅都是鸟类吧?一看都是带鸟的,自然全是了,英语要分清就复杂了。
星辰大海
原来如此!汉字还有这个优势。