汉字的优势从APP霸榜就能体现,现在来到了大模型
1. 中国APP在美国榜单上,都能在前十占据6个位置。以前印度榜单上也是一大堆中国APP,后来被禁了一堆,近期又有36个悄悄回来了。在全球各国经常有中国APP忽然火起来。这是什么原因?
2. 法国电视节目讨论了,一个妹子对中国很熟悉,有中国男友。她解释说,这是因为中国人用汉字,是二维表意的,而西方人是一维线性文字。这导致了思维方式的根本不同,中国人更关注文字、画面的整体,而西方人更关注局部、焦点。例如西方APP界面,需要突出一个按钮,一个文字提示;而中国APP先给人整体的感觉,布局会更为深远考虑,一层层推进。
3. 妹子说,这个思维让中国APP明显有设计优势,有很多优秀的设计,能更好满足客户要求,快速满足常用需求。如所有中国APP都能快速完成支付,而西方的需要设置一堆东西,有时要几十分钟。
4. 近期大模型让全球进一步认识到了汉字的优势,有的西方大模型居然用汉字思考了。不少西方人惊讶,在受到严重限制的情况下,中国居然迅速在大模型上取得了突破。有的西方使用者评论说,deepseek在英文“创意写作”上表现极好。这是汉字体系优势的另一个表现,而且更为本质。
5. 汉字表意,不仅有二维的整体特性,在“词元”token之间的关联上,与英语等线性文字体系,有截然不同的拓扑结构。大模型最大的任务就是为各种词言的词元建立关联权重,汉字明显有优越性,关联更有逻辑,如猪肉、牛肉、鸡肉,一月、二月、三月,关联非常自然,在英语里却全是看上去没有相关性的词。而且汉字能够轻松扩展包含融合进新概念,不需要发明新字,甚至可以减少许多字。汉字体系是“先难后易”,学会了随便看点什么知识水平就不断进步,而西方社会容易产生知识非常贫乏的人,很多成年人阅读理解能力相当成问题。
6. Deepseek的性能进步,除了大模型数据结构、训练算法、代码优化,新闻里没有说的,是对中文训练数据的整理、评估。业界传Deepseek非常重视数据标注,梁文锋自己都来打标,请北大中文博士来打标。高质量的数据,就象严师,让Deepseek R1有了非常强大的中文能力。它似乎以中文思维为底座,有了不一样的灵活思维,群众普遍反应和以前的大模型不一样。即使用英文输出,在创新写作上也能表现出能力。
7. 因此,Deepseek取得性能突破,很可能受益于中文体系。一个简单的事实是,只有中文和英文能够以自己为主,构建对人类知识体系的完整理解。许多语言甚至连科学词汇都没有,生造新词也不行,还不如改学英文或中文。
沉浮
民国期间有不少所谓的“文化名流”,主张摒弃汉字。学习简单的文字,其中不乏“鲁迅”这样的文人骚客!如果看见今日汉字的能力。恐怕棺材板上的大钉都得拔起来了吧?