DeepSeek 把大模型最大的问题弄明白了。很会写但“读”的水平很低,没有理解。人类最大本事是理解
1. 大模型三大绝招,一大致命bug。三大绝招,第一是知识压缩,几乎所有人类知识都在训练素材里。效果惊人,无所不知,什么风格都会。这确实是革命性思想,全包进去反而最强,以前没有这样的产品。
2. 第二大招,RLHF,人来给它的输出打分,建立一个打分器,自动评估输出训练改进。这样大模型输出符合人类习惯,对话风格活泼,写诗写文的“文字”水平极高。有些文字意境深远,哲学、感悟都很厉害。
3. 第三大招,深度思考长思维链COT。自己看题目和答案摸索出解题过程,高考数学100分,奥数金牌。领域知识组织输出,规划流程,编程写代码。许多人被大模型的思维能力震惊,没想到它的思考这么像人。
4. 以上三大招,都是在模拟输出,让人满意。人看输出越来越满意,“写作”、“做题”的水平已经吊打最厉害的人类考试高手。但是,这都是模仿人类得出来的。目前还没有一个数学命题是AI先证明的。AI也没有写出一个很好的小说,没有写出思想深刻的分析文章流传。更为严重的是幻觉,编造事实胡扯起来很自然,虽然联网搜索缓解了症状。
5. 大模型最大的bug,就是作为读者,存在严重bug。它完成一些“阅读考试”“文章总结”这些任务没问题,但都是概念定义明确清楚的,数学题概念都很明确。我让deepseek说出2月13日哪吒单日票房,联网加深度思考,它看新闻知道当日票房破百亿,但是连是3亿多还是4亿多都搞不kimi也不行。
6. 这是因为“单日票房”是需要人类分辨的概念,需要理解。而这方面恰恰是信息过多,到处都是票房的新闻,还有几种概念,含预售、海外、分账票房等等,大模型就晕了。它没有办法建立单日票房的概念,简单数学公式建立不起来。
7. 同样,deepseek写古诗水平极高,从“文采”来看,唐宋没有人比得过了。但是,这些就是文字排列组合的功夫,北大中文博士打分。最大的问题是,没有理解,看诗等于token,知道token这样组合人类博士打分高。不知道为什么分高,训练逼的,自己写的诗不知道什么意思。没有理解,就没有办法写出很好的有创新中心思想的文章,也观察不出社会现象和数据的意义。
8. 例如让它写公文总结,像模像样完成任务。但是,要写出思想性就不容易了。很多事还得人类自己去理解问题,把逻辑串起来,还得防备它幻觉胡扯。只能当工具,没有思想、没有灵魂、没有理解。用来当客服就会发现,最大问题是不理解人们在说什么。
9. 可以确定,现在AI水平的天花板就是理解。AI从原理上就没办法理解问题。它知道token之间的关联,按次序输出token模拟人类输出。这不是理解,这是文字排列组合算法。人类的理解能力非常厉害,还有感情、知觉,都是大模型取代不了的。