周鸿祎在昨天的清华的五道口经济学家论坛上面谈到了这个问题,现在有很多种声音都说我们和美国的数据大模型差距很大?周鸿祎的态度完全相反,他说我们和美国在人工智能数据大模型上的差距不超过一年!
周鸿祎
理由如下他说大模型不像光刻机,他的算法和模型是开源的,所以我们国家相应的公司,比如抖音百度等等,他们就很快拿到了类似的模型自己来进行训练,出了一大批优秀的软件产品!
那么中美两国在数据大模型上真正的差距在哪里呢?
一、计算能力上
比如我们现在的网上如果全是八卦的话,那么数据大冒险他收集的全是八卦资料,如果你给他比较正规的出版社出来的通过人类审核的知识,那么他学习的就是精华,所以我们再给数据大模型投放食物的过程中,虽然有粗粮也有细粮,但我们的数量是大于美国的!所以我们整体的数据大型的学习能力数据采纳能力是要远远大于美国的!
二、数量和质量如何来平衡?
这就需要我们各个公司对数据来源进行严格的审核,因为数据模型很多东西是开源的,我们把这个价格拿来用的时候给他填充内容的时候就给他填充更加专业官方的内容,并且要通过审查机制,这样训练出来的数据,他会更加客观一些,而这个还需要我们各个公司,比如现在国内组成数据联盟的15家公司华为、腾讯、百度、阿里巴巴、抖音等等这些公司,因为他们采集的数据量巨大,所以他们要自己在数据优化上面做出更多的努力!
经济论坛
不要把人工智能变成人工智障他说通过一定的数量积累之后慢慢数据大模型,他就会有自己的学习能力,数量积累到某一个程度的时候,它就会出现一个科学上的名词叫做“涌现”,这个时候就是他进行自我分析和自我优化的时候!
我们以前理解的人工智能就是我没给他发让他做事情,是一个工具而已,但是当他有了学习能力之后,他就不是一个人工的智能障碍了,而是真正的有学习能力,认识能力的一个新型工具,才是真正意义上的人工智能,我们把书籍模型训练的程度的时候,其实我们和美国的差距真的是非常小的!