超越GPT-4的机会,出现在千亿大模型开源之后

科技正能量 2023-12-05 20:52:52

ChatGPT的横空出世,引发了大模型时代的狂潮,据不完全统计,仅在中国正式发布的大模型已超过180个。

从今年3月到11月,仅仅用了3个季度的时间,GPT-4就快速迭代到GPT-4 Turbo,更长的上下文、更强的控制、知识升级、多模态、模型微调和更高的速率限制……能力提升的速度让整个业界为之震动。

其实如果国内大模型,仍旧保持传统的创新模式,要追上GPT的创新步伐是很难的。这个局面有点像传统软件时代,闭源软件巨头具有强大的先发优势,如果沿着这条既定的路线按部就班,只会反复不断的追赶,很难超越。

所以,大模型可以走出一条开源共创之路,吸引更多开发者,以生态化的方式迭代,这不失为一个跑出更快创新加速度的方式。

11月27日,浪潮信息发布“源2.0”基础大模型,并宣布全面开源。源2.0基础大模型包括1026亿、518亿、21亿等三种参数规模的模型,在编程、推理、逻辑等方面展示出了先进的能力。这会给行业带来哪些改变?

01

在三条主赛道找到突破方向

2023年可以看做是中国大模型的元年。一年以来,AI大模型如雨后春笋般层出不穷,浪潮信息的“源”大模型、文言一心、通义千问、讯飞星火、紫东太初等一批中国大模型正在快速发展,通过更为泛化的能力和无限的想象空间,赋予了行业智能化更为普世的价值,也给了开发者群体全新的期待。

“百模大战”,成为了大模型走上市场“风口”的最佳注解,但同时也带来了新的思考,大模型到底为什么而生?要解决什么问题?什么样的大模型能够最终走到最后?

浪潮信息人工智能软件研发总监吴韶华

浪潮信息人工智能软件研发总监吴韶华对市场现状表达了积极的态度,“百花齐放的模型路线,让我们能够更好地看到大模型的演进方向,这是百模大战赋予我们的时代机遇。”

事实上,大模型的诞生,最初要为了解决降低AI开发门槛的问题而来的。

如2021年,浪潮信息就发布了源1.0大模型,它的目标是提供一片广阔的肥沃土壤,通过开放大模型API,服务于开发者,降低AI开发者和行业用户的使用门槛,以更通用的人工智能大模型赋能科研创新、公共服务智慧化升级和产业AI化应用。

我们常说,一项事业的出发点决定了它的格局。源 1.0的发布就早在大模型的风口形成之前,它不是因市场“投机”而来,是为了实实在在的解决行业AI的问题而生。

所以我们能够从新近发布的源2.0大模型上,读出其独特的优势。

第一,在算法层面,正因为有了从1.0到2.0的迭代,源2.0得以在原有算法基础上做了高精度的提升,这就是局部注意力过滤增强机制(LFA),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确、更人性,提升了模型的自然语言表达能力,让模型的学习能力更强。

第二,在数据层面,源2.0做了大量细致的工作,针对数据质量进行高质量的清洗。以专业的数学数据为例,浪潮信息从12PB的原始数据集中,最终清洗出约10GB的高质量数据。以此类推,源2.0采用了基于大模型的数据生产及过滤方法,在保证数据的多样性的同时,也在每一个类别上提升数据质量。

第三,在算力创新上,浪潮信息提出了一种新的算法,非均匀流水并行的方法,其显著降低了大模型对芯片间P2P带宽的需求,哪怕遇到通信能力较低的场景,依然可以获得很好的性能。

源2.0打榜性能对比

我们知道,大模型离不开算法、数据和算力这三个层面的创新,源2.0显然在这三条主赛道上,都找到了创新的新方向。

02

千亿大模型开源,给了中国创新无限可能

在其大模型能力得到大幅提升的背景下,源2.0的开源就显得更为令人振奋。

事实上,大模型的开源今年在很多社区内部都有过讨论,国内也不乏开源的大模型存在。但在千亿参数量级上,全面开源的大模型,目前仅此一家。

吴韶华强调说,“源2.0千亿参数大模型的开源,是完全免费、完全可商用、不需要授权、最彻底的开源。我们鼓励大家去商用,去做各种各样的应用,不需要向我们申请授权,完全自由。”

对于1026亿、518亿、21亿三种不同参数规模的模型适用性,吴韶华则表示,“不同的用户可以自由选择适合他们的模型,而不一定必须是千亿参数规模。当然最强的能力,只有通过千亿参数模型才能体现出来,比如用这个模型去做高考水平的数学题,我们发现对于非常复杂的逻辑,依然能给出正确的求解。”

与此同时,浪潮信息还在开展千亿参数模型智能优化的工作,通过专门的性能优化团队,不断提升它在推理方面的性能,并持续让模型的资源开销和延迟都达到更好的效果。

当然,开源的价值,就在于生态,在于开发者的贡献,所以浪潮信息希望和各个领域的开发者,共同快速对模型能力进行持续的迭代。为此,浪潮信息发布了开发者共训计划,在计划当中,开发者提出自己的应用或场景的需求,由浪潮信息来准备训练数据并对源大模型进行增强训练,训练后的模型依然在社区开源。

每月六日,浪潮信息会收集前一月开发者提出的具体需求,开发者需要在github开源项目的issue“源大模型共训计划”问题下提出具体需求,只需说清楚具体的应用场景、对大模型的能力需求以及1~2条示例即可。然后,经过评审后列入当月模型训练计划,训练完成后的模型在当月月末就会更新到开源社区。开发者只需要提出需求,由浪潮信息来进行数据准备、模型训练并开源。

“提升了模型能力之后,源2.0依然是反馈给开发者,这是一个真正的普惠。浪潮信息会始终聚焦在基础模型层面,专心把基础模型做好,上层应用会留给元脑生态里面的各类合作伙伴,并通过伙伴去触达真正的行业应用,落地到具体行业应用。”吴韶华说。

03

未来大模型的演进路线

虽然,不同的大模型带来了不同的演进路线,但也会遵循一些共性的原则,比如对数据质量的要求。

事实上,过去一年中,一些小模型通过质量很高的数据源来学习,所表现出来的能力超过了参数量大十倍的模型,这说明衡量大模型的价值,数据质量将会是一个重要的因素。

除此之外,还有一个有趣的话题,就是基础大模型与行业大模型的辩证关系。

吴韶华提出,“各个行业是不是需要自己的行业大模型?可以通过GTP4来寻找答案,GTP4是一个能力强大的基础大模型,它没有行业属性,目标非常明确,就是通用智能。所以,基础大模型一定是最核心的部分,对于行业场景来说,基础大模型结合行业数据和行业知识库,进而在行业中实现更高效的落地。”

在此意义上,行业大模型可以看做是基础大模型在行业里的具体应用,而核心依然是基础大模型。

所以,当基础大模型的能力达不到GPT-4的水平,去谈商业模式都是为时尚早。这也是源2.0决定走向开源的背景,以更快的迭代能力追赶GPT-4,并由生态去向行业大模型延伸。这个思路,可以说是目前国内最有机会脱颖而出的路径。

同时也是浪潮信息推出开发者共训计划,坚定地推进开源策略,以商业模式的赋能合作伙伴,触达行业应用的本质所在。

0 阅读:12