GLM-4-9B来了,智谱AI给小模型注入了大能量

罗超频道 2024-06-05 16:28:15

国产大模型选手智谱AI,近日又有了新动作。官方最新消息,第四代GLM系列开源模型GLM-4-9B正式推出。

首先有必要简单解释下,在谈及大模型的概念时,会通过参数指标来进行区分。参数在10B(100亿)以下的,通常会被归类为小模型。因此,智谱AI现在发布的GLM-4-9B,也可以被归类到小模型的范畴中。

虽说是小模型,但GLM-4-9B的实力并不弱。根据官方介绍,在预训练时,GLM-4-9B获得了10T高质量多语言数据,是ChatGLM3-6B模型的三倍多。智谱AI认为,6B规模的模型性能有限,因此将其扩充至9B。

(图源:智谱)

据了解,GLM-4-9B各方面的能力都有显著升级,包括多语言、多模态、推理性能等方面。像GLM-4-9B的上下文处理从128K增加到了1M tokens,能够同时处理200万字的文本,约等于两部红楼梦。

GLM-4-9B还支持多达26种语言,包括汉语、英语、俄语、西班牙语、德语、法语、意大利语、葡萄牙语等等。这意味着,GLM-4-9B可以在全球范围内找寻到更为广阔的用户群体,满足不同语种用户的模型使用需求。

GLM-4-9B系列模型还细分出了多个版本,包括基础版GLM-4-9B(8K)、对话版 GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版 GLM-4V-9B-Chat(8K)。它们能够适用于不同场景,满足各自细分领域的具体需求。

另外,GLM-4-9B的函数调用能力有巨大升级,相比上一代提升了40%,在部分测试项目中,它的Function Call能力已经追上了GPT-4。

(图源:智谱)

部分人可能会好奇,既然市面上已经有大参数的大模型,为什么智谱AI这样的模型玩家,还要持续迭代更新小模型产品?

理论上来说,模型参数越大,能力上限自然更高。但是,参数过大,也会带来成本增长的问题。对市场、对用户来说,更想通过低成本获得高性能。因此,片面通过参数增长来提升模型性能,是一种比较粗放且不可持续的做法。

当前的大模型行业中,以智谱为代表的玩家们,执行的技术路线逐渐不再片面强调参数量,而是更加着重强调模型本身所具备的实际能力。说白了,就是它们能够用户带来什么实用的价值。

而此次发布的GLM-4-9B,一大亮点就是在10B参数规模以下实现了各项能力的大幅提升。在更加具体的模型产品上,GLM-4-9B也呈现出了较明显的价格优势,比如GLM-4-Flash综合能力提升了40%,但价格低至0.06元/M Tokens,堪称最能打的小模型。

GLM-4-9B的到来,也将给竞品们更大的压力,在小模型市场上,如何提升训练数据的质量,如何提升基础能力和控制成本,都将成为AI玩家们需要解决的问题。

0 阅读:5