Snowflake发布了新的大型语言模型(LLM)Arctic,在Apache 2.0许可下可用。该公司表示,Arctic独特的专家组合(MoE)架构,加上其相对较小的规模和开放性,将使公司能够使用它来构建和培训自己的聊天机器人、数字助理和其他GenAI应用程序。
与其构建一个规模庞大、需要大量资源来训练和运行的通用LLM, Snowflake决定使用MoE方法来构建一个更小的LLM,但可以提供同等水平的语言理解和生成能力,只需要一小部分训练资源。
具体来说,来自开发DeepSpeed的前微软研究团队的Snowflake研究人员使用了他们所谓的“密集- MoE混合变压器架构”来构建Arctic。这种架构将训练和推理请求路由到128位专家中的一位,这比其他MoE(如Databricks的DBRX和Mixtral)中使用的8到16位专家要多得多。
Arctic接受了所谓的“动态数据课程”的训练,该课程试图通过随着时间的推移改变代码与语言的混合来复制人类的学习方式。Snowflake的首席人工智能软件工程师、DeepSpeed的创造者之一Samyam Rajbhandari说,结果是模型显示出更好的语言和推理能力。
在性能方面,Arctic的得分与其他LLM类似,包括DBRX、Llama3 70B、Mistral 8x22B和Midtral 8x7B。这些基准测试测量的是企业用例,如SQL生成、编码和指令遵循,以及学术用例,如数学、常识和知识。
总的来说,“Arctic”配备了4800亿个参数,其中只有170亿个参数在任何给定时间用于训练或推理。与其他类似模型相比,这种方法有助于减少资源使用。例如,与Llama3 70B相比,Arctic消耗的训练资源减少了16倍。而DBRX则消耗了8倍以上的资源。
Arctic在一个由1000个GPU组成的集群上接受了为期三周的训练,这相当于200万美元的投资。但Rajbhandari表示,客户将能够对Arctic进行微调,并使用配备8个GPU的单个服务器运行推理工作负载。
Snowflake公司的人工智能主管Baris Gultekin表示:“Arctic在实现最先进性能的同时,效率也令人难以置信。”“尽管预算适中,但Arctic不仅比其他经过同等计算预算训练的开源模型更有能力,而且在我们的企业智能方面也表现出色,即使与那些经过高得多的计算预算训练的模型相比也不逊色。”
Arctic的首次亮相是新Snowflake迄今为止最大的产品,前人工智能产品经理Sridhar Ramaswamy在Snowflake出现糟糕的财务业绩后从前首席执行官Frank Slootman手中接过了最高职位。人们预计该公司将更大力地转向人工智能,Arctic的推出证明了这一点。但Ramaswamy很快就表达了数据的重要性,并重申Snowflake说到底是一家数据公司。“多年来,我们一直是数据领域的领导者,我们将把同样的心态带到人工智能领域。”“正如你们所知,没有数据战略就没有人工智能战略。好的数据是人工智能的动力燃料。我们认为Snowflake是这个星球上最重要的企业人工智能公司,因为我们是数据基础。我们认为,人工智能的房子将建立在我们正在创建的数据基础之上。”
Arctic是在一个宽松的Apache 2许可下发布的,允许任何人以他们喜欢的任何方式下载和使用该软件。Snowflake还发布了模型权重,并提供了一个“研究食谱”,允许开发人员从LLM中获得更多。Gultekin说:“这本“食谱“是为了加快任何人学习世界一流的MoE模型的过程。”“它为像Arctic这样的LLM课程提供了高层次的见解和细致的技术细节,因此任何人都可以高效、经济地构建自己想要的智能。”