北京时间 7 月 17 日,法国人工智能初创公司Mistral今天宣布推出两款新模型(LLM):一个基于数学推理的模型和一个面向程序员和开发人员的代码生成模型。后者采用了一种名为Mamba的新型AI模型架构。
Mamba 架构旨在通过简化注意力机制来提高大多数主流LLM所使用的transformer架构的处理效率。与更常见的基于transformer的模型不同,基于Mamba的模型可能具有更快的推理时间和更长的上下文。
现在,通过采用这种新架构,Mistral 新推出的 Codestral Mamba 7B的模型即使在处理较长的输入文本时也能提供快速的响应时间。Codestral Mamba非常适合代码生成,尤其是对于更本地化的编程项目。
Mistral对该模型进行了测试,该模型将可以在Mistral的la Plateforme API上免费使用,可以处理多达256,000个tokens的输入 - 是OpenAI的GPT-4的两倍。
在基准测试中,Mistral显示Codestral Mamba在HumanEval测试中的表现优于竞争对手的开源模型CodeLlama 7B、CodeGemma-1.17B和DeepSeek。
开发者可以通过其GitHub存储库和HuggingFace修改和部署Codestral Mamba。它将以开源Apache 2.0许可证提供。
Mistral声称,Codestral的早期版本的性能优于其他代码生成器,如CodeLlama 70B和DeepSeek Coder 33B。
编码助手已经成为大模型的典型应用场景之一,像GitHub的Copilot(由OpenAI提供支持)、亚马逊的CodeWhisperer和Codenium等平台越来越受欢迎。
用于数据推理的MathΣtral
Mistral的第二个模型发布是MathΣtral 7B,这是一个专门为数学相关推理和科学发现设计的AI模型。Mistral与Project Numina合作开发了MathΣtral。
MathΣtral有32K的上下文窗口,将采用Apache 2.0开源许可证。
Mistral表示,该模型在性能上超过了所有为数学推理设计的模型。通过更多的推理时间计算,它可以在基准测试中获得“显著更好的结果”。用户可以按原样使用它或对模型进行微调。
Mistral在一篇博客文章中表示:“MathΣtral是为特定目的构建模型时实现出色性能/速度权衡的又一例证 - 这是我们在la Plateforme中积极推广的开发理念,特别是通过其新的微调功能。”
MathΣtral可以通过Mistral的la Plataforme和HuggingFace访问。
Mistral最近在B轮融资中筹集了6.4亿美元,使其估值接近60亿美元,比半年前翻三倍。
Mistral AI成立于2023年4月,由DeepMind和Meta的前科学家共同组建,专注于开源模型及企业级服务。公司成立之初,获得了英伟达、微软和Salesforce等科技巨头的投资。Mistral AI被视为OpenAI在欧洲的主要竞争对手。