讯飞星火全面对标GPT-4 Turbo
6月27号,科大讯飞正式发布讯飞星火大模型V4.0,并展示了其在医疗、教育、商业等多个领域的人工智能应用。
据介绍,讯飞星火V4.0七大核心能力全面升级,不仅在8个国际主流测试集中排名第一,领先国内大模型,并在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现了对GPT-4 Turbo的整体超越。
什么叫整体超越,就是星火V4.0比Chat GPT4 Turbo的每一项能力都好吗?并不是。
大模型的衡量标准以及功能较多,并不能简单下定论。
首先我们要明确讯飞星火是中国第一个基于国产算力训练出来的全民开放的大模型。
什么是全民开放大模型?就是国家网信办等八个部委联合认证,用户可以随时下载使用的大模型。当时是唯一的,直到讯飞星火V4.0发布还是唯一的。
在全国产算力平台上训练的大模型,所有算法都是自主可控的,每一行码、每一个数据都是讯飞自己编写、自己清洗出来的大模型。
一定程度上,今天星火大模型V4.0的发布对完全自主可控的大模型究竟走到了什么样的发展阶段,具有非常重要的标志意义。
那么在这个基础上,讯飞星火V4.0到底到了什么水平?
正如前文所提,讯飞星火V4.0已经实现了(大家公认最好的通用认知大模型)GPT-4 Turbo的对标,在文本生成、语言理解、知识问答、逻辑推理、数学这些能力上都已经实现超越,在代码和多模态能力上还有差距。从整体看来,大部分能力都是超越了GPT-4 Turbo的。
图源:科大讯飞官方公众号
虽然代码能力和多模态能力暂时与GPT-4 Turbo有一定差距,但是多模态有一个非常重要的应用,就是图文识别。
无论是医疗领域,能不能看懂电子病历、看懂体检报告;还是教育领域,能不能看懂笔记、看懂考卷;以及在司法、金融、科研、办公等各个领域的应用,图文识别能力都是至关重要的。
而科大讯飞的图文大模型以及星火大模型中的图文能力,在国际上现在也是先进的。
讯飞将星火V4.0与GPT-4o做了对比,因为GPT-4o在多模态方面,特别是图文上面比GPT-4 Turbo要强。结果证明,与5月14日OpenAI发布的GPT-4o最新版本相比,各个专门领域讯飞星火V4.0的效果都比它好。
图源:科大讯飞官方公众号
在中文领域,讯飞星火V4.0实现了对标GPT-4 Turbo,那么在英文领域怎么样?
讯飞也公布了国际各种主流机构给出来的,最主流的中英文测试集的结果。
测试集中绝大部分是英文,中间有理解推理、综合考试、数学科学和代码等维度的测试。可以看到,一共12项主流测试集,绝大部分是英文的,讯飞星火V4.0有8项实现了超越。
图源:科大讯飞官方公众号
很显然,讯飞星火已经全面对标了GPT-4 Turbo,并且在整体上已经超越了GPT-4 Turbo。
星火V4.0的能力和应用
在发布现场,科大讯飞董事长刘庆峰和研究院院长刘聪一个发表演讲,一个真机实测,向广大个人用户和企业用户回答了两个问题:
今天,中国的大模型底座能力到底怎么样?今天,风起云涌的大模型究竟如何应用落地?
我们首先来看第一个问题。
早在去年10月17日,英伟达因为美国商务部的要求,对中国所有能训练大模型的智能算力全面断供。而就在今年的6月25日,OpenAI也正式通知将从7月9日开始终止所有来自中国的API申请。
在这样的背景下,国内大模型的底座能力就十分重要了。底座能力强,便能接住这波“泼天的富贵”;底座能力差,就会被这股浪潮淹没。
新升级的讯飞星火V4.0很显然是拥有比较强劲的底座能力的。
在谈到讯飞星火V4.0的底座能力之前,我们可以先来明晰一下什么叫大模型的底座能力。
大模型底座能力是指为大模型应用提供基础支撑和开发环境的一系列技术和服务。它包括了多个关键组件和功能,旨在简化和加速大模型的开发和应用过程。
大模型底座能力的核心组成部分有资源服务层、模型服务层、知识服务层、应用开发层、业务中枢层、并行策略和训练优化、端到端自适应训练等。通过这些能力,大模型底座能够显著降低大模型应用的开发成本,提高开发效率,并加速其在各个行业中的智能应用落地。
简单来说,就是大模型的知识储备量、各类问题处理能力以及在许多设备上同时进行运行、处理和创作的水平。
为了说明星火V4.0的底座能力,刘庆峰给用户讲解了星火V4.0做到的两个任务。
一个是星火创作的高考语文作文。
作文发表在“重庆日报新重庆客户端”,是6月7日12:10星火大模型创作的。
这篇作文不仅在人工智能圈一个大佬云集的微信群里,被大家专门拿出来作为一个经典案例点赞,而且很好地运用了排比、引用、论证等写作手法。当时有很多人给了评分,在满分是60分的情况下,最低的给了52分。
图源:科大讯飞官方公众号
这足以说明星火V4.0的知识储备丰富、逻辑清晰,语言水平高。
另一个是星火在科研上与专家团队合作产出的论文和成果。
星火和中国科学技术大学生命学院刘海燕教授团队的合作,用大模型中基于条件扩散模型的蛋白质主链设计算法SCUBA-D,能够从头生成自然界不存在的蛋白质,并且这个蛋白质已经应用于实践了。研究的文章也已经被《Nature》收录了。
这就清晰反映出了星火的创作能力以及其对科技的赋能加成。
图源:科大讯飞官方公众号
再来看第二个问题。
大模型该如何应用落地?也就是说我们要让大模型落到实处,变得真正有用。那对谁有用呢?
首先一定是广大的个人用户们。星火V4.0就是广大用户的日常生活、工作、学习的助手。
其次就是广大企业用户,通过大模型强大的计算、语言等能力,不仅可以提高企业的工作效率,也可以减少企业的用人成本。
在针对个人用户的日常使用方面,星火V4.0让AI从通用助手变成了懂用户的助手。
讯飞在星火V4.0的app中增加了“个人空间”,让用户的文章写得更有个人特点,有人设。用户也可以自己存放自己的学习、工作、生活与健康等相关内容,从而使得它更加个性化,更加具备自己的专业知识。
图源:科大讯飞官方公众号
与此同时,讯飞星火还将用户使用多、实用性强的医疗助手、学习口语的英语听说助手,数学解题、代码等这些功能全部都放在一起,做了非常方便快捷、可以调用的智能体。
针对企业用户,讯飞也打造了企业专属的大模型。
图源:科大讯飞官方公众号
这些足以说明,星火V4.0并不是一个只能看不能用的“花架子”。
竞争激烈的国内AI大模型
除了科大讯飞,国内还有许多公司都盯紧了AI大模型这片蓝海。
百度、阿里巴巴、华为、腾讯、月之暗面(kimi-ai的开发公司)和智谱AI(智谱清言的开发公司)等企业都各有所长。
百度的文心大模型以其产业级知识增强特性在行业中占据优势,通过整合海量数据和知识图谱,百度强化了模型的理解和推理能力。此外,其飞桨深度学习平台为大模型提供了从开发到部署的全流程支持,有效降低了AI技术的应用门槛。
阿里巴巴的通义大模型系列,覆盖了广泛的应用领域。其大模型在电商、医疗、法律、金融等行业的深入应用,是其他大模型目前难以企及的。
华为云推出的盘古大模型,以其全栈式AI解决方案在行业中独树一帜。盘古大模型结合了华为的昇腾AI处理器和MindSpore计算框架,提供了从基础模型到行业应用的全链条支持。
华为在算力和软硬件协同优化方面具有明显优势,推动了AI大模型的商业化落地。
腾讯的混元AI大模型则通过其HCC高性能计算集群提供底层支持,覆盖了NLP、CV、多模态等领域。
腾讯在社交、游戏等拥有庞大用户基础的领域,利用丰富的数据资源和场景优势,推动了大模型的快速迭代和应用创新。
月之暗面的Kimi智能助手集成了多语言对话、文件处理和搜索能力,也逐渐进入大众视野。
智谱AI以其快速迭代和对话大模型的研发能力在行业中崭露头角。智谱清言也受到了广大用户的肯定。
随着人工智能时代的到来,AI大模型会在我们的日常生活中越来越常见。但正如刘庆峰说的:“每一次人类文明进步的背后都有一个了不起的助手,每一代助手都有它的使命。”
AI大模型的使命就是服务于我们的生活。因此,国内的AI大模型不管如何竞争,最后的落脚点都只能是——让科技便利生活。
作者 | 金江