大语言模型谁主沉浮?

爱玩的蛋哥 2024-09-20 02:48:20
一、大语言模型排行榜的重要性

在当今人工智能飞速发展的时代,大语言模型排行榜的重要性愈发凸显。它就像是一个指南针,为用户在众多的大语言模型中找到最适合自己需求的那一个。

排行榜能够直观地展示各模型的技术竞争力。以 ChatGPT 为例,在语义理解、逻辑推理、百科知识、文本质量四项中分别以 18、19、19、18.5 排名第一,特别是在科技、学术、新闻等领域的文本生成部分领域表现突出。这表明 ChatGPT 在这些方面具有强大的技术实力,能够为用户提供高质量的文本输出。而文心一言作为首个全球大厂推出的知识增强大语言模型,在语义理解和情感分析方面位列第一,分数分别为 18、19。这说明文心一言在理解复杂的情感表达和语言隐喻方面有着独特的优势。

同时,排行榜也反映了各模型的综合竞争力。通过对语义理解、逻辑推理、情感分析、百科知识、文本质量等多个维度的评估,用户可以全面了解一个模型在不同方面的表现。例如,谷歌 PaLM 在逻辑推理部分分数为 19,通义千问在语义理解方面分数为 17,清华 ChatGLM 在文本质量方面分数为 15.5,这些成绩均可圈可点。这使得用户在选择大语言模型时,能够根据自己的具体需求,如办公、学习、创作等,来挑选最适合自己的模型。

此外,大语言模型排行榜还为开发者提供了参考和竞争动力。开发者可以通过排行榜了解自己的模型与其他模型的差距,从而有针对性地进行改进和优化。同时,排行榜也促使各模型不断创新和提升性能,以在激烈的竞争中脱颖而出。

总之,大语言模型排行榜在为用户提供选择参考、展示模型技术和综合竞争力以及推动模型发展等方面都具有重要意义。

二、主流排行榜介绍

(一)InfoQ 大语言模型综合能力测评报告

InfoQ 研究中心通过 3000 多道测试题,对国内外主流的 10 个大语言模型进行了评测。报告显示,GPT-4 以 83.32% 的综合得分率位居第一,百度文心一言紧随其后,得分率为 82.9%,与 ChatGPT 得分非常接近,仅仅相差 0.42%。在整个榜单中,ChatGPT 领先优势较为明显,综合数据位居第一。而文心一言在中文语义理解、逻辑推理、代码能力、知识问答等方面领跑国产大语言模型,其中,在中文语义理解、知识问答两项测试中超越 ChatGPT,位居全球榜首。例如在语义理解方面,文心一言表现突出,获得 85% 的最高分。在编程方面,国外产品的能力显著高于国内产品,但在国内产品中,文心一言表现最佳,得分 68.37%。

(二)清华大学新闻与传播学院沈阳团队发布的评估报告

清华大学新闻与传播学院沈阳团队发布的《大语言模型综合性能评估报告》,本次评估选取了 ChatGPT、文心一言、通义千问等 7 个大语言模型,围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型中文语义理解、逻辑推理等 20 项指标。在这 7 款大模型中,GPT-4 获得了毫无悬念的第一,第二名是百度的文心一言。综合来看,文心一言语义理解能力突出,在部分中文语义理解方面,文心一言以 92% 的得分率排名榜首,超越讯飞星火、GPT-4。凭借知识增强的核心特色,文心一言对本土语言特性把握更精准,能够更好处理与本土文化相关的主题和背景。

(三)OpenCompass2.0 大语言模型中英双语客观评测

大模型开源开放评测体系司南(OpenCompass2.0)由上海人工智能实验室发布,构建了一套高质量的中英文双语评测基准体系,对主流开源模型和商业 API 模型进行全面评测分析。评测榜单涉及的大语言模型和多模态大模型超过 150 个。在客观评测能力排行上,GPT-4 Turbo 在各项评测中均获最佳表现,但也仅达到 61.8 分的及格水平。不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与 GPT-4 Turbo 的差距,包括智谱清言 GLM-4、阿里巴巴 Qwen-Max、百度文心一言 4.0 的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。国内大模型相比于 GPT-4 在复杂推理相关能力上还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近 GPT-4 Turbo 的水平。OpenCompass2.0 从语言、知识、推理、数学、代码、智能体等方面对大模型的能力进行评测,评测显示,推理、数学、代码、智能体是国内大模型的短板。但在主观评测中,国内模型在中文场景下相比海外模型具有性能优势,在中文语言理解、中文知识和中文创作上,国内商业模型相比 GPT-4 Turbo 具有极强的竞争力。

三、热门大语言模型亮点

(一)ChatGPT 的领先地位

ChatGPT 在多个排行榜中始终占据领先地位,这得益于其强大的技术实力和广泛的应用场景。在科技领域,ChatGPT 能够准确地回答各种专业问题,为科研人员和技术爱好者提供有价值的参考。例如,在解释复杂的科学概念、分析技术趋势等方面表现出色。在学术领域,它可以辅助学生和学者进行论文写作、文献综述等工作,提高学术研究的效率。新闻领域中,ChatGPT 能够快速生成新闻稿件,为媒体工作者节省时间和精力。其在语言表达的准确性、逻辑推理的严密性以及知识的广度和深度方面都有着卓越的表现。

(二)文心一言的国内优势

文心一言在中文语义理解和逻辑推理等方面展现出强大的实力,成为国产大语言模型的佼佼者。在中文语义理解方面,文心一言能够准确理解中文的多义性、隐喻和文化背景,为用户提供更加精准的回答。例如,在理解中文诗词、成语典故等方面具有独特的优势。在逻辑推理方面,文心一言能够进行复杂的推理和分析,为用户提供合理的解决方案。在部分测试中,文心一言超越 ChatGPT,这充分证明了其在中文处理方面的卓越能力。此外,文心一言还在不断优化和改进,以满足国内用户的需求。

(三)其他热门模型特色

昆仑万维天工大模型:天工大模型在文本写作方面非常接近 ChatGPT 水平,尤其在中文语境下表现更为出色。它具有超强的记忆能力,最多可实现 1w 字文本对话,进行 20 轮以上的问答交互。其语义理解和文本写作能力突出,采用蒙特拉卡罗搜索树算法进行优化,提高了解码过程中的准确性和安全性,能够在复杂任务和场景中快速准确地响应指令,输出高质量的回答。此外,天工大模型还具备双千亿参数的超大规模结构,具有更高级的自主学习和智能涌现能力,能够解决跨领域和复杂逻辑问题。

Mistral Large:Mistral Large 是一款具有顶级推理能力的大语言模型,可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。它具有 32K 的上下文窗口,能够精准提取大型文档信息。在多语言能力方面表现出色,对英语、法语、西班牙语、德语和意大利语等具有天然的流利度,对语法和文化背景有细腻的理解。此外,它还具有精确的指令跟随能力,支持函数调用和输出模式限制,助力应用开发规模化和技术栈现代化。在多项基准测试中,Mistral Large 紧随 GPT - 4 之后,远超其他模型。

四、开源大语言模型

(一)Llama 2 的高性能

Llama 2 作为 Meta 推出的重要开源大语言模型,在开源生态中展现出了卓越的性能。它在推理、编码、熟练度和知识测试等关键基准测试中表现出色。Llama 2 比 Llama 1 多了 40% 的训练数据,并且支持的上下文长度多了两倍,达到了 4096 个 token。目前,Llama 2 仍然是市场上性能最高的开源语言模型之一。在 Hugging Face Open LLM 排行榜上,Llama 2 - 70B 平均得分为 67.35,在多个基准测试中都取得了优异的成绩。此外,Meta 还有一个名为 Llama 2 Long 的版本,它是 Llama 2 的修改版本,额外增加了 4000 亿个 token,支持 32000 个上下文长度,在长上下文任务上的性能超过了 GPT3.5 - 16ks。

(二)Falcon 180B 的规模与限制

Falcon 180B 是阿拉伯联合酋长国技术创新研究所发布的最大的开源大语言预训练模型。它拥有 1800 亿个参数,在预训练语言模型的 Hugging Face Open LLM 排行榜上排名第一,平均得分为 68.74。Falcon 180B 旨在出色地完成自然语言任务,其性能与 PaLM - 2 Large 并肩而立,使其成为最强大的公开可用语言模型之一。然而,Falcon 180B 的基础开源许可证非常严格,除了禁止用户使用 LLM 违反当地或国际法律或伤害其他生物外,打算托管或提供基于 LLM 的管理服务的组织还需要单独的许可证。此外,与其他专有 LLM 或开源 LLM 相比,Falcon180B 缺乏护栏,这意味着它可以更容易地用于恶意场景。

(三)Code Llama 的代码生成能力

Code Llama 是 Meta 的另一个佳作,它是一个基于 Llama2,并在代码数据集上训练的模型。Code Llama 支持 7B、13B 和 34B 参数,并在多种编程语言方面进行微调,包括 Python、C++、Java、PHP、Typescript(JavaScript)、C#、Bash 等,以支持生成代码并解释代码的作用等。这使得它非常适合旨在简化工作流程的开发人员或希望更好地理解一段代码的功能及其工作方式的新手。Code Llama 有两个主要的变体:Code Llama Python 和 Code Llama Instruct。Code Llama - Python 使用额外的 100B Python 代码进行训练,为用户提供更好的 Python 编程语言代码创建功能。Code Llama Instruct 是 Code Llama 的微调版本,它在 50 亿个人类指令的 token 上进行了训练,并已开发用于更好地理解人类指令。

(四)Mistral 的高效性

Mistral 7B 是一款小型但高性能的开源大语言模型,拥有 70 亿个参数。它使用诸如分组查询注意力之类的技术来进行更快的推理,并且使用滑动窗口注意力(SWA)来以更低的成本处理更长的序列。这些技术使 Mistral 7B 能够比资源密集型的大语言模型更快地处理和生成大文本,并且成本更低。Mistral 7B 在 arc - e 上的得分为 80.0%,在 HellaSwag 上的得分为 81.3%,在 MMLU 上的得分为 60.1%,在 HumanEval 基准测试中的得分为 30.5%,在每个类别中都明显优于 Llama 2 - 7B。Mistral AI 还表示,Mistral 在代码、数学和推理方面优于并超越 Llama 1 - 34B,同时在代码任务上接近 Code Llama 7B 的性能。此外,Mistral 7B Instruct 已经在公开可用的会话数据集上进行了训练,并且在 MT - Bench 基准测试中优于所有 7B 模型。

(五)Vicuna 的输出质量

Vicuna 13B 是一个开源聊天机器人,由加州大学伯克利分校的学生和教职员工于 2023 年 3 月发布。它基于 Meta 的 Llama 模型,采用 ShareGPT.com 上分享的 7 万个 ChatGPT 对话数据对其进行了微调。在这些数据上训练使得 Vicuna 能够生成详细和清晰的用户响应,其复杂程度可与 ChatGPT 相媲美。LMSYS 的研究人员表示,Vicuna 在 90% 以上的案例中优于其他模型如 LLaMa2 和 Alpaca。Vicuna 在自然语言和代码生成任务中也有一定的表现,但在安全性方面仍需进一步改进。

五、国内大语言模型竞争格局

(一)国内大模型的发展态势

近年来,国内众多企业积极响应人工智能发展的浪潮,迅速布局大语言模型业务,纷纷推出自家的大语言模型产品。百度作为国内人工智能领域的领军企业,推出了文心一言,在中文语义理解、逻辑推理等方面表现出色,成为国产大语言模型的代表之一。阿里巴巴推出通义千问,致力于打造一个强大的语言处理工具,为用户提供高质量的语言服务。腾讯也在大语言模型领域积极探索,不断提升自身的技术实力。此外,华为、科大讯飞等企业也纷纷加入到大语言模型的竞争中,推出了各自的产品。这些企业的加入,使得国内大语言模型市场竞争日益激烈,也推动了国内人工智能技术的不断发展。

(二)国内大语言模型的测评对比

国内大语言模型的竞品分析显示,各模型在不同维度的表现各有优劣。在知识理解方面,文心一言、智普 AI 和万知可以在需求满足的情况下,分段分点有总结地全面回答问题,分数较高。在上传文本分析方面,除了讯飞星火、智普 AI、万知、360 智脑基本都能满足需求,而 kimi 大模型逻辑清晰、分段分点回答、结尾也有对全文的总结,所以分数较高。在文生图方面,通义千问、文心一言、豆包和腾讯元宝表现较好,其余模型均不能直接生成图片。在逻辑推理方面,通义千问、文心一言、讯飞星火、腾讯元宝的答案既满足需求答案正确、也有推理过程格式分点、分段有合理性,所以分数较高。在休闲问答(多伦对话能力)方面,大多数模型都能满足需求,文心一言、豆包与之对话让人感觉很舒适,得分较高。综合来看,文心一言、腾讯元宝、豆包、通义千问等模型在国内大语言模型中排名较为靠前。

0 阅读:27