GPT-4omini上线,开发者开心!AI大牛说:大模型将开卷小参数!

科技每日十点见 2024-07-20 02:41:31

当地时间周四,OpenAI 宣布推出一款新的人工智能模型“GPT-4o mini”,并称是“今天可用的最具能力和成本效益的小型模型”。

GPT-4o mini 将在周四对 ChatGPT 的免费用户、ChatGPT Plus 和团队订阅者开放,下周将对 ChatGPT Enterprise 用户开放。

目前,GPT-4o mini 在 API 中支持文本和图片输入,但仅支持文字输出,未来将支持文本、图像、视频和音频输入和输出。

价格更便宜,性能也不错

GPT-4o mini的价格是每百万输入Tokens 15 美分,每百万输出Tokens 60 美分,比 GPT-3.5 便宜 60%,也比 Claude 3 Haiku 的 25 美分/125 美分和 Gemini 1.5 Flash 的 35 美分/70 美分更便宜。

与 GPT-4o 的价格相比,也值得一提:GPT-4o mini 每百万输入 5 美元,每百万输出 15 美元,输入便宜了 33 倍,输出便宜了 25 倍。

OpenAI 指出,“自 2022 年推出的能力较弱的模型 text-davinci-003 以来,GPT-4o mini 的每Token成本下降了 99%。”

OpenAI已经在几个关键基准测试中进行了评估,显示它的表现优于 Claude 3 Haiku 和 Gemini 1.5 Flash。

推理任务:GPT-4o mini 在涉及文本和视觉的推理任务中比其他小型模型表现更好,在 MMLU(文本智能和推理基准测试)上得分为 82.0%,相比之下 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。

数学和编码能力:GPT-4o mini 在数学推理和编码任务中表现出色,超越了市场上之前的小型模型。在 MGSM(衡量数学推理)上,GPT-4o mini 得分为 87.0%,相比之下 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。在 HumanEval(衡量编码性能)上,GPT-4o mini 得分为 87.2%,相比之下 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。

多模态推理:GPT-4o mini 也在 MMMU(多模态推理评估)上表现出色,得分为 59.4%,相比之下 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。

在 Livebench AI的 LLM 排行榜上,GPT-4o mini 也进入前十,整体得分与 Gemini 1.5 Pro 相近。

独立第三方的评估显示,GPT-4o mini 是目前最具性价比的模型。

OpenAI 表示,GPT-4o mini 凭借其低成本和低延迟,能够支持广泛的任务,例如串联或并行化多个模型调用的应用(例如,调用多个 API)、向模型传递大量上下文(例如,完整的代码库或对话历史),或通过快速、实时的文本响应与客户互动(例如,客户支持聊天机器人)。

为什么有 GPT-4o mini?

在GPT-4o mini推出之后,OpenAI CEO Sam Altman 表示,“向着智能更加便宜的方向(前进)……最重要的是,我们认为人们会非常喜欢使用这个新模型。”

OpenAI总裁Greg Brockman表示,“我们应开发者的广泛需求构建了 GPT-4o mini。我们爱开发者,并致力于提供最好的工具,将机器智能转化为各个领域的积极应用。请继续提供反馈。”

虽然推出时间很短,但是GPT-4o mini第一时间的上手体验获得很多开发者的好评。有开发者表示,非常推荐应用开发者切换使用GPT-4o mini。更有开发者直呼“GPT-4o mini太香了”。

刚刚官宣在教育领域创业的 AI 大牛 Andrej Karpathy 则从模型发展的趋势上发表了观点。他认为,“大型语言模型(LLM)模型尺寸的竞争正在加剧……但方向是相反的!”

Andrej Karpathy 预测,“我打赌我们会看到一些非常非常小的模型,但它们“思考”得非常好且可靠。”

Andrej Karpathy 指出,当前模型之所以如此庞大,是因为我们在训练过程中仍然非常浪费——“我们要求它们记住互联网……作为今天模型的标准(预)训练目标。模型必须首先变得更大,然后才能变得更小,因为我们需要它们(自动化)的帮助,将训练数据重构和塑造成理想的、合成的格式。

“这是一个改进的阶梯——一个模型帮助生成下一个模型的训练数据,直到我们剩下“完美的训练集”。当你用它来训练 GPT-2 时,按照今天的标准,它将是一个非常强大/聪明的模型。”Andrej Karpathy 说。

实际上,很多AI驱动的应用并不都需要像GPT、Claude或Gemini这样大模型的全部能力。对于简单但高频的任务使用标准大小的LLM是一种过度使用,既浪费金钱又浪费计算资源,只要训练、微调等工作做好,一些小参数的模型可能比大型版本的模型更快速、更具成本效益地执行部分任务。

0 阅读:0