GPT-4omini上线，开发者开心！AI大牛说：大模型将开卷小参数！

当地时间周四，OpenAI 宣布推出一款新的人工智能模型“GPT-4o mini”，并称是“今天可用的最具能力和成本效益的小型模型”。

GPT-4o mini 将在周四对 ChatGPT 的免费用户、ChatGPT Plus 和团队订阅者开放，下周将对 ChatGPT Enterprise 用户开放。

目前，GPT-4o mini 在 API 中支持文本和图片输入，但仅支持文字输出，未来将支持文本、图像、视频和音频输入和输出。

价格更便宜，性能也不错

GPT-4o mini的价格是每百万输入Tokens 15 美分，每百万输出Tokens 60 美分，比 GPT-3.5 便宜 60%，也比 Claude 3 Haiku 的 25 美分/125 美分和 Gemini 1.5 Flash 的 35 美分/70 美分更便宜。

与 GPT-4o 的价格相比，也值得一提：GPT-4o mini 每百万输入 5 美元，每百万输出 15 美元，输入便宜了 33 倍，输出便宜了 25 倍。

OpenAI 指出，“自 2022 年推出的能力较弱的模型 text-davinci-003 以来，GPT-4o mini 的每Token成本下降了 99%。”

OpenAI已经在几个关键基准测试中进行了评估，显示它的表现优于 Claude 3 Haiku 和 Gemini 1.5 Flash。

推理任务：GPT-4o mini 在涉及文本和视觉的推理任务中比其他小型模型表现更好，在 MMLU（文本智能和推理基准测试）上得分为 82.0%，相比之下 Gemini Flash 为 77.9%，Claude Haiku 为 73.8%。

数学和编码能力：GPT-4o mini 在数学推理和编码任务中表现出色，超越了市场上之前的小型模型。在 MGSM（衡量数学推理）上，GPT-4o mini 得分为 87.0%，相比之下 Gemini Flash 为 75.5%，Claude Haiku 为 71.7%。在 HumanEval（衡量编码性能）上，GPT-4o mini 得分为 87.2%，相比之下 Gemini Flash 为 71.5%，Claude Haiku 为 75.9%。

多模态推理：GPT-4o mini 也在 MMMU（多模态推理评估）上表现出色，得分为 59.4%，相比之下 Gemini Flash 为 56.1%，Claude Haiku 为 50.2%。

在 Livebench AI的 LLM 排行榜上，GPT-4o mini 也进入前十，整体得分与 Gemini 1.5 Pro 相近。

独立第三方的评估显示，GPT-4o mini 是目前最具性价比的模型。

OpenAI 表示，GPT-4o mini 凭借其低成本和低延迟，能够支持广泛的任务，例如串联或并行化多个模型调用的应用（例如，调用多个 API）、向模型传递大量上下文（例如，完整的代码库或对话历史），或通过快速、实时的文本响应与客户互动（例如，客户支持聊天机器人）。

为什么有 GPT-4o mini？

在GPT-4o mini推出之后，OpenAI CEO Sam Altman 表示，“向着智能更加便宜的方向（前进）……最重要的是，我们认为人们会非常喜欢使用这个新模型。”

OpenAI总裁Greg Brockman表示，“我们应开发者的广泛需求构建了 GPT-4o mini。我们爱开发者，并致力于提供最好的工具，将机器智能转化为各个领域的积极应用。请继续提供反馈。”

虽然推出时间很短，但是GPT-4o mini第一时间的上手体验获得很多开发者的好评。有开发者表示，非常推荐应用开发者切换使用GPT-4o mini。更有开发者直呼“GPT-4o mini太香了”。

刚刚官宣在教育领域创业的 AI 大牛 Andrej Karpathy 则从模型发展的趋势上发表了观点。他认为，“大型语言模型（LLM）模型尺寸的竞争正在加剧……但方向是相反的！”

Andrej Karpathy 预测，“我打赌我们会看到一些非常非常小的模型，但它们“思考”得非常好且可靠。”

Andrej Karpathy 指出，当前模型之所以如此庞大，是因为我们在训练过程中仍然非常浪费——“我们要求它们记住互联网……作为今天模型的标准（预）训练目标。模型必须首先变得更大，然后才能变得更小，因为我们需要它们（自动化）的帮助，将训练数据重构和塑造成理想的、合成的格式。

“这是一个改进的阶梯——一个模型帮助生成下一个模型的训练数据，直到我们剩下“完美的训练集”。当你用它来训练 GPT-2 时，按照今天的标准，它将是一个非常强大/聪明的模型。”Andrej Karpathy 说。

实际上，很多AI驱动的应用并不都需要像GPT、Claude或Gemini这样大模型的全部能力。对于简单但高频的任务使用标准大小的LLM是一种过度使用，既浪费金钱又浪费计算资源，只要训练、微调等工作做好，一些小参数的模型可能比大型版本的模型更快速、更具成本效益地执行部分任务。

古典风资讯网

GPT-4omini上线，开发者开心！AI大牛说：大模型将开卷小参数！

科技每日十点见