这颗“草莓”，何以引爆世界？ - 财经资讯(古典风资讯网)

这两天，一颗小小的“草莓”，又一次将整个人工智能界推上了热搜，大模型在处理复杂的任务上，又推进了一大步，背后的创造者，依然是OpenAI！

具体说来，据多家媒体报道，北京时间周五凌晨1时许，OpenAI在官网突然发布公告称，开始向全体订阅用户开始推送OpenAIo1预览模型——也就是此前被广泛期待，内部代号“草莓”的大模型。

按照OpenAI的说法，对于复杂推理任务而言，新模型代表着人工智能能力的崭新水平，因此值得将计数重置为1，给它一个有别于“GPT-4”系列的全新名号。看来GPT-4的下一步，也可以不是GPT-5！

究竟强悍到什么程度？按照OpenAI官方说法“这是一个重大突破，新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题”，好家伙，这是要和科研工作者抢饭碗了？

而且这可能还只是“开胃菜”：OpenAI称，今天在ChatGPT和大模型API中新发布的是该系列中的第一款模型，而且还只是预览版——o1-preview，以及一个“缩小版”的o1-mini。并且目前使用有一定次数限制，o1-preview每周30条消息，o1-mini每周50条。

同时OpenAI还展示了目前正在开发的下次更新的评估。一句话，好戏还在后头呢！

正如前文所言，此次推送的“草莓”仅仅是一个预览版本——实际上早在发布之前的很长时间，市场就对其充满了期待，就在前几天，网上就有声音说“草莓将在两周内发布”，而知名爆料人JimmyApples则表示“一个模型（可能被称为GPT-4.5）预计会在10月发布”。

如今“草莓”的预览版已经推送，这也算是印证了上面“遥遥领先”的预言。至于正式版何时推送就不可知了。

需要指出的是，o1未必等于传说中的GPT-5，据外媒，“真正的”GPT-5很可能会在12月发布，但保险起见，说2025年第一或第二季度发布，是比较稳妥的。但由于完整GPT-5训练的复杂艰苦，“放鸽子”也不是没有可能！

这颗“草莓”多厉害？上知理化，下知奥数

不管是o1-preview还是o1-mini，虽然都只是“冰山一角”的预览版，但相比GPT-4o的提升，已经可以用“鸟枪换炮”形容——按照官方技术博客说法，o1在推理能力上代表了人工智能最强的水平，已经具有了初步的思维能力！

这是怎么做到的呢？在具体训练过程中，OpenAI会训练这些模型在回答问题之前深入思考。o1在回答问题前会产生一个内部的思维链，这使得它能够进行更深入的推理。通过训练，o1模型能够学会完善自己的思维方式，并且随着更多的强化学习（训练时间计算）和更多的思考时间（测试时间计算）而持续提高。

全新的o1系列，在复杂推理上的性能又提升到了一个全新级别，可以说拥有了真正的通用推理能力。

举个例子，“strawberry有几个r”这个经典难题，对o1来说自然是不在话下。这也是其被称为“草莓”的由来——居然答对了，为大模型再下一城！要知道，此前国内外多个花好稻好的大模型，都在这个看似简单的问题上败下阵来！

为什么简单的数数，会难倒一众编程都不在话下的大模型？关键还是思维模式的局限——大模型以“token”为单位的拆分方式出了问题！

在国内，Tokenization经常被翻译成“分词”。这个翻译有一定的误导性，因为Tokenization里的token指的未必是词，也可以是标点符号、数字或者某个单词的一部分。比如，在OpenAI提供的一个工具中，我们可以看到，Strawberry这个单词就被分为了Str-aw-berry三个token。在这种情况下，你让AI大模型数单词里有几个r，属实是为难它。

不过，经过实测，o1依然无法解决“9.11和9.8哪个大”的经典难题，严重扣分。

看似一个简单的问题，背后是大模型原理的重构，这一点来看，o1确实有点东西！不光数数能数准确了，o1还有成为中学奥数金牌选手，甚至科学家的潜质！

根据研究人员NoamBrown发布的社交内容，在一系列基准测试中，即使是目前已经公开的o1版本，相比GPT-4o也再次有了巨大提升，不但具有了奥数金牌潜在能力，在物理、生物、化学问题的基准测试中，更是直接超过了人类博士水平！

o1在数理科学方面突飞猛进，甚至超过人类专家

图片来源：社交媒体

具体说来，在美国数学邀请赛（AIME2024，国际数学奥林匹克竞赛（IMO）的资格考试，旨在测试美国最聪明高中数学学生的考试）中，GPT-4o只解决13%的问题，而o1推理模型得分高达83%，在Codeforces编程竞赛中，它的表现更进入了前89%的队列！

图片来源：OpenAI

至于理化生这样的科学领域，o1同样展现出惊人的潜力：为了将模型与人类进行比较，OpenAI聘请了拥有博士学位的专家来回答GPQADiamond基准问题。结果根据上图，在测试涵盖的很多领域内，o1的表现不仅胜过了GPT-4o，也是有史以来，第一个获得此成就的模型，甚至可与人类专家相媲美！这样下去，万千“科研民工”的饭碗还保不保得住？

不过现在就如此悲观大可不必：这些结果并不意味着o1在所有方面都比博士更有能力，只是该模型更擅长解决一些博士应该解决的问题，与人类的创造力依然不可同日而语！

当然o1也不是法力无边，也有相对的“短板”：根据公布出的数据，人类训练者对o1-preview和GPT-4o的提示进行匿名回答，并投票选出他们更喜欢的回答。在数据分析、编程和数学等推理能力较强的类别中，o1-preview的受欢迎程度远远高于GPT-4o。然而，o1-preview在某些自然语言任务上并不受欢迎（例如个性化写作方面，得分甚至低于GPT-4o）。

在需要更强大推理能力的领域，人们更青睐o1-preview

图片来源：OpenAI

可以看出，o1“横空出世”表现出的超强性能，将逻辑推理又提高到了一个新的级别，甚至让更多看似“高科技”领域的工作者大呼“狼来了”，它是怎么做到的？关键是思维模式的脱胎换骨！

思维模式“鸟枪换炮”，铸就全新大模型

o1系列模型与以往不同的是，它在回答问题之前，会用更多时间去“思考问题”，就像人类一样。通过训练，它们学会完善思维过程，尝试不同策略，并自主识别错误。这也是它不像其它大模型“秒出”答案，而是往往有一段“思考”的过程，这就是所谓的“Self-PlayRL”!

Self-playRL。全称是“自我对弈强化学习”，听起来很复杂，但AI博主“数字生命卡兹克”用一个简单的比喻就让我们理解了问题的本质：一个孩子学习下围棋。

按照传统的大模型的学习方式，就是看棋谱，记住开局布置，背诵一些固定的战术。它们学习了大量的数据，知道很多可能的解法，但可能并不真正理解为什么要这样下棋。

而Self-playRL，它则是让这个孩子不停地和自己下棋。刚开始可能下得很拉跨，但是通过不断尝试不同的走法，观察每步棋的结果，慢慢地，他会发现哪些策略更有效，哪些走法会输。这个过程中，孩子不仅仅是在记住棋谱，而是在真正理解棋局的变化，理解每一步棋为什么要这样走。

如果说得再简单一点，就好比数学的学习，如果按照传统大模型的方法，就是试图把尽可能多的习题答案，解题步骤全部背下来，然后看到题目就往上套——很明显，这是一种非常愚蠢的思路，因为总有题目套不上，而Self-playRL则更接近于正常的学习方法——举一反三，触类旁通！

总而言之，Self-playRL就是让AI不断地和自己“对弈”，可能是下棋，也可能是解决数学问题，甚至是进行对话。在这个过程中，AI不仅仅是在重复它看到过的内容，而是在主动探索、尝试和学习，就像人类的大脑一般——这个思路是不是有点熟悉？其实特斯拉的FSD，就是这个核心思路，运行、迭代、升级，形成思维链，最后的能力进化绝对非常恐怖！

OpenAI的研究负责人JerryTworek也表达了类似的观点，从以前的“要我学”转变为“我要学”。

其表示，o1模型背后的训练与之前的产品有着根本性的区别。之前的GPT模型旨在模仿其训练数据中的模式，而o1的训练旨在让其独立解决问题。在强化学习的过程中，使用奖励和惩罚机制来“教育”AI使用“思维链”来处理问题，就像人类习得拆解、分析问题的方式一样。

o1已经开始能通过推理，解决一些简单的物理问题，在公布的演示中列举了一个例子，一颗小草莓被放在一个普通的杯子里，杯子倒扣在桌子上，然后杯子被拿起，询问草莓会在哪里，并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

落地到具体的应用中，o1还能成为医生的得力助手，比如帮助医生整理总结的病例信息，甚至辅助诊断一些疑难杂症。热衷于将AI与科学相结合的量子物理学家马里奥・克莱恩（Mario Krenn）也向o1模型提出一个关于特定的量子算符应用的问题，结果也被轻松拿捏。

有了这么多的成功例子，相信不久的将来，分辨“9.11和9.8哪个大”对o1而言，也将易如反掌！不过也有人担心，这么大的训练量，现有的硬件条件能承受么？此次推出的o1 mini，在一定程度上达成了性能与资源的平衡。

“小而美”的o1 mini，性能几何？

由于 o1 等大型语言模型是在大量文本数据集上预训练，虽然具有广泛世界知识，但对于实际应用来说，可能成本高昂且速度慢——需要考虑所有可能情况，不慢才见怪了！。

相比之下，o1-mini 是一个较小的模型，在预训练期间针对 STEM 推理进行了优化。在使用与 o1 相同的高计算强化学习进行训练后， o1-mini在许多有用的推理任务上实现了相媲美的性能，同时成本效率显著提高。据官方宣称，o1-mini的成本比o1-preview低80%。

成本的降低，是以“专一性”的增加为代价的：比如在需要智能和推理的基准测试中，与 o1-preview 和 o1 相比，o1-mini表现良好。但它在需要非数学和科学事实知识的任务上表现较差。

以数学能力为例，在高中 AIME 数学竞赛中，o1-mini (70.0%) 与 o1 (74.4%) 不相上下，但价格却便宜很多，并且优于 o1-preview (44.6%)。o1-mini 的得分（约 11/15 个问题）大约位于美国前500名高中生水平之列，其它方面就不一一列举了。

Mini版本在数学领域表现比完整版不遑多让，甚至超越preview版

图片来源：OpenAI

尾声

大模型不断迭代的背后，是人工智能的不断成熟，乃至于思维范式逐渐接近真正的人。然而“人工智能”变“人工智障”同样屡见不鲜。那么人工智能的突飞猛进到底对社会是福是祸呢？且待时间回答！也欢迎各位财友多多评论~

免责声明（上下滑动查看全部）

任何在本文出现的信息（包括但不限于个股、评论、预测、图表、指标、理论、任何形式的表述等）均只作为参考，投资人须对任何自主决定的投资行为负责。另，本文中的任何观点、分析及预测不构成对阅读者任何形式的投资建议，亦不对因使用本文内容所引发的直接或间接损失负任何责任。投资有风险，过往业绩不预示未来表现。财经早餐力求文章所载内容及观点客观公正，但不保证其准确性、完整性、及时性等。本文仅代表作者本人观点。