编辑:编辑部 HXZ
【新智元导读】昨天谷歌DeepMind首席科学家的推文,让不少人替谷歌扼腕叹息:明明o1的技术,谷歌已经连发多篇论文,最终为何还是被OpenAI截胡?大模型果然不存在护城河啊。o1的发布,直接带OpenAI迈入新的台阶。
就在刚刚,Sam Altman自豪发文表示:虽然花了一些时间,但OpenAI已经实现了第三个目标!
值得一提,这篇2016年的博客文章,作者是Ilya Sutskever、Greg Brockman、Sam Altman和Elon Musk。
目标1:衡量我们的进展
目标2:打造一个家用机器人
目标3:构建一个具有实用自然语言理解能力的智能体
目标4:使用单一智能体解决多种游戏
八年后,OpenAI真的把目标3实现了。
o1模型为什么如此重要?用Fixie创始人、AI研究员Matt Welsh的话说,原因就在于,它将AI模型中的「思维链推理」能力带给了大众。
推理能力直接内置于模型中,无需借助额外工具就能达到类似效果。我预计这将大幅提高人们对AI模型能力的期望。
然而大家很快发现了「华点」:一旦向o1询问CoT过程,就会收到「封号」警告。
这是为什么?
众网友由此猜测:o1可能并不是一个新模型,而是更小的模型与gpt协同工作,亦或只是提示工程。
如果公布完整的思维链,可能就会有人根据模型在思考时产生的推理痕迹进行训练,从而得到更好的开源模型。
因此,OpenAI对o1的思考过程讳莫如深,藏得很好。
更绝的是,有人发现,o1背后的技术原理,谷歌也早就发现了。
遗憾的是,他们因速度太慢,再次被OpenAI截胡。
谷歌也发现了,但OpenAI更快
o1之所以在性能上实现碾压式飞跃,就是因为它首次在LLM中实现了强化学习和CoT,让LLM真正学会了思考。
但其实,谷歌DeepMind一篇8月发表的论文,就发现了测试时计算比扩展模型参数更有效。
这篇论文,恰恰揭示了o1的工作原理。
论文地址:https://arxiv.org/pdf/2408.03314v1
而早在今年1月,谷歌和斯坦福的研究者就在这篇ICLR 2024论文中提出,思维链赋能Transformer,能解决本质上的串行问题。
论文地址:https://arxiv.org/pdf/2402.12875
就在昨天,谷歌DeepMind首席科学家Denny Zhou发文表示:「LLM推理能力的极限是什么?天空才是极限」。
他cue到这篇论文,总结道:「我们已经用数学方法证明了,Transformer可以解决任何问题,只要允许它们根据需要生成任意数量的中间推理token。」
这篇论文的核心思想也是说,只要给够LLM时间,通过一系列中间推理token去思考,它就能解决全部问题。
可见,谷歌在技术原理上早已达到很先进的程度,但并没有切实落地到产品上,因此才一再被OpenAI截胡。
Abacusai CEO锐评道:谷歌的研究水平是顶尖的,但模型却是落后的。
而且,她还cue到了谷歌不为开发者所喜的Gemini,简直是太扎心了。
具体来说,谷歌DeepMind在8月的论文中提出,让LLM进行更多的「测试时计算」(test-time computation),对于构建能在开放语境下操作、能实现自我提升的agent,是关键的一步。
在这里,团队重点研究了扩展「推理期计算」(inference-time computation)这个问题。
团队分析了扩展测试时计算的两种主要机制:(1)针对密集的、基于过程的验证器奖励模型进行搜索;(2)根据测试时得到的提示词,自适应更新模型对响应的分布。
结果显示,在这两种情况下,对测试时计算的不同扩展方法的有效性,很大程度上取决于提示词的难度。
基于此,团队提出了一种「计算最优」扩展策略——通过为每个提示词自适应地分配测试时计算,使测试时计算的扩展的效率提高4倍以上。
另外,在FLOPs一致的评估中,对于那些较小的基础模型已取得一定程度非平凡成功率的问题,测试时计算可以使其超越规模大14倍的模型。
这就可以看出,对比o1模型,这篇研究的结论几乎是相同的。
5月的论文则表明,只要允许根据需要生成任意数量的中间推理token,Transformer可以解决任何问题,LLM的推理没有极限!
不难看出,Denny Zhou等人所提出的「中间推理token」,与o1的核心技术是何其相似。
要知道,传统的Transformer模型的致命弱点,就是擅长并行计算,但不擅长串行推理。
而CoT,恰恰解决了这个问题。
在本文中,研究者将Transformer的计算过程与电路模型类比。
他们借用电路复杂性理论,定义了CoT[T(n), d(n), s(n), e(n)],其中O(T(n)) 表示 CoT 的执行步骤数,O(d(n)) 表示嵌入大小,O(e(n)) 表示指数部分的位数,O(s(n)) 表示有效位数。
传统的Transformer模型,只能解决AC0电路能解决的问题;但一旦加入CoT,Transformer几乎可以解决任何问题。
只要CoT步骤足够多,Transformer就能模拟任意大小的布尔电路,解决P/poly问题
也就是说,可以用数学严格证明,CoT可以让Transformer解决几乎所有能用计算机解决的问题。
利用CoT,可以模拟布尔电路中每个逻辑门的计算
在模运算、置换群组合、迭代平方和电路值问题上,都可以证实:CoT赋予了Transformer模拟任意电路的能力,从而能够解决电路值问题这个P完全问题。
正是这项工作证明,CoT为更强大的LLM推理提供了新的思路,CoT或将成为未来LLM发展的重要方向,而且很可能闪烁着AGI的火花。
OpenAI为什么要隐藏o1的「思维」?
显然,谷歌在相关技术上并没有落后,然而还是被OpenAI摘桃了。
而OpenAI的后续做法,也显得聪明很多。
很多人才猜测:一旦开发者能访问完整的CoT,那他们很快会训练和微调出具有相似性能的开源模型。
因此,OpenAI一直在严防死守,禁止用户看到o1的CoT过程。
The Information也专门发文,解释了OpenAI为何要隐藏推理模型的「思维」。
他们分析道,如今AI竞赛的竞争异常激烈,每个大型AI开发商都在密切关注着竞争对手,试图对对方的作品进行逆向分析或复制。
像OpenAI这样的领导者,该如何保持优势呢?
The Information总结道,OpenAI发布o1展示的方法就是——通过隐藏模型实际解决问题的方式。
从o1-preview博客文章中可以看出,模型的关键更新就是使用「内部思维链」,将问题分解成更简单的步骤,然后再解决。
然而,这一关键的工作过程,并不会向客户展示。
o1模型展示出来的,是一个「模型生产的思维链摘要」,也就是说,在客户看到之前,o1的思维过程是被完全不同的模型重新编写的。
为什么要这么做?
OpenAI的解释是,这样就可以仅限OpenAI员工来「读懂」模型的思维,了解其运作方式。
OpenAI不希望展示模型未经过滤的思想,因为指不定其中有什么不安全的想法。
此外,公司也希望可以监控模型,确保它不会产生不当行为,比如「操纵」用户。
而OpenAI没有明说的一个理由,当然就是保持自己的竞争优势了。
这也说明,如果不被过滤思维链,o1-preview的表现可能会更好。因为这样的话,用户就能根据模型的思考过程来完善他们的问题,获得更多信息。
The Information向OpenAI发出灵魂一问:你们能否在发布完整版o1之前找到一种方法,来减少隐藏思维链带来的性能下降呢?
现在,许多开发者表示,自己对o1隐藏的思维链感到很恼火,因为这可能会让他们为看不到的东西付费。
注意,OpenAI是根据模型处理和输出的token数量,向开发者收费的。
不过总的来说,在X上发帖的开发者中,大多数对o1-preview的评价都是积极的。
现在,o1在开发者中的良好反响,将谷歌等竞争对手的门槛再次提高了。
为什么OpenAI的新模型如此重要?
MIT科技评论则总结道:OpenAI的新模型o1之所以如此重要,正是因为首次它将AI模型中的思维链推理带给了大众。
作者James O'Donnell表示,到目前为止,LLM的大部分进展都是由语言驱动的。
这些LLM产生了能解释、分析和生成文字的聊天机器人或语音助手,但除了出现大量事实错误外,这些LLM还未能展示出解决药物发现、材料科学、编程或物理学等领域重要问题所需的技能。
但o1却进入了复杂推理领域。
可以说,o1的发布释放了这样一个信号:LLM将很快成为药物发现、材料科学、编程或物理学等领域人类研究者的得力助手。
大模型创业公司Fixie创始人、AI研究员Matt Welsh表示,这很重要,因为它将AI模型中的「思维链」推理带给了大众。
用他的话说就是:「推理能力直接内置于模型中,而不必使用单独的工具来实现类似的结果。我预计这将提高人们对AI模型能力的期望。」
当然,也有人对此论断泼冷水。
比如,伦敦帝国理工学院数学和计算机科学副教授Yves-Alexandre de Montjoye就提醒我们,最好对OpenAI将其与「人类水平技能」的比较持保留态度。
在他看来,很难对LLM和人类从头解决数学问题等任务的方式,进行有意义的比较。
还有AI研究者表示,如何正确衡量o1的推理能力,要比想象中更难。
如果它正确回答出了给定问题,就是因为它成功通过推理得出了答案吗?还是因为模型内置了足够的起始知识点,从而获得了帮助呢?
谷歌AI研究员François Chollet也表示:「o1在开放式推理上,仍然存在不足」。
另外,o1这种主动推理的模型,价格也并不便宜。
通过API使用o1的开发者,需要支付比GPT-4o高三倍的费用(o1每100万输入token收费15美元,而GPT-4o仅需5美元)。
最终James O'Donnell写道:在研究人员和实验室有机会、时间和预算来深入研究o1、找到其极限之前,我们还无法知晓它的突破。
但毫无疑问,这预示着一场超越人类推理能力的模型竞赛已拉开序幕。
AI开发者都在「嫌弃」谷歌Gemini?
而相比起发布了o1的OpenAI,明明有类似技术却被截胡了的谷歌,却显得节节退败。
最近The Information就发文一篇,总结了为什么谷歌Gemini为何会在广大开发者那里受冷遇。
不管是各种公开的基准测试,还是Lmsys竞技场,谷歌的Gemini系列一直都是不落下风,经常是和GPT、Claude并驾齐驱。
但奇怪的是,几乎没有第三方项目用到Gemini,这个名字除了出现在谷歌的产品中,其他场景下甚少见到。这背后是什么原因?
The Information采访了几位开发者和谷歌员工,他们表示:无他,就是用起来麻烦。
其中一位开发者Aidan McLaughlin是Topology的创始人,这家初创公司致力于开发软件以提升AI模型的推理能力。
他表示,第一次用OpenAI的API时只花了30秒,但用Gemini却花了4个小时。
「谷歌要求我设置云账户,还得弄一堆配置。更糟的是,谷歌系统的bug有时还逼我得倒回去重来。」
他还补充说,在AI领域,模型的能力是最重要的。如果这么麻烦的步骤能换来一个强得多的模型,那开发者们估计还是会趋之若鹜,爬也要爬过这些坎儿。
但实际情况显然不是这样的。除了一些极少数的特殊情况,谷歌的模型似乎只能排第三,跟在OpenAI和Anthropic的模型后面。
开发者怎么看OpenAI、Anthropic和谷歌,这三家的模型在开发者心中究竟占据了何种地位?
企业软件创业公司Retool在6月对750多名技术工作者进行了一次调查,发现仅有2.6%的受访者表示最常使用Gemini来构建AI应用程序,Claude的占比更是只有2.3%。
相比之下76%的人使用OpenAI,是绝对的大头。
虽然Claude的份额不敌谷歌,但Retool表示,Claude的使用量自去年11月以来增长了四倍多。
追踪网站流量的Similarweb也给出了类似的结果。
从6月到8月,OpenAI的应用开发者页面获得了8280万次访问,而同期Google的页面的浏览量为840万。
此外,较小规模的轶事调查也提供了类似的证据。
上个月底,AI智能体初创Finetune的创始人Julian Saks询问了50名AI创业开发者,他们最常使用哪些对话式AI模型。
几乎所有人都表示,他们主要使用Anthropic或OpenAI的模型,没有人主要使用Gemini。
Saks对此并不感到惊讶,他表示,「我觉得在编码方面,Gemini不如其他模型。」
摸不着头脑OpenAI在2022年底推出ChatGPT,2023年初推出GPT-4,在LLM和对话式AI领域可谓占尽先机。
相比之下,谷歌花了将近一年的时间,加上一次重大重组,才在2023年底推出了能与GPT-4掰手腕的Gemini,并向开发者开放访问权限。
Gemini的落后仅仅是由于GPT系列的先发优势吗?并不尽然。
虽然OpenAI的领先优势赢得了开发者圈中广泛的知名度,但后起之秀Anthropic在今年也同样迎来了爆发性的增长。开发者们纷纷热情推广Claude「平替」GPT,尤其是在代码辅助方面。
那么如何解释Gemini的遇冷?
开发者们最直观的吐槽,可能提供了事情的真相——Gemini虽然能力不差,但的确不好用。
去年12月,谷歌推出了AI Studio,旨在让开发者更容易使用Gemini;而 Vertex AI Studio则服务于大型企业的模型推广。
但这两种服务存在交叉,有时又相互矛盾,到底用哪个,就是很艰难的决定;而且提供的选项种类复杂、操作步骤多,让人摸不到头脑。
不仅如此,AI Studio还使用了与GPT和Claude不同的查询发送方法,但后两者却共享类似的格式,这就更难吸引开发者们转向Gemimi。
因此,经常可以在社交媒体和论坛上看到Gemini的吐槽帖,尤其是在推特上。
安全创业公司Xbow的AI研究员Brendan Dolan-Gavitt本月初的一条帖子就因此走红。
他详细描述了通过Vertex开始使用Gemini所需的繁琐步骤,引起了其他开发者的共鸣,很多人也纷纷加入吐槽大军。
有一句网友的总结,非常适合谷歌如今的境况:「当世界顶尖的工程师都在用OpenAI和Anthropic的模型时,你有什么资格让我们『去尝试别的东西』呢?」
参考资料:
https://www.theinformation.com/articles/why-openai-is-hiding-its-reasoning-models-thoughts
https://www.theinformation.com/articles/why-ai-developers-are-skipping-googles-gemini?rc=epv9gi
https://www.technologyreview.com/2024/09/17/1104004/why-openais-new-model-is-such-a-big-deal/
https://x.com/sama/status/1836178378673786923