Key Points
Gemini系列模型增加新成员Flash,但整体付费状况堪忧;
最大亮点是Astra,与GPT-4o相似,以及Google Glass可能回归;
类Sora模型Veo推出,长度够了,清晰度还没有;
AI搜索正式现身,但改名叫「AI Overview」了;
发布让用户自定义模型的Gems,对标OpenAI的GPTs;
Android有了更多系统级AI功能,第六代TPU新品也发布了。
今天凌晨1:00(当地时间5月14日10:00),2024年Google I/O全球开发者大会如期召开。就在24小时前,OpenAI用新模型GPT-4o再次震撼业界后,人们期待这家推出过AlphaGo、Transformer的科技巨头能够给予旗鼓相当的回应。
然而结果令人失望,在长达两个小时的开幕主题演讲上,这家公司既没有推出能力更强的新模型,也没有拿出充满创意的新应用,有的只是乏善可陈的模型更新、老掉牙的产品用例,以及对竞品的拙劣模仿——当Gemini产品总经理Sissie Hsiao自豪地宣布推出了一个名为「Gems」的自定义模型新功能时,观众席一时间沉默得令人尴尬,该功能就连名字都是在抄作业(指OpenAI的GPT自定义服务GPTs),更别提后者发布已过去半年之久,模仿它的产品也早就出过一拨又一拨。
类似的冷场在演讲中出现过不止一次。由于缺乏新鲜AI用例,而Google的每条产品线又不得不展示其与AI的联系,最终呈现结果就是相似的用例反复在不同产品条线上出现。就比如让AI做日程规划这个功能,搜索产品提过,Gemini提过,到了Workspace又提了一遍。
对于这种状况的乐观理解是,Google已经像微软那样快速将GPT-4级的AI能力植入所有既有产品线,从搜索引擎到办公套件;保守理解则是,生成式AI的模型能力目前还不足以令开发者构建更加原生和强大的杀手级应用——从推理能力到多模态能力都是如此。
Google DeepMind CEO Hassabis说公司目标仍然是AGI。
多模态能力看起来比推理能力更容易解决一点。在OpenAI昨天发布能看、能听、能说的GPT-4o之后,Google也在今天发布了同类产品「Astra」,它能够几乎没有延迟地就看到的事物与人互动,还和GPT-4o一样能通过摄像头解读代码和做数学题。不过,不幸的是,作为整场发布会中唯一的亮点,Astra也没有引起观众多少兴奋,因为他们昨天已经为GPT-4o兴奋过了。
整个发布会中,AI这个词一共出现了121次,以下是值得关注的6大更新:
最大亮点是Astra,与GPT-4o相似;Google Glass可能回归
Google还展示了一个看起来与GPT-4o能力很相似的智能助手Astra,基于Gemini模型开发,它可以通过摄像头「看到」周围环境并做出解说。
演示中,Google DeepMind的一位产品经理拿着手机、开启摄像头带着Astra在DeepMind位于伦敦的办公室里走了一圈,演示者让它在「看到」会发出声音的东西时告诉她,于是镜头中出现一个扬声器时,Astra开口说话了「我看到一个扬声器可以发出声音」;「看到」办公室电脑屏幕上的代码,它能口头讲解这些代码的意思;镜头转向DeepMind办公室窗外,它也能根据看到的景色猜测出自己所处的地理区域;而且,和24小时前OpenAI向外界展示的GPT-4o那样,Astra也能对着镜头做数学题。
演示Astra的能力时,Google埋下了一个彩蛋:当演示者询问「你是否看到过我的眼镜在哪儿」时,即便当下视野中没有眼镜存在,Astra也能「根据记忆」告诉演示者「眼镜在一个苹果旁边」,因为在它经过办公桌时,眼镜和苹果就曾出现在办公桌上的电脑旁边。接着,这位演示者拿起了苹果前的眼镜戴上,这幅眼镜看起来并不一般,它似乎装有机载摄像头,还有某种视觉界面。
演示者在Astra的「指点」下找到了眼镜并戴上。
发布会结束后接受媒体采访时,Google DeepMind CEO Demis Hassabis和Google联合创始人Sergey Brin称,Google正在探索为Astra开发眼镜的可行性。这令人猜测,已于去年3月15日暂停销售的眼镜产品Google Glass项目可能已经重启。Gemini系列模型增加新成员Flash,但整体付费状况堪忧去年12月6日,Google发布了对标GPT-4的多模态模型Gemini 1.0。该系列模型按照能力和size大小由弱到强分为Nano、Pro、Ultra三个版本,分别适用于手机、广泛设备和数据中心3种算力场景。其中,1.0 Pro和1.0 Ultra分别对标GPT-3.5和GPT-4。今年2月15日,这一系列模型升级为Gemini 1.5。
今天的开发者大会上,Google为该系列模型又增加了一个新模型Gemini 1.5 Flash,该模型在1.5 Pro版本上「蒸馏」得来,针对大批量、高频次的任务做了优化,Google称其比Pro版在反应速度和成本上都更有优势。
其次,对于Gemini 1.5 Pro,团队提升了其处理上下文的能力,上下文窗口从原来的100万提升到200万tokens,不过200万上下文的模型还在内测中。
最后,对于专门针对移动设备研发的Gemini 1.0 Nano模型,团队表示此前该模型只拥有文本推理能力,但未来将加入多模态能力,也就是说可以理解视频、音频和图像能力要在未来版本的Nano模型中才推出。
1.0 Pro升级为1.5 Pro后,Gemini目前共有4款闭源模型:Gemini 1.0 Ultra、Gemini 1.0 Nano,以及Gemini 1.5 Pro、Gemini 1.5 Flash。其中Gemini 1.5 Pro模型在能力上几乎等同于Gemini 1.0 Ultra,Ultra版本前途未卜。
今年2月8日,Google推出由Gemini 1.0 Ultra支持的高级服务Gemini Advanced,与ChatGPT Plus(20美元/月)几乎相同,每月收费19.99美元。Google首席执行官Sundar Pichai提供的数据称,已有超过100万人注册了Gemini Advanced服务,但没有透露有多少人真正为该产品付费。这一表现与OpenAI相距甚远,后者的ChatGPT Plus据估计已有数百万付费用户,意味着OpenAI的付费用户数量可能是Google的10到20倍,而其免费用户数量已超过1亿。
类Sora模型Veo推出,长度够了,清晰度还没有
在Gemini这一「原生」多模态模型之外,Google还更新或推出了新的图像、音乐和视频等单一生成模型。
其中图像模型指的是最新的Imagen 3,团队表示它生成的图片细节更好,错误更少;对于音乐模型,Google并没有透露模型名称,只提到正在和一些音乐人合作试用。
对标Sora的视频生成产品Veo,能生成长达1分钟。其中,最重要的应该就是文生视频模型Veo,这也是直接对标OpenAI Sora的模型。Google称,Veo模型可以生成超过一分钟的1080p分辨率视频,并具有多种电影和视觉风格。不过,Google没有透露技术细节。
Google展示的Veo生成视频效果之一,视频长达1分钟,但清晰度堪忧。
Veo生成视频效果之二。
AI搜索正式现身,但改名叫「AI Overview」了
据搜索团队所说,这是首个从Google搜索实验室毕业的AI功能,该功能将首先在美国推出,今年年底向所有用户开放。
你可以将它看作是去年推出的实验项目SGE(Search Generative Experience:生成式AI搜索)的阶段性成果。当你搜索一些特定问题时(Google并没有明确范围),AI Overview功能会先搜索一系列相关网页,对这些网页内容做出总结后把答案直接呈现给用户,而不是像先前那样把一堆链接丢给用户。开创这种模式的Perplexity AI创始人称这种新模式为「答案引擎」,对应传统的「搜索引擎」。
Google并没有表明「AI Overview」是否已取代SGE成为Google AI搜索的专用名称。在产品形态上,AI Overview与号称是AI搜索引擎的Perplexity很相像,不过看起来Google并不准备将它作为独立应用推出。
除了AI Overview毕业外,还有以下4个新功能进入Google搜索实验室深造。分别是Multistep reasoning(多步骤推理)、Planning(规划功能)、AI organized search results(AI组织搜索结果)和Ask with Video(视频提问)。
发布让用户自定义模型的Gems,对标OpenAI的GPTs
今年年初,Google将去年推出的聊天机器人Bard改名为Gemini,与多模态模型Gemini同名。
在Gemini应用中,Google宣布推出模型自定义功能Gems,它就像OpenAI之前推出的GPTs一样,可以让用户上传独有数据、定制属于自己的Gemini聊天机器人。
此外,Gemini应用中最重要的新功能就是Gemini Live。借助这个功能,你可以通过语音的方式向Gemini提问,Gemini也同样会用语音的方式回答,目前这个功能只向付费用户开放。ChatGPT去年10月推出类似功能,并已于去年12月向免费用户开放。
Google表示,今年晚些时候,Gemini Live将开放视频能力,也就是你可以直接与它就摄像头拍摄的事物做对话。不过暂不清楚该功能与DeepMind之前演示的Astra是否是同一个东西。
Android有了更多系统级AI功能,第六代TPU新品也发布了
今年年初就发布的Circle to Search(画圈搜索)功能再次在此次开发者大会上被演示和强调。Google已将该功能加入三星等Android系手机。
此外,Android团队还推出了TalkBack与诈骗电话实时监测两个新功能。前者主要针对视力障碍人群,你可以让AI助手读取你手机屏幕的内容,并且用语音描述给你。后者用AI分析电话内容,当存在诈骗等风险时会弹窗提醒用户。Android团队难得提供了一些新鲜用例,可见更深入的AI应用还是需要与硬件底层结合。
苹果和OpenAI也在开发能读取和理解用户屏幕的模型,比如OpenAI昨天展示的GPT-4o,就能读取用户屏幕中的数据图,然后为用户讲解。与GPT-4o对标的Astra并没有展示这一点,演示中,它只能通过摄像头看着电脑屏幕读取,而没有进入电脑操作系统内部。
最后,芯片团队发布了最新一代AI芯片Trillium,该芯片与上一代TPU v5e相比,每个芯片的计算性能提高了4.7倍。该芯片将于2024年年末通过Google Cloud提供给客户。