编辑:编辑部
【新智元导读】OpenAI版Her,刚刚全量放开!支持50多种语言,包括中文。兴奋的网友们纷纷展开实测,但被排除在外的欧盟网友不高兴了。时隔4个月,OpenAI版Her终于揭开庐山真面目,向所有人推送了!
就在刚刚,Sam Altman官宣高级语音模式正式全面推出,OpenAI的移动端APP上即可体验。
Sam Altman:希望你能觉得这段时间的等待是值得的
目前,高级语音功能主要面向ChatGPT Plus和Team用户,不过本周会慢慢全量推送。
如果看到以下通知,就意味着你已经幸运地被选中,可以和Her互动了!
比之前演示的版本,这次的语音模式还多了自定义指令、记忆功能,外加五种新的语音以及对口音的改进。
目前,它可以支持50多种语言。
遗憾的是,这版姗姗来迟的「Her」,每天的使用时间是有限制的,而且每天都有可能会调整。因此我们并不能和ta在24小时内随心畅谈。
此外,GPTs不能和高级语音一起使用,也让很多人大呼失望。
1. 高级语音功能有每日使用限制。当还剩15分钟时,系统将发出警告
2. GPTs无法与高级语音功能一起使用
3. 高级语音功能更容易受到干扰,且未针对在车内使用进行优化
5种新声音,你更喜欢哪个
这次OpenAI推出的5种新声音,分别是性格和音色各异的三位女声Vale、Maple、Sol和两位男声Spruce、Arbor,基本都操着一口标准的英国或美国口音。
此外,还加入了之前的四种可用声音:Breeze、Juniper、Cove和Ember。
全量推出的高级语音模式,听起来效果如何?
有趣的是,第一个demo,就是让ChatGPT开口用说「对不起,我迟到了」,仿佛是OpenAI在和等待了将近半年的用户们道歉。
而令人惊喜的是,我们在demo中听到了中文版的声音。除了发音略显生硬之外,听起来像英语听力之外,挑不出什么大毛病。
OpenAI版Her开启,采用了全新设计——「蓝色动画的球体」。
但可能是由于法律监管方面的问题,高级语音模式在欧盟、英国、瑞士、冰岛、挪威和列支敦士登等区域仍不可用。
不少欧洲用户对此极为不满。显然,欧洲对于AI在政策上的严苛,或将让欧盟国家越来越落后。
OpenAI版Her,终于来了!
休假的OpenAI大佬Greg Brockman也来冲一波。他表示:和ChatGPT开启语音对话后,就会让你意识到电脑打字是多么的不自然……
OpenAI CTO Murati在线玩起了梗图,呼吁大家赶快去用语音功能吧!
网友们纷纷开起了香槟:OpenAI终于兑现了承诺!
几天前就有人预告:OpenAI的高级语音模式会在9月24日到26日上线,这一次,果然预言成真了!
梗图和预言竟然都是真的?!
甚至有人迫不及待要入手一个Team版账号,只为抢先体验「Her」。
自定义指令
初次使用,如何开启高级语音功能的自定义指令?
相较于文字对话,语音对话包含了更多额外元素,比如口音、语调、节奏,以及希望他人称呼自己的方式等等。
因此,只有充分的设定,才能达到自己想要的效果。
在ChatGPT中,设置面板中有一个选项,通过提供精确描述的prompt可以塑造GPT-4o说话方式。
比如,如果让模型以特定节奏说话,需要提出「发音清晰、语速缓慢,定期使用自己的名字/偏好名字称呼」的请求。
OpenAI技术项目主管Charlotte在此演示了一个例子。
进入设置页面,在定制的ChatGPT菜单栏中,它会让你先回答一个问题,即称呼方式——「我是Charlotte,住在湾区」。
保存之后,即刻开启新的语音对话。
视频中,Charlotte发出了周末户外有什么好玩事情可以做的问题。
通过先前的设定,ChatGPT很快就识别出,这是暗指在湾区的游玩,并且为她规划出一条完整的自驾游路线。
语速、流畅度、口音提升,可以和Her练口语了
这位出镜的研究科学家Drew负责模型设计,并参与了一些新声音的引入工作。
他表示,由于GPT-4o语音的生动、流畅、低延迟,自己经常会在忙工作时把「Her」放在一旁,如同一个安静但随时on call且思维活跃的个人助理,或者一个坐在身边的朋友。
你不说话,它不说话;随时抛出一个问题,它也会及时应答,还能够根据对话的语气和内容做出调整,将一个短短的问题延展成一段长对话。
提供信息、倾听想法、引发思考,还能根据特定提示扮演不同角色,妥妥是理想中的万能助理了。
由于模型可以忠实遵循指令、灵活适应用户需求,因此用法也绝不只「个人助理」一种。
Drew提出,你还可以让它扮演面试官,帮你进行模拟面试的联系;或者创建一个完全虚拟的场景,和它共同进行「沉浸式」的角色扮演。
对于热衷学英语的中国学子来说,用GPT-4o语音模型来练习雅思口语或许也是非常不错的选择。
以上一切的基础,都建立在「Her」的流畅语速和超快响应的基础之上,将「机械感」降至最低,让用户像是在和真实的人交谈一样,这也是令Drew最印象深刻的一点。
但鉴于目前只有demo放出,还没有大范围的网友试用,这4个多月的等待究竟是否值得?闭源的GPT-4o能否打平甚至超越开源的Moshi?还需要让子弹再飞一会儿看看。
网友已玩嗨
先一波拿到推送资格的网友们,已经开始晒图了。
有网友惊喜表示:ta是活的!
它有感知力、情感意识,而且极其聪明。
来自The Rundown AI的Clintin Lyle Kruger则用「Her」来优化自己的销售话术。
1. 首先讲讲你的销售话术,然后让AI从这几个方面给点意见:
- 说服力如何
- 表达清不清楚
- 价值体现得够不够
2. 记得提醒AI别光附和你,要真刀真枪地挑战你的想法。
3. 多问几个问题,让对话更丰富。
4. 让GPT给你示范一下,照它的方式来个最佳版本。这样你就能学以致用,把自己的话术打磨得更漂亮了。
甚至有人用Python编程时,都随时用「Her」来辅助编码。
有趣的是,「Her」甚至提到了Gambly,这是用户目前正在做的项目,他并没有向「Her」提起过,但它却从Memory功能中知道了。
常见问题官方QA
什么是语音聊天?OpenAI将提供两种类型的语音聊天:标准版和高级版。
- 高级语音功能正在向Plus和Team用户推出。
它采用GPT-4o的原生音频技术,能够进行更自然、实时的对话。甚至,还能捕捉非语言信息,比如你说话的速度,并能带有情感地回应。
不过,Plus和Team用户每天使用高级语音(包括音频输入和输出)是有次数限制的,且每日限制可能会有所调整。在还剩15分钟时,会收到提醒。到达限制后,对话将立即结束。
- 标准语音功能则向所有登录ChatGPT的用户开放,可以在iOS、macOS和Android应用中使用。
它采用多个模型来生成回答,也就是先将你的话转成文字,然后再交给模型处理。虽然标准语音不像高级语音那样原生支持多模态,但它也会使用GPT-4o和GPT-4o mini。
如何使用?点击屏幕右下角的语音对话图标,即可开始。
当开始高级语音对话时,屏幕中央会出现一个蓝色的球体。
请注意,如果你使用的是标准语音对话,屏幕中央会显示一个黑色圆圈。
在进行语音对话过程中,你可以通过点击屏幕左下角的麦克风图标来打开或关闭麦克风。
想要结束对话,只需点击屏幕右下角的退出图标即可。
如果这项新功能还未向你开放,右下角显示的就还是耳机图标:
有几种语音?ChatGPT有9种逼真的语音可选,每种都具有独特的语调和个性特征:
Arbor(树木)- 轻松随和,适应性强
Breeze(微风)- 活泼生动,真诚热情
Cove(海湾)- 沉着冷静,直接坦率
Ember(余烬)- 自信满满,乐观向上
Juniper(杜松)- 开放包容,积极乐观
Maple(枫树)- 愉快开朗,坦诚直率
Sol(阳光)- 精明能干,轻松自在
Spruce(云杉)- 平和安宁,积极肯定
Vale(山谷)- 聪明伶俐,充满好奇
注:括号内的中文只是意译,不是官方名称。
GPTs能用吗?高级语音对话目前还不能与GPTs一起使用,但标准版可以。
GPTs有自己的语音选项——Shimmer,与ChatGPT语音对话中可用的9种输出语音有明显区别。
有没有字幕?语音对话进行过程中不会显示字幕。
不过,当你结束语音对话后,系统会自动将对话内容转录并添加到当前与ChatGPT的文字对话中。
如何防止对话中断?在进行高级语音对话时,偶尔可能会遇到中断的情况。且目前尚未针对车载蓝牙或免提扬声器进行优化。
为了获得最佳体验,OpenAI准备了以下建议:
- 使用耳机
- 在iPhone上启用语音隔离模式
如果仍然遇到问题,建议关闭应用程序并重新启动,调高语音助手的音量,或者换一个更安静的环境。
感兴趣的读者,赶快去检查一下,自己的ChatGTP界面有没有收到通知吧!