于无声处听惊雷!这项技术驶入进化节点

商业范儿 2024-11-01 10:15:25

RTE(实时互动)历经十年蜕变,从理念逐步发展为具有广泛影响力的行业。如今,生成式AI风头正劲,与RTE的结合更是成为技术创新的前沿阵地。这一融合不仅预示着IT行业的深刻变革,也为教育、金融、医疗等多个领域带来了全新的交互体验。

随着RTE技术的不断成熟和应用场景的拓展,尤其是在声网等企业的推动下,RTE+AI的结合将催生出更加丰富多彩的应用场景,为行业发展开启下一个十年。

RTE+AI=?

生成式AI在当今科技领域可谓是风头正劲,并有重塑各行各业的趋势。得益于丰富的大数据资源、强大的计算能力以及不断优化的算法架构,使得大模型能够不断学习和进化,性能持续提升,可以生成具有高度真实性和创造性的内容。

在语言模型方面,OpenAI的GPT系列等能够理解和生成自然语言,进行对话、写作、翻译等多种任务,且语言表达能力日益接近人类水平。在图像生成领域,诸如StableDiffusion、DALL·E2等模型可以根据文本描述生成精真的图像,为艺术创作、设计等领域带来了全新的创作方式。此外,生成式AI在音乐、视频等领域也有了一定的发展,能够生成旋律、编曲以及视频内容等。

在10月25日举行的RTE2024第十届实时互联网大会上,声网创始人兼CEO赵斌认为,生成式AI正在驱动IT行业发生大变革,包括终端设备、软件开发、云计算架构以及人机界面交互方式的改变。

而在RTE行业,生成式AI的应用为其注入了新活力。比如,生成式AI使得智能语音助手能够更自然地理解和回应用户的需求,提升了用户体验;通过生成式AI技术,实时翻译服务可以实现更高的准确性和流畅性;生成式AI能够分析和理解用户的情感状态,从而提供更具人性化的交互体验;生成式AI可以生成逼真的虚拟角色,应用于游戏、社交、教育等多个领域。

作为全球实时互动云服务的引领者,声网也将生成式AI技术与RTE相结合,并已有多项技术创新实践。

声网与 MiniMax正在打磨中国第一个Realtime API。声网基于 MiniMax Realtime API打造的人工智能体,可以实现人与智能体轻松流畅地进行实时语音对话。当人类打断智能体并提出新的疑问时,智能体也能够非常灵敏的快速反应,实现了与人类自然流畅的对话。

声网推出的对话式AI解决方案,以语音为核心,支持视频扩展,通过低延时响应、智能打断、AI降噪、超拟人化人声合成等丰富的功能,构建真实、自然的AI语音交互体验,且已经具备落地能力。该解决方案能够将对话响应延时控制在1秒内,远低于市面上大部分3-4秒的延时时间。

此外,声网还发布了aPaaS灵动会议产品,通过RTE技术和融合生成式AI能力重塑会议协作使用体验。灵动会议提供了低代码视频会议平台,并且采用了多云、多平台设计,支持客户进行灵活部署和扩展,全面满足客户会议、协作和调度需求。

在落地应用方面,声网在多个场景中应用了生成式AI技术,包括智能客服、在线教育、游戏娱乐等。例如,在线教育领域,利用AI技术实现了远程教育中的互动教学,让学生在虚拟环境中获得更接近真实课堂的学习体验。在游戏娱乐中,通过AI生成的角色与玩家进行自然对话,增强了游戏的真实感和沉浸感。

赵斌还正式发布了声网RTE+AI能力全景图。在全景图中,声网从实时AI基础设施、RTE+AI生态能力、声网AI Agent、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度,呈现了当下RTE与AI相结合的技术能力与应用方案。

具体来看,声网在RTE+AI领域具有一系列优势。首先,声网拥有自主研发的SD-RTN技术,能够提供高质量的实时音视频通信服务,这是其在RTE领域的核心竞争力。其次,声网的SD-RTN网络覆盖全球250多个数据中心,确保全球用户都能享受到低延迟、高质量的实时互动体验。再者,声网的解决方案与多种设备和平台兼容,方便开发者快速集成和部署。另外,声网的实时互动云服务广泛应用于教育、金融、医疗、娱乐等多个行业领域,已在不同场景下积累了丰富的实时互动经验。

不过,任何事物都有其两面性,声网也面临着一些挑战。在市场竞争方面,生成式AI与RTE领域竞争激烈,国内外众多企业纷纷涉足,声网面临着来自大型科技公司、新兴创业企业等多方面的竞争压力。在技术集成难度上,不同的生成式AI模型和技术框架具有各自的特点和要求,与声网的实时互动平台进行无缝集成需要解决兼容性、性能优化等问题。此外,在提供高质量服务的同时,如何有效控制成本,也是需要面对的问题。

十年蜕变

在数字化时代,RTE技术已经成为连接人与人、人与设备、设备与设备的重要桥梁,不仅改变了我们的沟通方式,更在教育、医疗、娱乐等多个行业中发挥着关键作用。回望过去十年,RTE在中国的发展经历了从理念到实践,再到行业的蜕变。

RTE技术的起源可以追溯到互联网早期的VoIP技术,但真正的转折点是在2010年,谷歌开源了WebRTC项目,这标志着RTE技术的商业化和普及化。

在中国,RTE技术的起步稍晚,但发展迅速。2010年,RTE概念在国内刚刚萌芽。彼时,市场上几乎没有关于实时互动的专业书籍、行业会议和专业媒体及社区。2014年,声网成立并率先提出了RTE的概念,也意味着国内RTE行业的正式起步。

随着移动互联网的快速发展和智能手机的普及,RTE迎来了重要的发展机遇。在线直播行业开始兴起,成为RTE技术的重要应用场景之一,众多直播平台如雨后春笋般出现,推动了实时音视频技术在大规模并发场景下的应用和优化。同时,在线教育也得到了进一步的发展,互动式教学模式逐渐受到关注,实时互动技术在教育场景中的应用不断深化。

这一时期,技术上不断取得突破,音视频的延迟逐渐降低,画质和音质也有了显著提升。市场对于RTE的需求逐渐增加,以声网为代表的企业开始加大在技术研发和市场推广方面的投入。

2018年以来,RTE技术进入了爆发式增长阶段。以社交、游戏、远程办公等为代表的众多领域纷纷引入实时互动功能,为用户带来了全新的体验。社交领域的实时视频聊天、多人互动社交游戏等应用成为热门;游戏行业中,实时语音开黑等功能提升了玩家的互动体验;远程办公需求在全球范围内的爆发更是加速了RTE技术在办公场景中的广泛应用,视频会议、在线协作等成为常态。

技术上,AI、云计算等技术与RTE深度融合,进一步提升了实时互动的质量和智能化水平。同时,市场规模迅速扩大,行业竞争日益激烈,RTE逐渐从一个新兴的技术领域,发展成为一个具有广泛影响力的行业。这一过程中,RTE技术的应用场景不断拓展,并成为数字化转型的重要推动力。

作为行业的先行者,声网在RTE从一个前沿理念变为一个成熟行业的过程中,发挥了重要作用。

声网的技术创新不仅体现在核心算法和编解码器的优化上,还包括对网络环境的适应能力和多模态互动的支持。声网的音频编码器Agora Solo能适应网络的各种不稳定,能够在弱网条件下保证流畅的高质量通话。此外,声网还推出了极速直播、低码高清产品,以及教育行业首款aPaaS产品灵动课堂,进一步向细分市场渗透。

声网在技术创新方面的另一个重要突破是分布式端边云结合的AI系统。这一系统通过合理配置计算和传输在各节点,智能地将任务编排到端与边上执行,有效降低了成本,同时提供了更低延时、更高网络抖动容忍度和优秀的抗噪声能力。

声网还积极拓展应用场景,从最初的视频会议、在线教育,到后来的游戏直播、虚拟现实,始终走在行业前沿,推动RTE技术在更多领域的应用。声网发布的“RTE万象图谱”,展示了围绕教育、泛娱乐、IoT、企业协作、金融、医疗等20多个行业赛道的200多个实时互动场景,进一步丰富了RTE技术的应用生态。此外,声网还通过云市场开放自身生态,与各类ISV合作,帮助开发者加速集成开发,快速构建应用内实时互动能力。

声网在市场推广和教育方面也做了大量工作。今年8月,声网正式出版了行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》,填补了RTE行业无专业书籍的空白,同时RTE开发者社区也持续繁荣。可以说,声网用十年时间,打破了RTE行业内没有行业会议、专业书籍以及专业媒体和社区的“三无”状态。

10月11日,国际数据公司(IDC)最新发布的《中国视频云市场跟踪,2024上半年》报告显示,中国视频云解决方案市场规模达到9.8亿美元,其中音视频通信云服务(RTC/RTE)达到1.3亿美元,声网的市场份额占比为33.1%,排名第一。

2024年第二季度财报显示,声网母公司Agora,Inc.(NASDAQ: API)实现总营收3420万美元,同比增长0.5%。这也是在2021年Q4之后,10个季度以来Agora,Inc.首次实现营收同比增长。其中,业务聚焦在中国市场的声网实现Q2营收1.32亿人民币,同比增长0.3%;聚焦非中国市场的 Agora 实现Q2营收1560万美元,同比增长2%。

过去十年,声网作为RTE领域的开拓者,通过技术创新、生态建设、知识普及和社区等多方面的努力,推动了RTE从一个理念变成了一个充满活力和潜力的行业。

那么,RTE行业下一个十年的发展趋势是什么?赵斌认为,生成式AI与RTE结合带来的场景创新,将成为下一个十年的主题。

在「商业范儿」看来,这种结合将推动多模态应用和基础设施的发展,创造新的交互方式和应用场景。

在技术融合方面,生成式AI技术的发展,尤其是大语言模型的进步,使得机器能够更好地理解和生成人类语言。与RTE技术结合后,生成式AI可以实现更加自然流畅的语音交互,极大地提升了用户体验。

在应用场景拓展上,生成式AI与RTE技术的结合,为实时互动带来了更多可能。智能客服、在线教育及游戏娱乐等场景,生成式AI都能够通过自然语言处理技术,为用户提供更加个性化的服务。

提升用户体验方面,生成式AI技术的应用,使得实时互动更加智能化。无论是智能打断、抗噪声能力,还是遵循语音指令,生成式AI技术都能够提升用户的实时互动体验,使其更加自然、流畅。

因此,随着生成式AI技术的不断成熟,越来越多的企业将其应用于RTE场景中。声网等企业在RTE+AI、RTE+IoT等方向上的积极探索,也将进一步推动生成式AI与RTE结合的应用落地。

0 阅读:1