大模型重塑智能硬件！人手一个智能助手的时代来了？

▲图像由AI生成

能“动口”解决的事情，不用总是“动手”啦。

作者 | 徐豫

编辑 | 漠影

在生成式AI浪潮的影响下，智能硬件开始出现全新的人机交互体验。

AI智能助手更有针对性地实时解答你的“十万个为什么”；AI卡片录音机能帮你实时转写会议内容，还随手就罗列好了会议总结、要点分析和待办事项；AR眼镜戴上后就能看到文字、图片、视频中的实时多语言字幕；智能门锁会根据来访人士定制主人的声音，模仿你的声音取快递、拿外卖，或者改变声音语调以恐吓无关逗留人士；毛绒小熊真的成为孩子的知心朋友，可以一起聊聊烦恼、疑惑和心事……

可以预见，更智能化的多模态大模型赋予了智能硬件新的生命。

就在上周六，RTE 2024第十届实时互联网大会IoT分论坛圆满结束。多位AI智能硬件赛道的资深人士齐聚一堂，共同探讨如何让“智能硬件产品们”迎头赶上AI的好时代。声网IoT行业负责人吴昌儒、旷视增值业务部负责人史泽鸿，海马爸比联合创始人谭国豪、佐臻科技技术经理徐偉恩、小米Xiaomi Vela开源负责人杜超、莲偶科技软件部总裁杨旺分享了他们在打通AI与智能硬件屏障方面的实战经验。

01 .

AI驱动多模态交互，人机互动更自然

在传统的硬件设备中，人机交互大多通过按键、触摸屏等图形用户界面（GUI）来完成。但随着AI技术的引入，尤其是对话用户界面（CUI）的崛起，用户可以通过语音、视觉、手势等多种方式与设备进行互动，带来了更加自然、直观的交互体验。

“AI驱动的智能硬件不再单纯依赖固定的功能按钮或菜单，而是通过对用户意图的理解，围绕用户想要完成的任务进行设计。”声网IoT行业负责人吴昌儒举例说道，智能家居中，用户仅用一句话便可触发多个设备的联动，说出“我要看电影”，AI系统随之做出自动调节灯光、开启电视、调整空调温度等操作。这种基于任务导向的设计，让用户体验更为丝滑和智能，大幅减少了手动操作的繁琐。

住着一个AI Agent的智能硬件不用再孤立工作，而是能够与其他智能硬件之间形成互联，彼此协作。也就是说，每个设备中的AI Agent都能独立执行特定任务，同时也能根据需求与其他AI Agent协作，整体上是一个复杂且灵活的智能系统。

现场，其他与会嘉宾也围绕各自产品或业务在AI方面的落地各抒己见。

长期以来，AI与AR的结合都是智能眼镜的理想答案。对于听音乐、拍视频、翻译等需求，不少市面上在售的AR眼镜都基本能满足，佐臻科技则为AR眼镜找到了更多个性化的应用场景。

其最新款的AR眼镜不仅适用于跌倒检测、呼吸监测等看护场景，还可以满足AI或XR多人混合实时互动算绘场景的需求。也许在不久的将来，只要一副AR眼镜，人们就能远程观展、跨国云旅游、多语言同声传译、实时共享影片、异地协同查看云端文件和3D模型。

按照徐偉恩的设想，装备了AI引擎的AR眼镜未来将即时提供更多个性化的反馈。举个例子，你佩戴着AI眼镜，刚好路过了一辆停在路边的车，你多看了几眼这辆车的Logo，AI眼镜会猜到你可能对这个汽车品牌感兴趣，随之提供相关的信息。值得一提的是，这种呈现信息的方式是私人化的，可以降低人们对信息共享的顾虑。

在徐偉恩看来，声网的语音交互技术充当了AI智能硬件实时人机交互的关键神经元。而AI智能硬件只有真正实现随时随地调用资料、与人交互、与环境交互后，才能与真实生活串联起来。

当底层的语音技术还较为稚嫩时，人们很难想象手上一枚小小的戒指，也能将AIoT的风吹到直播出海这一领域。

莲偶科技最新的空间戒指TOALL L-Ring 2通过多模态大模型落地了录音转写、AI对话、同声传译等功能，有助于人们在直播、讲课件、播放PPT、看电视以及驾驶过程中尽可能解放双手。未来，外贸主播在直播过程中，戴上它“挥挥手”就可以完成口型视频合成、情绪模拟、声纹模拟、语音合成等，从而同步、同时生成多语种的直播间。

水准较高、稳定可靠的实时AI语音交互技术，可谓是AIoT的强心剂。AI智能硬件若能及时语音反馈危险情况，在关键时刻或许能“救命”。

基于高精度的数据训练，海马爸比的婴儿看护机可以实时监测婴儿的睡眠情况和哭声，判断婴儿是否“遮脸”，并针对可能窒息的情况做出提醒。海马爸比联合创始人谭国豪告诉智东西，有了AIoT智能硬件技术的加持，新一代的婴儿看护器对婴儿哭声、状态的识别更敏感，可以及时发现吐奶等其他可能引发窒息的情况。现在，AI智能硬件或许比新手爸妈更能听懂婴言婴语。

海马爸比下一步计划将这些AI智能硬件融入个性化育儿教育、优化睡眠的婴儿房环境、互动式讲故事、协作式育儿支持等场景，为每个有娃家庭安排一个工作经验“无上限”、具备专业知识的“智能保姆”。

谭国豪称，声网的AI x IoT智能硬件解决方案可以有效解决“自动化场景但被动化输出”的AI技术应用困境，推动了智能硬件从工具转向服务。在他看来，AIoT中的AI智能硬件不应是被动地监测和响应，而是生成有意义的内容，并与用户展开有效互动。

小米则选择用一个面向轻量AI智能硬件的系统“Xiaomi Vela”，来串联起不同生活场景中的智能硬件。将来借助该系统，小米的智能手表、智能手机、智能平板和智能电视等硬件可以在其AIoT网络中实现联动。

旷视科技的AI生产力平台Brain++已实现AI视觉算法的快速量产，并将其与智能门锁、宠物智能用品、养老机器人、体育及训练等场景相结合。

其中，在宠物智能用品方面，Brain++可以提供诸如宠物检测、猫脸识别、猫砂检测和宠物Vlog等功能。在智能门锁方面，其可以实现生物特征识别、人员分析、快递和外卖提醒、儿童和宠物离家、邻居隐私保护、AOV和时光浓缩等功能。

02 .

秒级人机对话，生成式AI盘活IoT生态

相较于触控、空间手势等人机交互方式，语音交互的技术和形态更成熟，上手难度也更低，在AI时代仍具有独特的发展前景。吴昌儒提出多模态交互、对话式交互、大模型三者共同构成了AI Agent（智能体）。

同时，语音交互技术作为AI智能硬件的底层技术之一，其即时性、准确性水平高低，在很大程度上影响着用户的人机交互体验。从“喂，Siri”，到红极一时的智能音箱、故事机，再到当前快速迭代的多模态大模型，人机语音交互的体验正在不断优化。

吴昌儒认为，实时、准确、跨平台是AI Agent真正能够引入智能硬件的关键，声网AI x IoT智能硬件方案应运而生。该方案能够在低功耗、低算力芯片上快速实现大模型的接入，具备低延时实时互动、低成本灵活适配的特性，通过丰富的功能在智能硬件场景中构建真实、自然的 AI 语音交互体验。

例如其对交互延迟进行优化，语音交互延时低至1s内；支持多模态 AI 语义识别和理解；支持 AI降噪，保证清晰的语音交互；支持小包体、低内存、低功耗；适配超70种主流、高性价比的芯片等，帮助开发者与企业快速构建适配自身硬件的 AI 实时语音对话服务。

声网AI x IoT智能硬件解决方案进一步优化了端到端互动体验，实现了人与设备之间基于大模型（LLM）的毫秒级互动体验，并且在80%丢包情况，即网络较差的环境下，仍能做到音频通话流畅。

为了让整个集成更加简单，声网还提供了模块化的组件。企业无需额外集成STT、TTS这些模块化的组件，就可以达到音频的端到端对话目的。

除此之外要让AI听得懂，收集的信息更有效，AI降噪算法和VAD控制是非常重要的一环。为此，声网自研了AI降噪算法，可以有效抑制键盘、脚步、杂音、啸叫等超100种常见噪声，同时为了改善驾驶、商场等场景的收声效果，也针对性地优化了算法。

在流畅和清晰的基础上，声网还追求语音对话过程中自然的交流感。其AI x IoT智能硬件方案支持AI-VAD技术，具有较高的语义理解能力，可以随时打断说话，模拟了人类对话时的真实反应。

除了推出内嵌多模态大模型的AI原生设备，AI智能硬件厂商还可以通过一套AIoT智能硬件解决方案和系统，复用现有的IoT资源，提供更进阶的人机交互体验。对此，声网最新的AI x IoT智能硬件方案也能在兼容性和商业化落地上提供支持。

该方案适配超70种主流、高性价比的芯片或模组，包括展锐Cat.1系列芯片、乐鑫ESP32-S2/S3、BK7256、BK7258、杰理AC7916、博流BL808等RTOS芯片，以及高通、联发科、君正、Sigmastar、全志、海思、Mstar等Linux芯片。

在低功耗、低算力芯片上快速接入多模态大模型这一特点，解决了部分采用端侧AI的智能硬件由于算力不足，AI功能开发受限的痛点。这也意味着，许多做IoT的企业可以利用声网的模块化组件快速挂上AI Agent，拥有AI能力，并获得新的商业化引擎。

总的来说，声网的AI x IoT智能硬件解决方案针对生产力、情感陪伴、穿戴式装置优化了AI语音交互体验，具备低延时实时互动、低成本灵活适配的特性，从而在智能硬件场景中提供真实、自然的AI语音交互体验。

03 .

结语： AI智能硬件越来越有人情味

不少AI智能硬件上下游厂商关注到一些更具有人文意义、更贴近人性的领域。

声网为独居人士提供了AI对话式的智能门锁解决方案；旷视科技自研算法生产平台AIS首次应用于非遗文化保护；海马爸比为自闭症儿童推出了一款心理咨询机器人，心理医生可以通过此类机器了解到患者更真实的想法，从而提供更准确的心理疗愈方案。

有了AI Agent的加持，物联网中各个组件之间可以更高效、灵活地通信和任务调度。AI智能硬件的角色也从“管家”变成“卫士”，未来不仅可以帮人们减少一些重复性的劳动，还可以执行更多人们原本难以兼顾的工作。

古典风资讯网

大模型重塑智能硬件！人手一个智能助手的时代来了？

智东西