《机器人总动员》里,人类在浩渺宇宙中漂泊流浪,所有工作皆由机器人承担。这原本看似遥不可及的科幻场景,如今是否正在逐步朝着现实迈进?
7月11日,未来图灵就此与大陆智源CEO高源进行了对话。他表示,凭借庞大的规模和强大的学习能力,AI 性能的显著提升已成为不可逆的趋势。高源指出,在AI 大模型的新时代背景下,成功的衡量标准已远远超越用户规模这一单一维度。如今,更是聚焦于技术如何深度融入行业,使之成为推动社会进步和生产效率提升的强劲动力。在 AI 大模型时代,我们不应再局限于移动互联网时代的成功模式,而应超越传统的思维框架,去探索 AI 技术在各行业中的深度融合与应用。
随着AI 行业的逐渐成熟,高源观察到业界正从对“超级应用”的盲目追捧转向对应用价值的深入挖掘。他指出,AI 技术的本质是服务于实际需求,而并非仅仅追求数字上的扩张。面对行业中对用户规模的过度关注,高源呼吁业界回归技术应用的本质,通过解决实际问题来创造真正的社会价值。
大陆智源创始人--高源
大模型为什么“大”?未来图灵:大模型在AI领域的具体定义是什么?大模型在AI机器人领域扮演着怎样的角色?高源:AI这个概念十常宽泛,且随时间(的推移)不断演变。回顾过去,从 90 年代初期模仿人脑的神经网络算法,到后来的模式识别、深度学习,都在人工智能的大框架下不断进化。大模型的出现,不仅是算法层面的重大升级,更是硬件技术发展到一定程度的必然产物。硬件技术的提升,尤其是单体算力和并行运算能力的显著增强,为大模型的诞生奠定了基础。大模型之所以“大”,在于其规模宏大,无论是样本数据还是学习量,都达到前所未有的规模和强度。这使得人工智能算法在性能上实现质的飞跃。这种提升主要体现在两个方面:首先,是AI 本身效果的提升。当学习样本数量充足时,AI 算法通过大量训练,能获得比以往更精准、更深入的理解。这种训练效果与样本数量和学习深度密切相关。过去,受算法和运行方式限制,无法达到大规模训练效果。但在大模型概念下,训练数据量和次数能提升千万倍,极大提高了 AI 算法的效果。其次,大模型强化了 AI 的反馈机制,增强了逻辑推理和数据关联的能力。在边缘计算和云计算的背景下,大模型提供了更强大的数据收集和学习能力,使不同区域、不同场景下的应用能更有机地融合环境信息和学习样本,推动了“云脑”概念的实现。总之,大模型对人工智能的影响是全方位的,不仅提升了算法效果,还促进了不同设备和应用的协同,为人工智能的未来开辟了新的可能。大模型为机器人装上“云脑”未来图灵:大陆智源主要研究方向是机器人,您认为大模型在机器人行业有哪些具体意义?高源:机器人本质上是高度自动化和智能化的机械,涉及机械自动化和智能等多个层面。AI 作为机器人的一部分,对机器人的运行效果和智能程度影响重大。我们熟悉的自动导航、物体识别、影像识别等,都是 AI 在机器人应用层面的体现。大模型的出现,从机器人工作角度看,首先会显著提升机器人的决策系统。决策能力的提升源于机器人对环境复杂度的理解和经验积累。机器人的经验,实际上是通过大量数据学习得来。例如,安防巡检机器人在各种场景下,如社区、工厂、大型仓库或广阔的自然环境,都能收集到不同的场景数据,获取丰富经验。
这些数据不仅能用于学习,当运行场景足够多、获取的样本数据足够丰富时,还能共享。机器人之间能共享相同经验数据,获取相同知识,类似“云脑”概念。同时,这些数据也可能分享给其他公司的机器人,尤其是在复杂场景中收集的数据,其细致度更高。
例如,在室内和仓库环境中,机器人通过视觉和各类传感器收集到的环境信息,都是宝贵的学习资源。通过大模型的理念,将这些数据作为机器人的经验,能指导机器人更有效地学习和适应。最终,将形成一个高效的学习系统,即更有效的决策系统。这套决策系统能提高机器人在不同场景下处理问题的效率和精准度。这是机器人与大模型结合的重要意义,不仅提升了机器人的性能,也为机器人技术的发展创造了新的可能。
用户需要更像人的机器人未来图灵:除了增强数据收集能力外,大模型还能在哪些具体功能上提升机器人的性能?高源:机器人的工作过程不仅取决于硬件功能,还涉及软件层面的智能。例如,我们的巡检机器人,基本功能包括巡逻、发现问题、处理或汇报问题。在基本层面,机器人要完成如走好路线的任务,遇到简单问题,如发现烟雾或有害气体泄漏时,进行汇报,这些都是基本功能的实现。然而,机器人在高级层面的功能实现上,仍需进一步提升。比如,对于门缝的识别或判断乱堆乱放的情况,在不同场景和光线下可能存在识别困难。尽管机器人在某些方面可能优于人类保安,如拥有更多传感器,但在细致程度上,我们仍在努力提升机器人的智能表现,使其向人类看齐甚至超越。大模型的应用在此发挥关键作用。通过大模型,能进一步提升机器人的智能表现,使其在处理复杂问题时更精准高效。用户对于更像人类的机器人,如保安机器人,接受度会更高。这不仅提升了用户体验,也使机器人能在完成基本巡检工作的基础上,实现更复杂的功能。此外,我们还有针对特殊场景或复杂环境设计的特种机器人。以边境巡检为例,边境线环境复杂,包括山林、河岸、戈壁或荒芜地区。在这样的环境下,机器人需要更精准的场景学习和判断能力,以及更人性化的行为表现。结合更好的训练体系,机器人在这些复杂地形中的工作表现将更出色。总的来说,大模型的结合不仅提升了机器人在数据收集方面的能力,更在智能决策、环境适应性、任务执行效率以及与人类的交互能力等方面带来显著提升。
机器人等于人类员工?未来图灵:在此次参观大陆智源的盐城工厂中,我们见识了许多先进的机器人技术。然而,我们暂时没有看到与人类进行交互的机器人。您能否介绍一下目前机器人与人类交互技术的发展阶段和实际应用情况?高源:交互形式丰富多样,通常我们理解的交互可能首先是语音交互,这在日常生活中十分常见。现代的语音交互技术融入了大模型技术,使交互体验显著提升。虽然我们的产品也具备语音交互功能,但相较于一般的迎宾或对话机器人,我们的机器人在工作层面与人类的交互更深入。除了语音交互,我们的机器人还通过动作进行交互。例如,在巡检或其他工作过程中,如果发现人类目标,无论是熟悉还是陌生的,机器人会通过肢体或动作来响应。夜间巡逻时,如果机器人发现人影,可能会停下来注视,并通过灯光或警示进行交互,以引起注意。然而,更深层次的交互来自于用户端。机器人会像人类员工一样,在日常巡逻中发现问题并向上级或同事汇报。可以通过监控后台、微信或手机短信发送消息。此外,机器人会有工作日志,用个性化和人性化的口吻记录每天的活动。每周和每月,机器人会自动生成周报和月报,这些报告对企业管理或社区安防具有长期的数据支持作用,为安保工作的安排和调整提供参考。在安防巡逻领域,这种工作层面的交互实际对管理具有重要价值。因此,交互不单是语音,还包括动作、汇报、日志记录等多种形式,这就是我们对机器人交互的理解。
让机器人的感知能力融入算法及“人生经验”未来图灵:关于李彦宏提出的:“没有应用的大模型一文不值。”这个观点您怎么看?高源:我赞同李总的观点。早在2016至2017年间,我与人讨论过这个话题,当时我们专注于机器人本体的工作。我在人工智能领域工作已久,自2010年开始,并于2011年在北京办公室完成了我们第一台机器人模型的制作。最初,我们从事纯算法研究,包括人工神经网络和人工智能。但后来我们转向了机器人本体,因为我们发现单纯的算法难以产生有价值的应用。我们曾梦想创造类似《钢铁侠》中JARVIS那样的人工智能助手,能够提供人性化交互和智能服务。但我很快意识到,没有实体交互的纯算法很难实现这一点。我曾进行一个思想实验,思考如果将大脑置于真空无重力的宇宙环境中,它是否还能产生思想。这个实验让我意识到,所有生物的脑活动都与感知密切相关。智能的产生,需要有与环境的互动和感知能力。我深刻理解到应用需要与本体相结合。智能的产生,首先要有自我感知能力。自我感知与自我意识不同,例如单细胞生物具有自我感知能力,但不一定有自我意识。为了让机器人产生智能,我们首先要赋予它自我感知能力,然后在这个基础上进一步发展智能,甚至在未来可能实现自我意识。所有的智能都需要一个载体,这也是我们后来专注于机器人本体开发的原因。我们致力于增强机器人本体的感知能力,使其感知能力融入算法和“人生经验”。智能就像汽油,它需要一个载体来体现其应用价值。而机器人本体则是驱动智能的载体,二者相辅相成。大模型只是过渡产品,不宜过度夸大未来图灵:您认为大模型的未来趋势如何?高源:我认为大模型只是人工智能领域的过渡阶段,未来会有新的技术替代。我在技术领域已经工作了二十多年,这期间我深刻理解到,技术始终在不断演进,新的技术不断涌现,旧的技术则不断被替代或升级。这是一个简单的道理,背后的逻辑是,我们不应过度吹嘘任何一项新技术的伟大,因为技术的迭代速度非常快,可能3到5年就会出现新的、颠覆性的概念和技术。从人工智能研发的角度来看,算法始终受限于硬件。目前的计算机体系架构仍然基于冯·诺依曼(John von Neumann,“计算机之父”)模型,尽管在不断升级,但我们知道人工智能的目标是模拟人脑或动物大脑的工作方式。我们的算法需要与硬件相匹配,而所有算法的运行都基于传统的计算机架构。现在,有许多研究机构和科学家正在进行类脑硬件的研究,并取得了一些阶段性成果。在未来5到10年,甚至20年内,我们可能会看到计算机硬件发生巨大变化,转向类似人脑的神经体系结构。人脑的神经系统是存储和运算一体的,神经元既负责存储也负责运算,而现代计算机则是将存储和计算分开的。人脑的神经元以百亿为单位进行大量并发计算,而即便是最先进的NPU或多GPU并联机构,也达不到这样的数量级,且在物理结构上也存在差异。大模型虽然相比以前有了巨大提升,但仍然只是基于原有计算机架构的算法体系。从这个角度来看,它仍然只是一个过渡产品。我认为,下一代更优秀的算法将出现在类脑硬件研究取得突破之后,这将为算法带来更优异的结果。
如何让机器人的“云脑”知识更渊博?未来图灵:在技术融合方面,您认为AI大模型与5G、边缘计算等技术的结合将对移动机器人的操作产生哪些关键影响?高源:我们一直在追求一种效果,即所有的机器人能够共享相同的经验,通过一个类似云的系统,也就是我们所说的“云脑”。我会不断地将所看到和经历的东西上传到云脑中,这是一个服务系统,可能是集中式的服务器,也可能是分布式的服务器。同时,我会不断更新自己的经验,使自己变得更加知识渊博,处理问题时更加高效。要实现这一目标,包括边缘计算、5G和大模型在内的现有技术都在为这一效果的实现过程中发挥作用。边缘计算大大减轻了主服务器的运算压力,并能更好地处理终端提交的数据。5G技术确保了这一切的快速发生,而大模型则帮助我们更好地收集、处理和分析信息。当然,这只是理论上的可行方案,真正将这些技术有机结合在一起,还需要一个漫长的过程。但我们现有的产品已经有了一套完整的网络体系,包括云端分发服务和机器人本身的辅助计算单元,如GPU和NPU。我们会将机器人的视觉、识别、导航等功能分摊到不同的计算单元上处理。当遇到需要大量计算的问题时,我们会利用云端的计算能力来辅助机器人。虽然机器人本身的运算能力有限,但学习和经验的归纳主要还是放在云端,再由云端分发给机器人。机器人会不会侵犯隐私?未来图灵:随着AI大模型的引入,机器人将收集和处理大量用户数据。请问大陆智源如何确保这些数据的安全性和用户隐私的保护?高源:在我们的工作中,我们不收集任何隐私数据。收集的是事件数据,例如在工作中遇到的问题,比如如何处理复杂地形。这些数据在云端不做任何保存,无论是影像数据还是其它类型的数据,我们都不会进行存储。以安防机器人为例,我们的机制是这样的:所有的影像数据仅在机器人本体上保存。除非有特定的需求,我们才会为客户建立存储服务器。但在正常情况下,我们的云端只负责分发和计算,而不承担存储功能。我们的主要工作是对路线进行优化和事件识别,这些数据可能会作为学习对象,用于进一步优化和分发。根据不同用户和场景的需求,我们会有不同的处理方式。在大多数普通场景中,我们的日常数据不需要进行特别复杂的处理。对于那些有商业机密或保密单位的用户,我们提供了一种服务,即机器人可以脱离网络,自动运行的模式。这些都是根据具体场景进行的具体调整。
发现火焰,机器人必须能够紧急处理未来图灵:想了解一下大陆智源机器人中使用的AI大模型是自行研发的还是采用了第三方技术?除了安防巡检外,大模型在机器人中还有哪些应用场景?高源:我们有自己的大模型体系架构,使用了一些开源模型,并与多个研究机构和高校合作,如移动研究院和西安电子科技大学人工智能学院等。大模型在我们的多个场景中扮演着重要角色,包括巡检场景和感知能力,这是一个比较通用的方向。我们不仅在安防领域应用大模型,也在应急场景中利用它进行事态感知,比如发现烟雾、火焰、气体泄漏等情况。如果发现火焰,逻辑上讲,配备消防能力的机器人,它需要自行处理,或者呼叫专业消防机器人。因为这是一个高级别的事件,紧急度高,需要百分之百的确认,这个确认过程必须由人类来做最终判断。目前,使用大模型要根据场景的具体标准来进行。许多场景尚未制定相关标准,我们便根据一般的工作要求和逻辑来设计和处理。所有决策都起到辅助作用,根据决策等级来判断下一步行动。例如,发现烟雾可能是一个较低等级的事件,我们可以通过自身的决策体系安排工作,并同时通知监控和相关人员。
ANDI机器人智能巡检机器人后台操作系统
“技术变革焦虑”其实没必要未来图灵:高级AI和机器人技术的发展对人才提出了哪些新的要求?会不会有机器人替代人类的现象出现?高源:自从90年代末期开始学习技术以来,我经历了多次因技术变革带来的焦虑。从家庭电脑的普及到办公软件的广泛应用,每次都伴随着对工作岗位变动的担忧。但从历史的角度来看,每过3到6年,社会上就会出现新的岗位,旧的岗位可能消失,这是一个必然的过程。技术的发展并不意味着提高了技术人才的门槛。一个好的开发者需要不断学习新技术和适应市场。每个工作岗位都需要不断学习和提高。我们非常重视自我培养人才,而不是被市场炒作所左右。技术人员的价值不应该因为某些技术的流行而被高估或低估。就像Java刚出现时,架构程序员的工资特别高,但过了几年,市场就趋于平衡。To B或To C不等于赚钱或不赚钱未来图灵:您对AI大模型在机器人行业中的长期愿景是什么?您认为机器人技术在未来十年将如何演变?在AI机器人领域,To B和To C哪个方向更有潜力?
高源:短期来看,面向消费者(To C)的产品更容易实现,因为家庭环境相对简单,变化不大,功能要求简单,成本较低,用户的容忍度也较高。例如,家用扫地机器人即使有些地方没扫干净,用户也不会特别计较。然而,面向企业(To B)的产品则不同,商业清扫机器人如果经常出现问题,B端用户的容忍度会非常低,因为它们成本高,对效率和性能的要求也更高。
但从长远来看,To C和To B的产品都有其重要性和市场,并没有哪一个更赚钱的说法。未来,B端的场景将会更多,不仅在商业场景中,甚至在农业、工程、矿山、工地等我们不常看到的地方,机器人的作用将非常重要。这些地方的工作往往辛苦且危险,将来很可能没有人愿意去做。例如,现在农田里45岁以下的人几乎已经没有了。还有一些我们日常看不到很容易忽略的地方。海洋,尤其是深海区域,这些地方是未来全球会争夺的巨大领域。在几千米深的水下工作,靠人是做不到的,必须依靠技术,也就是机器人。未来所有的工作都由机器人完成未来图灵:对于国家发布的《关于打造消费新场景培育消费新增长点的措施》中对人形机器人的强调您怎么看?高源:人形机器人是一个具有巨大潜力的发展方向,尽管短期内实现商业化存在挑战,但长期来看,它的市场前景非常广阔。人形机器人最适合的工作场景是服务领域,因为我们的生活和工作环境都是根据人的体型设计的,无论是门的宽度、楼梯的高度,还是道路的宽度,都与人形机器人的体型相匹配。但我们公司有着明确发展规划:一是优化全地形移动机构,不断迭代轮式、足式、履带式;二是与伙伴扩展生态,实现多场景功能应用。在算法和系统层面,有依赖类脑硬件前瞻性研究的强人工智能体系计划。从市场结构看,大陆智源的产品分民用和军事领域。民用领域专注安防巡检、应急救援等,如机器人底盘能适应森林防火等复杂场景,能爬山、携重消防设备、拖拽水袋,此类产品尚缺。我们因兴趣和愿景进入机器人行业,希望未来机器人广泛应用于各领域,如家庭、服务业、工业等。若机器人能替代所有人类工作,将迎来物质极大充裕的社会,如电影《机器人总动员》中,人类在宇宙流浪,所有工作由机器人完成,那将是一种理想式的生活。
《机器人总动员》电影画面
我们处在机器人和AI技术发展的“黄金时期”未来图灵:您可以介绍一下大陆智源机器人的特点么?高源:自去年在盐城设立工厂以来,我们的研发和制造能力得到了显著提升。通过建立本地加工中心和研发团队,我们实现了从设计到制造的快速迭代,极大地缩短了产品开发周期。这一模式不仅提高了我们的研发效率,还促进了本地人才的培养,形成了良性循环,推动了我们的技术创新和产品升级。在硬件领域,我们的自主加工能力使我们能够迅速响应设计变更,加速产品迭代,确保产品质量和竞争力。我们正处在机器人和人工智能技术发展的黄金时期,通过不断的技术创新和应用探索,我们致力于构建一个更加智能、高效、安全的世界,让科技真正服务于人类,提升生活质量,共创美好未来。在人工智能领域,我们不仅关注机器人产品的智能化表现,而且在机器人的关键零部件上,我们的智能体系和算法也发挥着巨大作用。我们的大多数关键零部件都是自研的,包括电机、减速器、控制器、轮子和轮胎,这使得我们的自研程度非常高。在电机控制方面,我们对算法的要求非常高,而在运动算法方面,由于我们的机器人底盘结构复杂,具有多轮独立转向和控制能力,因此对算法的要求也非常高。我们希望将来能将大模型的概念或思路融入到电机控制的开发和调试中。我们的底盘在行业内的综合指标一直处于领先地位,即使在全球范围内也具有竞争力。在底盘设计时,我们考虑了运动方式、体型和越障能力三个要点。我们希望机器人的运动方式能像人一样灵活,体型适中,不依赖棱镜实现越障,即使轮径较小也能克服较高障碍。我们的特种机型“捕鸟蛛”体现了我们的仿生设计理念。在自然界中,六足结构是最稳定的,这也是我们在设计时的心得和理念。我们非常开放地与其他公司合作,积极参与构建生态系统。例如,我们的机器人底盘被许多同行和其他公司采购,用于他们的上装安装和应用,尤其在应急领域,很多生产应急设备的公司使用我们的特种机器人搭载高效灭火设备,实现复杂场景下的灭火救援功能。大模型没有自我意识,“认错”只是基于算法反馈未来图灵:对于易观国际集团董事长于揚提出的“我认为人工智能大模型的发展已经超越了技术层面,它们能够生成基于自身理解的独特看法,展现出智能特质。”您对于这个观点怎么看?高源:自我意识的产生基于自我认知,这是意识形成的前提。没有自我认知,所谓的自我意识就是无本之木。自我意识具有认知能力和主动性,能够自主学习并抽象理解事物,这是真正的智能所特有的,而非单纯的算法所能实现。关于大模型的“认错”行为,这实际上是基于算法的反馈,而非真正的理解。我们对“认错”有认知,但算法并不能真正理解这一概念的抽象含义,这是智能与算法的分水岭。在讨论算法可能存在的偏见和歧视问题时,这其实是一个长期存在的问题。问答机器人和对话类应用,包括大模型在内,很大程度上取决于输入的数据。数据的质量直接影响算法的输出,可以说是“喂给它什么,它就长成什么样”。因此,我们需要在算法设计和数据输入时谨慎,同时也要在算法输出时设置“防火墙”,避免误导。大模型不应该被过度吹嘘或依赖。尽管算法本身可以解释,但算法的不透明性,即“黑箱”问题,常常令人存疑。我们可以理解算法的输入和输出,但具体如何运作有时仍然是一个模糊的界限。用户信任建立在算法的透明度和可解释性上。在某些场景中,我们可以相信算法的决策,但当涉及到知识获取,尤其是公开场景时,我们不应过度依赖大模型。算法的黑箱特性并不是问题,只要输出符合预期,即便我们不完全理解其内部机制,也可以认为它是一个好算法。