本文编译自播客节目Generative Now Podcast。在本期节目中,长期创业者和创业投资人Elad Gil,前Greylock总合伙人、Conviction创始人Sarah Guo和Lightspeed合伙人Michael Mignano共同审视AI投资的广阔世界。
Elad Gil是硅谷知名的Solo VC 投资人,参与投资了Perpleixty 、Character.ai、Mistral、Harvy 以及 Pika 等知名 AI 初创公司。去年11月, Elad Gil完成了第三支基金募集,也是迄今为止规模最大的基金——总计超10亿美元;据悉,这支基金从 54 位 LPs 那里获得了近11 亿美元的承诺,相比 2021 年关闭的 6.2 亿美元基金规模扩大了 77%。
在访谈中,Gil表示新型模型公司仍然有可能出现,部分基础模型将被通用模型采用,而另一些则需要在训练数据集和架构方面进行微调。此外,Gil还提到,AI公司应该更关注专注于客户需求,而不是将注意力集中在模型构建上。
以下为本文目录,建议结合要点进行针对性阅读:
01 AI将迎来五个人力资本浪潮
02新型模型公司仍然有可能出现
03下一波应用浪潮会是什么样子?
04谁会赢得AI:B端还是C端
05提供AI服务 VS 使用AI服务,谁将是头号赢家
06垂直整合的模型
07聊天界面,会成为主要的交互方式吗
08硬件 x AI
09Web3,将是验证真实性的途径
10AI监管将走向何方
/ 01 / AI将迎来五个人力资本浪潮
Michael Mignano:你们都是聪慧老练的投资者,有预见到2023年AI投资领域会是这样吗?
Sarah Guo:我们做了一个长期的赌注。我们在2022年10月创立了Conviction,随后在11月就出现了ChatGPT时刻,用户的反应还是很出乎我的意料的.我本以为这样的时刻会出现得更晚一些。而且我们看到人工智能飞速发展乃至遇到了扩展的瓶颈,Transformer模型变得越来越有效,长期存在的开放性问题也得到了解决……这一切都令人激动。我本以为这会是一个比较缓慢的推进过程,我会有更多的时间组建基金,但我想现在的这种速度令所有人惊讶。
PS:Samsara是一家总部位于美国旧金山的传感器数据平台,为客户提供大量追踪服务所需的物联网传感器硬件和软件产品
Anduril Industries 是一家国防产品公司,其产品是由AI驱动的开放操作系统Lattice OS,该系统将自动化感知和指挥控制能力与开放、模块化和可扩展的硬件组件连接起来,为防务任务提供自动化解决方案。
Elad Gil:我从20多年前谷歌时期就开始从事人工智能领域的工作,当时我正在研究早期的机器学习,也就是深度学习之前的时代。后来深度学习兴起,我在过去10年里投资了很多公司,但绝大部分都没有取得成功。当然也有一些公司利用了人工智能作为辅助或赋能的手段,从而发展壮大,比如我投资初期的Samsara和Anduril等公司。
对我来说,真正的转折点是GPT-3的出现,因为它比GPT-2有了质的飞跃。GPT-3发布时,我在播客中表达了我的兴奋之情,甚至主动联系了他们,想要合作探讨。后来我们确实就加密货币、人工智能等几个主题与Chris Dixon和Scalar Capital合作过。
当GPT-3出现时,人工智能领域又向前跃进了一大步。从那时起,我开始大量投资并接触研究人员。有些人主动联系我,比如我以前就认识的Character.AI的Noam,他说想创立一家公司;还有Perplexity公司的Aravind,我们开始经常聚会,讨论潜在的创业机会。
简而言之,技术在短时间内实现了巨大飞跃,但当时几乎没有人真正关注它。这简直就像是一个黄金时代,聚集了众多有趣的想法和人才,但几乎无人问津,这让人非常兴奋。
Michael Mignano:Sarah,你之前提到通过观察事物的发展趋势,几乎可以预见这种突破性进展的到来,尽管你没有预计它会发生在ChatGPT问世的那一刻。现在,当展望未来时,感觉我们似乎处于发展曲线的中间阶段。你们认为人工智能的发展是会在不久的将来就趋于平缓,还是在可预见的未来我们将一直保持直线上升的轨迹?
Sarah Guo:我不想过多重复加密货币投资者的观点,但我确实感觉我们目前处于人工智能发展的非常早期阶段,未来我们将获得堆叠式的能力提升。
投资时机非常重要。如果时机稍早或稍晚都无关紧要,关键是要有独特且极具创新性的见解。在技术变革期间,即使进入较晚,只要有足够独特和聪明的见解,也是可以的。
更重要的一点是,作为投资者,你必须通过足够的实践和尝试,无论是作为创始人还是投资者,来了解我们距离人工智能成熟发展还有多远。我之前在Greylock工作了十年,投资了一些上一代的机器学习公司,可能有些为时过早。
事实上,今天最引人注目的那些创始人都研究人工智能很长时间了,比如你们都认识的来自Weights & Biases的Lukas,他之前尝试过一次,但当时进场太早,没有取得成功。
就我个人而言,大约三四年前,我投资了Base10,而今年它终于开始真正落地运作。我们也在Inflection公司下了重注,这个公司的名字选得很贴切。除了OpenAI之外,Inflection是最早一批专注于基础模型的公司之一。
也许从规模成本的角度来看,推动大型语言模型继续突破现有水平变得更加困难,下一组训练数据的来源也不太明朗。但随着越来越多的人关注人工智能,生态系统得到更大规模的支持和资金投入,人工智能发展将有更强的复合效应。所以我认为我们现在处于人工智能发展的相当早期阶段。
Elad Gil:我认为人工智能仍有大量增长空间。ChatGPT对大多数人来说是一个发令枪,包括我们,因为目前基本上还没有真正的企业级大规模部署应用。所以这将是一个大浪潮。
总的来说,我认为将会有五个人力资本浪潮 。
Aravind Srinivas,Perplexity创始人
第一浪潮是原生人工智能建设者,他们一直在研究大型语言模型和基础模型,希望做出应用程序。这就是Noam创办Character.AI的原因,他是Transformer原作之一。还有来自Perplexity的Aravind等人,他们都曾在谷歌、OpenAI或Facebook等公司工作。
第二波是一群极客,我也将自己归入这一阵营。他们是经验丰富的开发人员和基础设施人员。他们中的一些人早期就开始创办公司,比如Sarah提到的Base10,但也有一些公司成立较晚,比如Together等,它们现在为这些模型提供支持服务。我们经历了一个基础设施浪潮,现在仍在持续,同时涌现出像Braintrust这样的工具公司。
第三浪潮将是ToB应用程序开发者。我认为很多在一年多前听说过ChatGPT的人,可能六个月前就已经辞去了工作,花了几个月的时间思考,现在正在开始创业。所以我们会看到一波企业级应用程序浪潮。随后的第四浪潮将在ToC应用领域出现。第五个浪潮将出现在企业级的实际大规模部署应用方面。
所以我认为这将是一波接一波的人潮,他们在时间上有所错开,具有不同的技术能力,专注于产品或工程思维等等。当然也有一些夹在中间的人,比如Harvey团队就是一个很好的例子。但总的来说,我认为这就是人工智能发展的大致轨迹。
/ 02 / 新型模型公司仍然有可能出现
Michael Mignano:目前大型模型的机遇是否已经尽现,比如2023年那些投向Anthropic、Inflection或OpenAI等公司的巨额融资?这种机遇之窗对于初创公司而言,是否已经基本关闭了?如果是这样,2024年大部分资金将投向哪些领域呢?
Sarah Guo:风投资本往往追随先例,但是一些真正创新型的公司往往史无前例,在发展上无法预测。人们最初并不热衷于投资基础模型公司,直到ChatGPT的飞速增长引起了广泛关注。
我认为不同模态的模型或模型应用领域存在机会,比如视频领域、生物技术、临床医学等。我认为我的基金将大部分投资于应用方向,但目前还投资了一些基础模型公司。
Elad Gil:我非常认同未来会出现新型模型公司的观点。现今模型类型琳琅满目,涵盖语言模型、语音模型、图像/视频/音频扩散模型、代码模型、生物、物理、材料科学、数学等领域。部分基础模型将被通用模型采用,而另一些则需要在训练数据集和架构方面进行微调。例如,AlphaFold并非单纯基于Transformer的模型,而是采用了混合架构,尽管Transformer也在其开发中发挥了重要作用。
一些模型将会应用到科学、机器人、医学等领域。从资金角度来看,大部分投资可能会流向模型公司,因为它们资金需求更大。但从公司数量的角度来看,我预计明年我们将看到更多的应用程序开发公司,而不是基础模型公司。
/ 03 / 下一波应用浪潮是什么样?
Michael Mignano:下一波应用浪潮会是什么样子?当我们谈论应用程序时,可以是传统意义上的桌面应用、移动应用,也可以是ChatGPT这样的大型语言模型应用,后者是否会成为一个全新的可投资公司和产品领域?
Elad Gil:我认为在ToB和ToC领域都会有一些大型语言模型的应用。我和我的小团队做了一件事,就是将所有服务领域按照可被AIGC解决的程度进行了分类,并研究了每个垂直行业的人力资源支出情况。
例如,如果看整个软件支出,根据我正在撰写的一篇博客,在美国软件支出总体约5000亿美元,同时服务行业的人力资源支出约3.5万亿美元,这些都是我们认为可以通过生成式人工智能来解决的领域。即使只有5%到10%被转化为新的商业模式,其市场规模和市值也相当于再复制了整个现有软件产业。这包括法律服务等行业,可能还有2-3家公司需要建立。各行各业都有不同的服务机会。我认为随着GPT级别模型的不断升级,每一个新的能力阶段都将为初创公司开启新的服务市场。
GPT-4或许开启了法律服务领域,而GPT-3尚未能做到;GPT-5可能会开启另一个全新的领域,GPT-6、GPT-7又会各自开启不同的领域。所以我认为,随着模型能力的不断攀升,对于初创公司来说,可进入或可利用的市场也会持续扩大。
与此同时,还有消费者层面的应用。我团队的David在上个季度进行了一个实验,让十几个斯坦福学生以消遣的方式构建ToC应用。这纯粹是为了好玩,没有任何经济安排,我只是每周与他们会面,讨论他们正在做的事情、见解、想法或认识的人等。
最终孵化出几个不同的应用程序,并举办了一个Demo Day。大家提出了一些非常有趣的思路,比如AIGC在消费者应用领域可以做些什么。我认为消费者应用在人工智能领域仍然是一个非常薄弱的环节。
总的来说,在整个初创世界,对消费者领域的关注度已经很低了。差不多就是那些30多岁的创始人了,他们已被视为"古董"。但我认为在社交、消费等领域,利用人工智能做一些真正有趣的事情,仍有很大的空间。
/ 04 / 谁会赢得AI:B端还是C端?
Michael Mignano:OpenAI据说大部分16亿美元收入来自C端,而Midjourney据报道也有数亿美元收入,显然也是一家ToC的公司。这是否意味着AI公司的机会可能更多地存在于消费领域?
此外,您提到的那种为整个行业提供AI动力的ToB公司,比如人们以前认为 OpenAI会扮演的角色,也许其实现难度会更大。你们对此怎么看?
Sarah Guo:我认为,无论是Figma、Canva还是其他任何广泛定义的生产力公司(例如涉及写作、图形设计、用户体验设计、视频制作的工具),都将成为一个非常大的类别。这与“人力资本五代布局”中提到的“专业消费者”概念有关,我认为这个概念将在未来快速发展。
AI应用浪潮的核心在于,软件可以做一些以前需要雇佣人力才能完成的工作。这开辟了全新的市场,例如以前需要外包给代理机构的工作,现在可以直接控制和操作。我认为这对于软件行业来说非常令人兴奋。
在ToB开发方面,我认为会有更多的应用层公司探索开发新的端到端应用工具或新的工作流。企业可能会花很长时间去部署采用,但它们是具备这样的意愿的。
/ 05 / 提供AI服务 VS 使用AI服务,谁将是头号赢家?
Michael Mignano:你可以看到一些小企业在AI帮助下变得非常非常大,非常非常成功,而无需雇用那么多人。你也可以看到新的初创公司正在为中小型企业构建AI业务和产品。你认为哪一个机会更大?是利用人工智能做大事的小公司,还是帮助小公司AI化运作的工具和服务?
Elad Gil:我想避免夸大AI的影响力。那种认为AI会让每个公司只留一人、所有应用瞬间用AI重建的观点,我认为还需要很长时间才能实现。虽然AI能显著提高某些工作的效率,但大多数情况下仍然需要人类参与。例如Harvey是一个优秀的法律工具,但不会在明年取代法律职业,而是成为法律专业人士的强力帮手。随着时间的推移,法律服务所需的团队规模或许会减小,但这个过程会很缓慢。
极端情况下,或许会出现由AI自动开发软件的情况,甚至可能会有人质疑创始人存在的必要性。但我认为人类总是倾向于高估AI对自身工作的影响,觉得除了自己的工作以外,所有领域都可以被AI取代。这种想法未免有些夸张。
Sarah Guo:我是Seek公司的投资者,该公司致力于自动化数据分析工作。他们开发了一款产品,可以让人用自然语言向公司的结构化数据源(如Snowflake、数据仓库或数据库)提问,并获得准确答案。这不仅涉及自然语言转SQL的问题,而是更复杂的挑战。
有趣的是,他们获得最成功案例的地方是中小企业和大型客户,但同时也遇到了一部分分析师群体抵触自动化。这些人对只需少量培训就能完成70%或80%工作的说法并不心动,认为这反而会增加他们的工作负担。然而,对于他们的老板来说,这可能极具吸引力。
我认为销售策略和组织内部激励措施都很重要。例如,小型企业通常不愿承担过多非核心职能,他们更喜欢专注于自己喜爱的工作,而不必处理营销、资产创建等其他事务。因此向这类客户销售更简单。
总而言之,我认为经济因素和能力的民主化最终会战胜自动化带来的抵触情绪。不过,值得注意的是,2023年和2022年底,我第一次看到创业者在人员配置方面如此注重效率。例如,我们最近投资了一位连续创业者,他正在研究如何用最少的人力实现1亿美金收入,这与2019年的创业心态截然不同。
Elad Gil:真正的小公司(5人左右)非常忙碌,只会购买3-4个必需品,例如工资、医疗保险、税务等(Rippling、Gusto、HubSpot等公司的出现就是证明)。因此,小公司并不是大多数产品的理想市场。虽然AI可能带来一些针对小公司的工具,但我认为目前夸大了AI对人力资本的替代作用。
随着技术发展,这种影响会逐渐扩大,但也会有一些垂直领域受到的冲击比预期更大。Midjourney就是一个例子,它在某些类型的工作上取代了人力,同时也拓展了市场。随着语言模型和扩散模型不断发展,类似的例子会越来越多出现。不过,目前其他领域的资本效率问题可能被夸大了。
/ 06 / 提供AI服务 VS 使用AI服务,谁将是头号赢家?
Michael Mignano:两位认为拥有自研基础模型是否为AI公司的终极优势?
Sarah Guo:从当前的研究来看,对于足够大量独特数据进行微调和预训练之间的界限开始变得模糊,假设你从某个有用和重要的开源基础模型开始。我认为将会有应用层面的公司从某个具有自身护城河的基础模型出发,以不同的方式发展。
Elad Gil:我认为,第一波创始人都是希望为各种公司(包括不需要这些模型的公司)开发自己的模型的研究人员。因此,在前一波中,每家公司都筹集了2000万至5000万美元资金,我认为其中有一半的公司将难以取得成功,部分原因是他们将注意力集中在模型构建上,而不是客户需求上,本应该专注于客户。
当然也有一些公司很好地整合了模型,比如Anthropic。我认为,当OpenAI推出ChatGPT时,包括OpenAI自己在内,没有人认为它会如此成功。它只是一个研究预览,却疯狂般流行起来,因为它是如此了不起的创新。
我确实认为,第一波人将构建自己的模型。我想会有一部分人会继续这样做,因为扩散模型训练和构建的成本明显低于这些非常大的语言模型。所以在图像、视频和音频方面,我们可能会继续看到这种趋势。可以从扩散模型开始,进行微调,最终决定随着时间的推移训练自己的模型,你会看到很多团队采取这样的演进路径。
而对于大语言模型,最终将在通用性、规模和性能之间展开较量,人们将在这些曲线上做出不同的权衡。在某些情况下我将使用GPT-6,因为它能为我提供强大的逻辑推理能力、可泛化的知识和完成各种任务的能力。而在其他情况下,我只需要一些小型的、高性能的东西,我可以添加一些RAG或其他东西就可以使用了。
很多应用层公司不需要自己定制的从底层构建的模型。而在机器人技术、科学及其不同领域、物理学和材料等方面,您可能会看到更多垂直整合模型的公司,这很大程度上取决于所在领域的特点。所以我认为,情况会有所分化。
Michael Mignano:的确。近来每周都有新的模型发布基准测试结果,声称自己比其他所有模型都更出色,然后一周后又有另一家公司做出类似主张。这种现象几乎让人感觉,所有模型都在朝着同一个方向收敛,我们正经历这种技术的商品化趋势。因此,最重要的问题可能仍然是客户采纳度、留存率,以及回归到最基本的问题——是什么造就了一款伟大的产品。这是否也是你们两位的看法?
Sarah Guo:我想谈谈您刚才提到的基准测试。目前流行的基准测试并不能真实反映模型在实际应用中的性能,例如代码生成模型的基准测试往往是学术研究式的,无法模拟真实开发环境的复杂性。真正衡量模型价值的方法应该是用户测试和实际部署,观察用户的使用反馈和模型带来的实际收益 。
/ 07 / 聊天界面,会成为主要交互方式吗?
Michael Mignano:我认为,所有这一切都是基于这样一个假设,那就是通过文字聊天界面与应用程序互动,是人们希望体验下一波应用程序的方式。我们可以看到ChatGPT变得非常流行,这可能正是人们期待的。
另一方面,计算机发展历史表明,人们不仅仅希望与聊天界面互动,这就是我们有图形用户界面、按钮和鼠标的原因。你们两个对此有何看法?你们认为在交互界面上与程序聊天对话是一种足够支持全新的一批应用存在的方式吗?Sarah,你怎么看?
Sarah Guo:聊天界面作为应用程序的交互方式已经得到验证,比如AI女友应用的成功案例。这表明聊天界面有作为新型应用交互方式的潜力。聊天界面是否能演变成一个操作系统平台,还有待观察。多模态界面更有可能,纯聊天界面不太现实。
聊天界面作为自然交互方式的优势在于人人都会用,并且现在的AI技术使计算机开始理解人的意图了。这为打造某个消费类或生产力工具类Killer App奠定了基础。从一个成功的旗舰应用出发,逐步衍生出一个应用生态,甚至操作系统平台的可能性是存在的。控制硬件和系统的一方也更有主导权。我对聊天界面成为主导交互模式保持开放态度,但它不会是唯一的交互方式。
Elad Gil:我认为会有一系列交互界面,聊天界面、多模态界面等等。GPT-3作为一个有趣的API没有得到足够讨论,你可以用它来处理图片和OCR,然后以不同方式使用图片。所以我认为这对各种企业应用、国防应用、建筑、芯片设计都大有用处。极端情况下,未来几年或者十年后,代理程序可能代表个人、企业进行高度自动化交互。我们自身参与的直接交互或将减少。所以我认为这些会不断发展,关键在于基础技术能力。
从根本上说,现在就有一些真实奏效、用户喜欢的交互方式,人们通常喜欢对这些进行修改、迭代,想出完全不同的范式。而事实上,人与人之间的对话交互通常都很顺畅,没有理由认为人机交互就不会这样。
如果你还记得20世纪90年代,人们刚刚推出首批个人数字助理和智能手机原型,一直想通过手写识别。因为他们认为人们会手写一切。但现在我们只是键入一切。然而人们错误地认为大家不喜欢打字,必须手写一切。于是他们设计了一种叫做Graffiti的语言,你必须用特定方式写l、a、r等。因为当时机器没有智能化到能够识别手写。在某种意义上这很愚蠢,在当时被认为是人机交互界面的重大突破,但现在它毫无用处。所以我认为在这类事物上人们常常过度思考。打字和语音交互的效果就很好。
Sarah Guo:判断一种交互方式是否可行,需要从“是否为用户提供便利”和“技术上是否可实现”两个维度考量。举例来说,销售代表更新CRM记录是一件枯燥无味的事情。如果能自动完成、减少操作步骤,用户当然会欢迎。
虽然聊天界面可能不是万能解决方案,但它可以简化任务,让人们更愿意使用。例如,有人认为聊天界面很愚蠢,但他们真正担心的可能是没有其他数据源支持,或者缺乏多模态交互。如果聊天界面可以理解用户的意图,预测他们的下一步行动,并且结合其他信息,例如日程安排、会议内容等,那么它就变得更加实用。
多模态AI助手可以创造非常强大的体验。例如,在预订旅行时,我可以通过与助手交谈来选择目的地,但我也可能想要查看预订内容,或者浏览附近景点的信息。所以多模态交互非常重要。
/ 08 / 硬件 x AI
Michael Mignano:说到界面,最近我们看到很多硬件产品与AI结合。你们如何看待这种趋势?你们认为AI会催生新的硬件产品吗?或者现有硬件也能通过AI实现新的体验?你们如何看待AI和硬件的未来结合?
Elad Gil:我在这领域投资已经很久了。举例来说,Samsara是一家非上市的农业管理公司,他们在拖拉机等车辆上安装硬件,为车队提供服务。我还从Anduril公司的早期就参与了投资,这家公司专注于国防硬件与 AI、机器视觉和机器学习的结合。Square在刚开始的时候也主要是一个硬件设备。我投资他们的时候,他们还生产连接手机的小型读卡器,用于刷信用卡。
所以,在某些情况下,硬件与AI的结合的确是一种强有力的能力提升方式,尤其是在与物理世界交互时,像Samsara和Anduril做的那样。但在没有硬件支持的情况下,我认为很多消费级应用最终会融入现有的平台。当然,也存在一些例外,比如睡眠监测设备,它不完全依赖于手机的功能。
不过,我认为需要全新的功能,而不是仅仅做得更好。因此,短期内,我认为这些都是非常酷的实验,我很期待它们的发展,但很多早期的迭代实际上最终会在设备本身上进行。独立设备的功能可能会受到限制,除非它们像Anduril、Samsara、Square或其他一些公司那样,服务于非常特定的物理功能需求。我觉得这样才是有意义的。
不知道你还记得吗,曾经有个说法,会涌现出许多围绕AirPods建立的企业,甚至会出现专门的“AirPods 公司”。但事实证明,这很难做到。问题在于,真正的功能增益是什么?你能从中创造什么价值?我个人觉得,有些事情有时是媒体炒作,最终并没有太大成果。就好像当年Instagram刚出现时,也有好几家不同的照片上传应用公司,但只有Instagram真正做到了极致。所以,我不禁怀疑,其中一部分会不会只是炒作浪潮,虽然可能为未来埋下一些有趣的种子,但最终不会真正转化为有价值的产品。
Michael Mignano:Sarah,如果你也同意这个观点,那么我们接下来可以讨论一下,AI如何在现有硬件平台上创造全新的用户体验。以Uber为例,如果没有 GPS,它就不可能存在,即使当时的手机上有各种应用。同样,Instagram也是相机技术发展的结果,才得以诞生。那么,随着AI的发展,我们是否会在现有平台上看到全新的应用类型,这些应用只有借助AI的力量才能实现?这些应用又会是什么样的呢?
Sarah Guo:我认为这些新应用的出现既是必然的,也难以准确预测具体形式。就像CRM的例子一样,人们因为看到过不成熟的版本而对技术失去信心,导致很难想象未来会是什么样子。比如跨应用操作,如今的相关指令并不完善。
从用户的角度来看,另一个问题是,新硬件是否应该为用户服务,还是仅仅为了训练模型而收集设备数据?如果想要创造新的体验,是否真的需要新硬件?当然,如果提供给用户新的硬件功能,并拥有现成的用户基础,那么肯定会催生新的应用。但这也是个先有鸡还是先有蛋的问题,关键在于找到Killer App。
您提到的一些例子,例如电池管理、传感器、权限管理以及上下文智能,可以帮助实现更好的体验,这的确是支持新硬件的一个重要论据。眼镜、听觉设备等可能成为未来的新形态,关键在于如何以新的或现有的形式获取数据和信息。但是,现有的生态系统能否支持这些新的应用和硬件也是一个难题。总而言之,这是一个非常复杂的问题。
Elad Gil:我想再分享两个例子,我认为它们非常值得关注。第一个是机器人领域。最近几周,关于机器人研究的论文层出不穷,其中一些将机器人技术与标准深度学习方法结合,令人兴奋。我认为,将更多标准深度学习技术应用于机器人领域,将大大提升其能力。第二个领域是自动驾驶。它同样融合了机器人、硬件等多方面技术。我相信,随着我们将基础模型应用于这些物理世界领域,并开发专门的硬件,这些领域将取得显著发展。不过,消费类硬件设备当下还并不具备发展之势。
/ 09 / Web3会是验证真实性的途径吗?
Michael Mignano:最近,许多公司和个人都在讨论Web3的Killer App之一可能与AI和内容真实性密切相关。例如,投资人Fred Wilson和Scott Banister都曾提及过这个观点。随着像Pika、Midjourney等公司不断推出生成各种媒体形式的模型,这些模型全部基于其他原始媒体进行训练。未来,我们需要一种方法来追踪这些内容的真实性和来源,以建立一个公平的权利结构。Web3可能成为实现这一目标的途径。那么,您二位如何看待这一点?你们认为Web3和AI有哪些潜在机遇?
Sarah Guo:从可用性角度来看,要让那些拥有IP的创作者和企业利用Crypto技术去进行内容溯源距离实际应用还有一定的距离,但从技术可行性上来看,这似乎是一个可实现的解决方案。
Elad Gil:我一直认为,区块链将成为一种身份认证形式,不仅可以用于内容溯源,还可以用于验证代理的身份和资格。如果一个代理声称代表你,你怎么知道它确实代表了一个特定的个体?它能否以安全的方式部分展示该个体的数据或某些方面的信息?这可能是你的医疗数据,可能是关于你是谁的某些方面。这是一个我长期以来一直感兴趣的领域。我曾在播客中采访过Illia Polosukhin,他是Transformer论文的最后一名作者。我还在加拿大与他进行了一次闲聊。我认为这些概念真的很有意思,但它们的发展可能需要一段时间。
从内容溯源角度来说,我认为情况会略复杂一些。比如,假设你的数据集中已经包含了大量类似梵高风格的衍生艺术作品。即便你从数据集中移除所有原始的梵高作品,由于数据集中仍保留了足够多“梵高风格”的讯号,模型训练的结果依旧不会受很大影响。
而且,这些衍生作品从版权或使用许可的角度来说也不构成任何侵权。我认为在讨论内容来源和证明方面,人们没有充分考虑这些情况。事实上,你可以移除所有知名艺术家的原创作品,但这对模型的训练影响不大,因为这种风格的作品已经“内化”到数据集中。在图像生成方面,我认为它比人们想象的要复杂得多,在某种程度上也更难去保护某些艺术家,因为他们风格的衍生创作已经广泛存在。
/ 10 / AI监管将走向何方?
Michael Mignano:美国国会已经开始讨论AI训练的合法性问题。虽然我们都不是该领域的专家,但我们可以谈谈我们对这个问题的看法。从理论上讲,我认为AI训练是合理的,因为它是机器学习的一种方式。我们人类也是通过阅读、学习和模仿来进行创作的,为什么机器不能这样做呢?您二位认为AI训练的合法性将会如何演变?
Sarah Guo:这是一个政治性问题,所以它取决于哪一派是当权者。但是,我认为只要对模型的输出设置一系列的保障措施,那么AI训练是合理使用的观点就站得住脚。
我认为人们会在应用层面和经过验证的输出能力层面上去参与这些斗争。这是正确的着手点。正如Elad所说,基于区块链的技术的另一个核心用例是低成本地实现微交易。这方面仍有工作要做。Ilia说的一件事仍然让我记忆深刻,那就是模型训练继续进步的障碍之一是收集我们还没有的数据,并让人们贡献这些数据。对此,有抵御滥用的数据贡献、标记和交易系统将非常有价值,这听起来像是一个身份和信誉系统。如果能解决这个问题,我认为它会非常有价值。