作为 Alphabet 人工智能机器人登月计划的负责人,我开始相信很多事情。首先,机器人的出现还为时不晚。其次,它们不应该长得像我们。
当时还很早2016 年 1 月,我刚刚加入 Alphabet 的秘密创新实验室 Google X。我的工作是帮助解决谷歌收购的 9 家机器人公司留下的员工和技术问题。人们很困惑。之前负责的“Android 之父”安迪·鲁宾突然离职。拉里·佩奇和谢尔盖·布林在“业余时间”偶尔飞过这里时,一直试图提供指导和方向。几个月前,Google X 负责人阿斯特罗·泰勒同意将所有机器人人员带入实验室,这个实验室被亲切地称为“登月工厂”。
我之所以报名,是因为 Astro 让我相信 Google X(或者简称为 X,我们后来这样称呼它)与其他企业创新实验室不同。创始人致力于大胆思考,他们拥有所谓的“耐心资本”来实现目标。在创办和出售多家科技公司之后,我觉得这很合适。X 似乎是 Google 应该做的事情。我从亲身经历中知道,建立一家能够改变宇宙的公司(用史蒂夫·乔布斯的名言来说)有多么困难,我相信 Google 是进行某些重大赌注的正确场所。人工智能机器人,即有一天将与我们一起生活和工作的机器人,就是这样一个大胆的赌注。
八年半之后——在谷歌决定停止其在机器人和人工智能领域的最大赌注之后的 18 个月——似乎每周都会出现一家新的机器人初创公司。我比以往任何时候都更加确信机器人需要到来。但我担心,硅谷专注于“最小可行产品”,而风险投资公司普遍不愿投资硬件,因此他们不会有足够的耐心赢得为人工智能打造机器人躯体的全球竞赛。而目前投入的大部分资金都集中在错误的地方。原因如下。
“登月计划”的意义
Google X 是Everyday Robots的所在地,也是我们后来的登月计划。它诞生于 2010 年,源于一个伟大的想法:谷歌可以解决世界上一些最困难的问题。X 特意设在距离主校区几英里的自己的大楼里,以培养自己的文化,并允许人们跳出思维定式。我们付出了很多努力来鼓励 X 员工敢于冒险、快速试验,甚至庆祝失败,以表明我们设定的标准非常高。我到达时,实验室已经孵化了 Waymo、谷歌眼镜和其他听起来像科幻小说的项目,比如飞行能源风车和平流层气球,这些项目将为弱势群体提供互联网接入。
X 项目与硅谷初创企业的区别在于,X 鼓励创业者进行长远而宏大的思考。事实上,要想被冠以“登月计划”的称号,X 有一个“公式”:首先,该项目需要证明它正在解决一个影响数亿甚至数十亿人的问题。其次,必须有一项突破性的技术,让我们看到解决问题的新方法。最后,需要有一个激进的业务或产品解决方案,听起来可能有点疯狂。
人工智能身体问题
很难想象有谁比Astro Teller更适合管理 X ,他选择的头衔实际上是“登月计划队长”。如果没有他的标志性旱冰鞋,你永远不会在 Google X 大楼(一座由百货公司改建而成的三层巨型大楼)看到 Astro。再加上他的马尾辫、总是挂着友好的微笑,当然还有 Astro 这个名字,你可能会觉得自己进入了 HBO 的《硅谷》的一集。
当 Astro 和我第一次坐下来讨论如何处理 Google 收购的机器人公司时,我们一致认为应该做点什么。但该做些什么呢?迄今为止,大多数有用的机器人都体型庞大、笨拙且危险,只能在工厂和仓库中使用,在那里它们通常需要受到严密的监管或被关在笼子里以保护人们免受它们的伤害。我们如何才能制造出在日常环境中有用且安全的机器人?这需要一种新方法。我们要解决的巨大问题是全球人类的大规模转变——人口老龄化、劳动力萎缩、劳动力短缺。我们的突破性技术——我们早在 2016 年就知道——将是人工智能。彻底的解决方案:完全自主的机器人,它将帮助我们完成日常生活中越来越多的任务。
换句话说,我们要为人工智能赋予一个实体,如果说有哪个地方可以制造出如此规模的东西,我相信那一定是 X。这需要很长时间,需要很大的耐心,需要愿意尝试疯狂的想法,而且很多想法都会失败。这需要在人工智能和机器人技术方面取得重大技术突破,而且很可能要花费数十亿美元。(是的,数十亿美元。)团队深信,如果你把眼光放远一点,人工智能和机器人技术的融合是不可避免的。我们觉得,迄今为止只存在于科幻小说中的许多东西即将成为现实。
这是你的母亲
大约每周,我都会和妈妈通电话。她一开始的问题总是一样:“机器人什么时候来?”她甚至都不打招呼。她只是想知道我们的机器人什么时候会来帮她。我会回答说:“妈妈,还要过一段时间。”然后她会说:“他们最好快点来!”
我妈妈住在挪威奥斯陆,享受着良好的公共医疗服务;护理人员每天三次来到她的公寓,帮助她完成一系列任务和家务,这些任务和家务大多与她晚期的帕金森病有关。虽然这些护理人员让她能够独自生活在自己的家中,但我妈妈希望机器人能够帮助她处理现在已成为难以克服和令人尴尬的障碍的无数小事,或者有时只是给她一只可以依靠的手臂。
这真的很难
“你知道机器人技术是一个系统问题,对吧?”杰夫用探究的目光问我。每个团队似乎都有一个“杰夫”;杰夫·宾汉姆就是我们的杰夫。他是一个瘦削、认真的人,拥有生物工程博士学位,在农场长大,以知识中心而闻名,对……几乎所有事情都有深刻的见解。直到今天,如果你问我关于机器人的问题,我首先会告诉你,嗯,这是一个系统问题。
Jeff 试图强调的一件重要的事情是,机器人是一个非常复杂的系统,其性能的好坏取决于其最薄弱的环节。如果视觉子系统在阳光直射下难以感知前方的事物,那么当一束阳光透过窗户射进来时,机器人可能会突然失明并停止工作。如果导航子系统无法识别楼梯,那么机器人可能会从楼梯上摔下来并伤到自己(也可能伤到无辜的旁观者)。等等。制造一个可以与我们一起生活和工作的机器人很难。真的很难。
几十年来,人们一直在尝试编写各种形式的机器人程序,让它们执行哪怕是简单的任务,比如抓起桌上的杯子或打开一扇门,但这些程序总是变得极其脆弱,只要条件或环境发生哪怕是最轻微的变化,它们就会失败。为什么?因为现实世界缺乏可预测性(比如那束阳光)。而我们甚至还没有遇到困难,比如在我们生活和工作的地方穿过杂乱无章的空间。
一旦你开始仔细思考这一切,你就会意识到,除非你把所有东西都锁得非常严实,所有物体都放在固定的、预先定义好的位置,并且光线恰到好处且永远不会改变,否则简单地拿起一个青苹果并将其放在厨房桌子上的玻璃碗里,就会成为一个几乎不可能解决的问题。这就是为什么工厂机器人被关在笼子里。从照明到它们工作的物体的放置,一切都是可以预测的,它们不必担心撞到人的头。
如何学习学习机器人
但显然,你所需要的只是 17 名机器学习人员。拉里·佩奇告诉我,这是他经典而又难以理解的见解之一。我试图争辩说,我们不可能仅凭少数机器学习研究人员就为与我们一起工作的机器人构建硬件和软件基础设施。他不屑地向我挥了挥手。“你只需要 17 个人。”我很困惑。为什么不是 11 个人?或者 23 个人?我忽略了一些东西。
归根结底,在机器人中应用人工智能有两种主要方法。第一种是混合方法。系统的不同部分由人工智能驱动,然后通过传统编程拼接在一起。通过这种方法,视觉子系统可以使用人工智能来识别和分类它所看到的世界。一旦它创建了它所看到的对象的列表,机器人程序就会收到这个列表,并使用代码中实现的启发式方法对其进行操作。如果编写的程序是从桌子上捡起那个苹果,那么这个苹果将被人工智能驱动的视觉系统检测到,然后程序会从列表中挑选出“类型:苹果”的某个物体,然后使用传统的机器人控制软件将其捡起。
另一种方法是端到端学习,即 e2e,它试图学习整个任务,如“拿起一个物体”,甚至更全面的任务,如“整理桌子”。学习是通过让机器人接触大量训练数据来实现的——就像人类学习执行体力任务一样。如果你让一个小孩拿起一个杯子,他们可能还需要学习什么是杯子,杯子里可能装有液体,这取决于他们的年龄,然后在玩杯子时,反复打翻杯子,或者至少洒出很多牛奶。但通过示范、模仿他人和大量的游戏练习,他们会学会这样做——最终甚至不必考虑步骤。
我开始相信 Larry 所说的是,除非我们最终证明机器人可以学会执行端到端任务,否则一切都不重要。只有这样,我们才有机会让机器人在混乱而不可预测的现实世界中可靠地执行这些任务,使我们有资格成为登月计划。这与具体的数字 17 无关,而是与重大突破需要小团队而不是工程师大军的事实有关。显然,机器人不仅仅是 AI 大脑,所以我没有停止我们的其他工程工作——我们仍然必须设计和制造一个物理机器人。不过,很明显,展示成功的端到端任务将让我们有信心,用登月计划的说法,我们可以摆脱地球的引力。在 Larry 的世界里,其他一切基本上都是“实施细节”。
在 Arm-Farm 上
Peter Pastor 是一位德国机器人专家,他获得了南加州大学的机器人学博士学位。在工作之余,Peter 偶尔会尝试在风筝冲浪板上追赶他的女朋友。在实验室里,他花了很多时间操控 14 个专有机器人手臂,后来又换成了七个工业 Kuka 机器人手臂,我们称这种配置为“手臂农场”。
这些机械臂 24 小时不间断地运转,反复尝试从垃圾箱中拾取海绵、乐高积木、小黄鸭或塑料香蕉等物品。一开始,它们会被编程为将爪状夹持器从上方的随机位置移到垃圾箱中,然后闭合夹持器、向上拉,看看它们是否抓到了东西。垃圾箱上方有一个摄像头,可以捕捉垃圾箱中的物品、机械臂的运动以及成功或失败。这种情况持续了几个月。
一开始,机器人的成功率只有 7%。但每次机器人成功时,它都会得到积极的强化。(基本上意味着,对于机器人来说,神经网络中用于确定各种结果的所谓“权重”会进行调整,以积极强化期望的行为,并消极强化不期望的行为。)最终,这些手臂学会了 70% 以上的时间都能成功拾起物体。有一天,彼得给我看了一段视频,视频中,机器人手臂不仅伸手去抓黄色乐高积木,而且还推开其他物体,以便清楚地击中它,我知道我们已经到达了一个真正的转折点。机器人并没有使用传统的启发式方法进行明确编程来做出这一动作。它已经学会了这样做。
但即便如此,七个机器人还是要花几个月的时间学习如何捡起一只小黄鸭?这还不够。即使数百个机器人练习多年,也不足以教会它们执行它们的第一个有用的现实世界任务。因此,我们构建了一个基于云的模拟器,并在 2021 年在模拟器中创建了超过 2.4 亿个机器人实例。
可以将模拟器想象成一个巨大的视频游戏,它拥有一个真实世界的物理模型,该模型足够逼真,可以模拟物品的重量或表面的摩擦力。成千上万的模拟机器人将使用模拟摄像头输入和模拟身体(模仿真实机器人)来执行任务,例如从桌子上拿起杯子。它们同时运行,会尝试并失败数百万次,收集数据来训练人工智能算法。一旦机器人在模拟中表现得相当好,算法就会转移到物理机器人上,在现实世界中进行最后的训练,这样它们就可以体现它们的新动作。我一直认为模拟就像机器人整晚都在做梦,然后醒来时学到了新的东西。
数据才是关键
当我们醒来发现 ChatGPT 的那一天,感觉就像变魔术一样。一个由人工智能驱动的系统突然可以写出完整的段落、回答复杂的问题并参与持续的对话。与此同时,我们也开始了解它的根本局限性:它需要大量数据才能实现这一点。
机器人已经利用大型语言模型来理解口语,利用视觉模型来理解它们所看到的内容,这为 YouTube 上的演示视频提供了很好的素材。但教导机器人自主地与我们一起生活和工作是一个同样巨大的数据问题。尽管有模拟和其他方法来创建训练数据,但机器人不太可能在某一天“醒来”时拥有控制整个系统的基础模型,从而拥有强大的能力。
目前,我们仅用人工智能就能教会机器人执行的任务有多复杂,目前尚无定论。我相信,需要成千上万甚至数百万个机器人在现实世界中做事,才能收集到足够的数据来训练端到端模型,让机器人完成除相当狭窄、定义明确的任务之外的任何事情。制造能够执行有用服务的机器人——比如打扫和擦拭餐厅里的所有桌子,或者整理酒店里的床铺——在未来很长一段时间内,都需要人工智能和传统编程。换句话说,不要指望机器人会在短期内不受我们的控制,做一些没有被编程要做的事情。
但他们应该像我们一样吗?
马用四条腿行走和奔跑非常高效。但我们设计的汽车却有轮子。人类的大脑是极其高效的生物计算机。然而基于芯片的计算机的性能却远不及我们的大脑。为什么汽车没有腿?为什么计算机不以我们的生物学为模型?我的意思是,制造机器人的目标不应该只是模仿。
有一天,我在与 Everyday Robots 公司一群技术领导开会时了解到了这一点。我们坐在会议桌旁,热烈讨论我们的机器人应该有腿还是轮子。这样的讨论往往演变成宗教辩论,而不是基于事实或科学的辩论。有些人非常执着于机器人应该看起来像人的想法。他们的理由很充分。我们设计了我们生活和工作的地方来容纳我们。我们有腿。所以机器人也许也应该有腿。
大约 30 分钟后,房间里最资深的工程经理文森特·杜罗 (Vincent Dureau) 发言。他简单地说:“我认为,如果我能做到,机器人也应该能做到。”文森特坐在轮椅上。房间里安静下来。辩论结束了。
事实上,机器人腿在机械和电子方面非常复杂。它们移动速度不快。它们很容易使机器人不稳定。与轮子相比,它们的能效也不是很高。如今,当我看到公司试图制造人形机器人(试图紧密模仿人类形态和功能的机器人)时,我想知道这是否是想象力的失败。有这么多的设计可以探索,可以与人类相辅相成。为什么要折磨自己去模仿呢?在 Everyday Robots,我们试图让机器人的形态尽可能简单——因为机器人越早能够执行现实世界的任务,我们就能越快收集有价值的数据。Vincent 的评论提醒我们,我们需要首先关注最困难、影响最大的问题。
办公室职责
当时我正坐在办公桌前,我们的一个单臂机器人走了过来,它的头部呈长方形,四角圆润,叫着我的名字,问它是否可以收拾一下。我答应了,然后走到一边。几分钟后,它捡起了几个空纸杯、一个星巴克的透明冰茶杯和一个 Kind 巧克力棒的塑料包装纸。它把这些东西扔进了底座上的垃圾桶,然后转向我,向我点了点头,走向了下一张办公桌。
这项整理办公桌服务代表着一个重要的里程碑:它表明我们在机器人难题的一个未解部分上取得了良好进展。机器人正在使用人工智能来可靠地看到人和物体!软件工程师、前木偶师 Benjie Holson 领导了这项服务的团队,他是混合方法的倡导者。他并不反对端到端学习任务,只是抱着一种让我们现在就尝试让它们做一些有用的事情的态度。如果机器学习研究人员解决某些端到端任务的能力比他的团队编程能力更强,他们就会把新算法纳入他们的方案中。
我已经习惯了我们的机器人四处走动,做着整理桌子之类的杂务。偶尔,我会看到一位访客或一位刚加入团队的工程师。当他们看着机器人忙碌时,脸上会露出惊奇和喜悦的表情。透过他们的眼睛,我意识到这是多么新奇。正如我们的设计主管 Rhys Newman 有一天在机器人经过时所说的那样(用威尔士口音),“这已经成为常态了。这很奇怪,不是吗?”
尽情跳舞
Everyday Robots 的顾问包括一位哲学家、一位人类学家、一位前劳工领袖、一位历史学家和一位经济学家。我们激烈地讨论了经济、社会和哲学问题,例如:如果机器人与我们生活在一起,会有什么经济影响?对劳动力的长期和短期影响如何?在智能机器时代,成为人类意味着什么?我们如何以让我们感到受欢迎和安全的方式制造这些机器?
2019 年,我告诉我的团队,我们正在寻找一位驻场艺术家,用我们的机器人做一些有创意、奇怪和意想不到的事情,之后我遇到了Catie Cuan。Catie当时正在斯坦福大学攻读机器人和人工智能博士学位。引起我注意的是,她曾是一名专业舞蹈演员,曾在纽约大都会歌剧院芭蕾舞团等地表演。
你可能在 YouTube 上看过机器人跳舞的视频——机器人表演时,会按照预先设定的顺序,与音乐同步,做出一系列定时动作。虽然看起来很有趣,但这些舞蹈与你在迪士尼乐园体验到的舞蹈并没有什么不同。我问凯蒂,如果机器人可以像人一样即兴表演并相互交流,会是什么样子。或者像鸟群或鱼群一样。为了实现这一点,她和其他几位工程师开发了一种人工智能算法,该算法根据编舞者的偏好进行训练。当然,编舞者就是凯蒂。
通常在晚上,有时是周末,当机器人不忙于日常工作时,凯蒂和她的临时团队会将十几个机器人聚集在 X 中心的一个大中庭。成群的机器人开始一起移动,有时停顿不前,但总是以有趣的模式移动,常常让人感到好奇,有时甚至优雅而美丽。汤姆·恩伯森 (Tom Engbersen) 是一位来自荷兰的机器人专家,业余时间会绘制经典杰作的复制品。他与凯蒂合作开展了一个副业,探索跳舞机器人如何对音乐做出反应,甚至演奏乐器。有一次,他有了一个新奇的想法:如果机器人自己变成乐器会怎么样?这开启了一项探索,机器人的每个关节在移动时都会发出声音。当底座移动时,它会发出低音;当夹持器打开和关闭时,它会发出铃声。当我们打开音乐模式时,机器人每次移动都会创作出独特的管弦乐曲。无论是在走廊里行走、分类垃圾、清洁桌子还是成群“跳舞”,这些机器人的动作和声音都像是一种新型的平易近人的生物,与我以前见过的任何东西都不一样。
这仅仅是个开始
2022 年末,端到端与混合的讨论仍在继续。Peter 和他的队友以及 Google Brain 的同事一直在努力将强化学习、模仿学习和 Transformer(LLM 背后的架构)应用于多个机器人任务。他们在展示机器人可以以通用、稳健和有弹性的方式学习任务方面取得了良好的进展。与此同时,由 Benjie 领导的应用程序团队正在努力采用 AI 模型并将其与传统编程结合使用,以制作原型并构建可在现实环境中部署在人们之间的机器人服务。
与此同时,Catie 的多机器人装置作品 Project Starling 改变了我对这些机器的看法。我注意到人们是如何被机器人吸引的,带着惊奇、喜悦和好奇。它帮助我理解机器人在我们中间的移动方式以及它们的声音将引发人类的深层情感;这将是我们如何欢迎它们进入我们日常生活的一个重要因素。
换句话说,我们即将真正实现我们最大的赌注:由人工智能驱动的机器人。人工智能让它们能够理解它们听到的内容(口头和书面语言)并将其转化为行动,或者理解它们看到的内容(摄像机图像)并将其转化为它们可以采取行动的场景和物体。正如彼得的团队所展示的那样,机器人已经学会了捡起物体。经过七年多的时间,我们在谷歌的多个大楼里部署了机器人大军。一种类型的机器人正在执行一系列服务:自动擦拭自助餐厅的桌子、检查会议室、分类垃圾等等。
2023 年 1 月,OpenAI 推出 ChatGPT 两个月后,谷歌以总体成本问题为由关闭了 Everyday Robots。这些机器人和少数人最终落户谷歌 DeepMind 进行研究。尽管成本高昂、时间长,但所有参与其中的人都感到震惊。
国家当务之急
1970 年,全球每 64 岁以上的人中就有 10 人处于工作年龄。到 2050 年,这一数字可能会不足 4 人。我们的劳动力正在枯竭。谁来照顾老人?谁来在工厂、医院和餐馆工作?谁来开卡车和出租车?日本、中国和韩国等国家都明白这个问题的紧迫性。在这些国家,机器人不是可有可无的。这些国家已将投资机器人技术作为一项国家当务之急。
让人工智能在现实世界中扎根既是国家安全问题,也是巨大的经济机遇。如果像谷歌这样的科技公司决定不投资“登月计划”,比如人工智能机器人,这些机器人将为未来的工人提供补充和补充,那么谁会投资呢?硅谷或其他创业生态系统会加快步伐吗?如果会,他们能否获得耐心的长期资本?我对此表示怀疑。我们之所以将 Everyday Robots 称为登月计划,是因为构建如此规模的高度复杂系统远远超出了风险投资初创公司历来所能承受的范围。虽然美国在人工智能方面处于领先地位,但构建人工智能的实体——机器人——需要技能和基础设施,而其他国家,尤其是中国,已经处于领先地位。
机器人没有及时出现来帮助我的母亲。她于 2021 年初去世。在她生命即将结束时,我们频繁的交谈让我比以往任何时候都更加确信,我们在 Everyday Robots 开创的未来版本即将到来。事实上,它来得太晚了。所以我们要思考的问题是:这种变化和未来是如何发生的?我仍然感到好奇和担忧。
来自Hans Peter Brondmo,一名计算机科学家、企业家,曾任 Google X 副总裁。他在挪威长大,现居住在旧金山。
