环球百事通！谷歌将大模型塞进机器人！干活更麻利，还能听懂“话外音”-- 迪族网

环球百事通！谷歌将大模型塞进机器人！干活更麻利，还能听懂“话外音”

来源：智东西　2022-08-17 21:32:06

作者 | ZeR0

编辑 | 漠影

谷歌正试图训练出更像人类的机器人。

(资料图)

智东西8月17日报道，谷歌刚刚公布一项重磅研究进展：通过结合更强大的人工智能（AI）大型语言模型，进一步提高机器人的“智商”。

研究人员表示，这是第一次将大型语言模型集成到机器人中，“是一种非常不同的范式”。

就像人类一样，机器人能响应完整的命令。换句话说，你不再需要像以前那样分步地发出一连串简短指令，一步一步指导机器人的每个动作。

谷歌研究人员做了个演示，对机器人说：“我饿了，你能给我点零食吗？”

接着，机器人在自助餐厅中搜索一番，然后打开一个抽屉，找到一袋薯片并将它拿给研究人员。

当然了，拿汽水也是不在话下。

▲机器人演示拿起物品的能力

这是一项雄心勃勃的技术突破，为多用途机器人铺平了道路，使其像以往的扫地机器人、巡逻机器人等单一任务机器人一样易于控制。

谷歌在本周二发布的博文中，详细介绍了这项研究进展，通过结合更复杂的语言模型，机器人执行命令的成功率从61%提高至 74% 。

项目链接：https://sites.research.google/palm-saycan

论文链接：https://arxiv.org/pdf/2204.01691.pdf

一、用大模型提高理解能力，让机器人不再是“铁憨憨”

指挥机器人干活不是什么新奇的事，但要让机器人能够理解你的命令背后的意图，那就要考验它的“大脑”好不好用了。

比如，当你问机器人：“我把饮料洒了，你能帮忙吗？”谷歌机器人可以迅速筛出适配指令的合适行动，然后从厨房拿块清洁海绵来。

但假如你只是惊呼：“完蛋！我的饮料！”那么常见的机器人通常毫无反应，这时候，如果有一个智能机器人听出你的话外音，主动帮你清洁，那它才是真正聪明的机器人。

这些看似简单的感知技能，实际上是最具计算挑战性的任务类型。

以前，机器人系统只能执行简短、明确的指令，例如“拿起一个苹果”、“往前走两步”。

机器人往往在明确具体的任务和奖励下表现最好，但在学习执行多步骤任务和推理抽象的、模棱两可的指令方面遇到困难。

比如，你问机器人：“我刚刚锻炼过，可以给我拿一份健康的零食？”机器人可能很难理解这句话里的细微表达差别和微妙之处。

▲Everyday机器人给谷歌研究人员送零食（图源：路透社）

虽然近年来大型语言模型进展飞速，取得许多令人印象深刻的结果，很多语言模型在特定领域的知识储备已经远超人类，但很多语言模型的训练并没有基于物理世界的数据，通常不会跟环境产生直接交互，也不会观察其响应的结果。

这可能导致语言模型生成的指令，会让在现实环境中运行的机器人做出不合逻辑、不切实际或者不安全的行动。

我们还用刚才提到的问题举例，问机器人：“我把饮料洒了，你能帮忙吗？”

经典的OpenAI大模型GPT-3会提供一个建议：“您可以尝试使用真空吸尘器。”

谷歌AI系统LaMDA会回答：“您想让我帮忙找个清洁工具吗？”

另一个谷歌FLAN语言模型则会直接道歉：“对不起，我不是故意的。”这显然是个没用的回应。

因此，谷歌研究人员提出设想，有没有一种有效的方法，能够将高级语言模型的语言理解能力和机器人系统擅长的处理感知和交互能力相结合，同时利用两者的优势？

这就是谷歌正与谷歌母公司Alphabet的机器人子公司Everyday Robots合作研发的新方法—— PaLM-SayCan 。

视频加载中...

二、用语言模型做“大脑”，机器人充当“手”与“眼”

谷歌研究人员称，将PaLM-SayCan集成到机器人中后，机器人通过使用思维链提示和执行请求所需的分步解决方案，能更好地执行复杂、抽象的任务，根据自身能力权衡接下来最合适的执行步骤，并实现高度可解释的行动结果。

“我们发现它（机器人）甚至能处理16个步骤的指令。”研究人员说。

引入PaLM-SayCan后，语言模型可以帮助机器人更好地理解运用到高级语义知识、需要进行推理的指令，使其与人类、与物理环境的互动更自然。反过来，机器人可以充当语言模型的手和眼，通过与真实环境的不断交互为语言模型提供更多的经验。

具体是怎么做的呢？

PaLM-SayCan 方法使用PaLM语言模型（ Say ）中包含的知识来确定和评估对高级指令有效的动作，它还用到Affordance功能（ Can ），来支持现实世界并确定在给定环境下可执行哪些操作。

这个系统可以看作是用户和机器人之间的对话平台。用户首先发出一个指令，语言模型将其拆解成方便机器人执行的一系列明确步骤。

然后，机器人对这些步骤进行筛选，通过评估确定在其当前状态和环境下最可行的行动计划，从而完成相应任务。

该模型通过将两个概率相乘，来确定特定技能成功学习的概率：一是 task-grounding ，即技能语言描述；二是 world-grounding ，即当前技能的可行性。

由于PaLM-SayCan方法拥有较好的可解释性，用户可以通过查看单独的语言和可视性分数，来轻松理解决策过程。

三、洒了饮料，机器人帮忙清理分几步？

如可视化界面所示，PaLM-SayCan执行复杂任务的行为是可解释的，这将使机器人的交互过程更加安全可控。

视频加载中...

比如当你洒了饮料，请求机器人帮忙时，你可以看到它是如何做出决定，为执行任务选择最合适的步骤的：找到可乐罐，拾起可乐罐，走到垃圾桶旁边，放下可乐罐，找到一块海绵，拾起海绵，走向桌子，放下海绵……

蓝色显示的是语音模型分数，即语言模型判断技能有用的概率；红色是affordance分数，即系统成功执行技能的可能性；绿色显示的是用于最终决定执行技能的综合分数。

PaLM-SayCan方法将语言模型的概率和价值函数（VF）的概率相结合，以选择下一个要执行的技能，重复这个过程，直至高级指令成功完成。

研究人员使用基于图像的行为克隆（BC）来训练语言条件策略和基于时间差异（TD）的强化学习方法来训练价值函数。

智能体技能库中，训练策略和价值函数的每个技能都会被定义为一个具有简短语言描述的策略，用嵌入表示，以及一个指示从机器人当前状态完成技能概率的affordance函数。

为了学习affordance函数，研究人员使用稀疏奖励函数，设置为1.0表示成功执行，0.0表示未成功。

训练策略方面，研究人员从10个机器人在11个月内执行的68000次演示中收集了数据，并从一组自主学习的策略片段中筛选了12000次成功的片段，然后在Everyday Robots模拟器用使用MT-Opt学习语言条件值函数，通过使用演示来引导模拟策略的性能，以提供初步成功，再通过模拟中的在线数据收集来持续改进强化学习性能。

四、走向通用机器人时代

为了测试其方法，研究人员使用了与PaLM配对的Everyday Robots机器人，将机器人放在有各种常见物体的厨房环境中，用 101条 指令对其进行测试。

这些指令不是简单的命令式查询，而是涵盖了语言常有的歧义性和复杂性。

研究人员用两个指标来评估系统的性能：（1）规划成功率，表示机器人是否为指令选择了正确的技能；（2）执行成功率，表示机器人是否成功执行了指令。

他们比较了PaLM和FLAN两种谷歌大型语言模型、有和没有 affordance grounding 以及直接使用自然语言运行的底层策略。

结果显示，使用带有 affordance grounding 的PaLM（即谷歌PaLM-SayCan）系统在 84% 的时间内选择了正确的技能序列，并在 74% 的时间内成功执行这些技能序列。

视频加载中...

▲当与PaLM结合使用时，SayCan展示了101条测试指令中84%的成功规划

与FLAN以及没有 robotic grounding 的PaLM相比，PaLM-SayCan的错误减少了 50% 。同时，相较此前的FLAN-SayCan方法，PaLM-SayCan的执行成功率提升了 13% 。

“这特别令人兴奋，因为它代表着我们第一次可以看到语言模型的进步如何转化为机器人技术的类似改进。”谷歌研究人员在技术博客中写道。

研究人员相信，这项研究将推动从执行简短、明确的制定命令的工业机器人，过渡到可以处理更复杂和抽象命令的通用机器人时代。

不过由于谷歌没有公开101个命令的完整列表，所以这些命令是否覆盖家庭机器人所需理解的绝大部分语言广度和复杂性，还不好下定论。

谷歌研究人员还开源了一个机器人模拟设置，希望提供宝贵资源用于将机器人学习与高级语言模型相结合的未来研究。

GitHub链接：http://say-can.github.io/

未来，他们希望更好地了解利用机器人的真实世界经验获得的信息来改进语言模型，以及自然语言在多大程度上是编程机器人的正确本体。

五、科技巨头对机器人研发兴趣浓厚

谷歌母公司Alphabet对研发机器人布局已久。

2013年，谷歌一连收购了几家知名机器人公司，包括机器人领域“最出圈”的波士顿动力。不过后来波士顿动力几经转手，先是被谷歌卖给日本电信和科技投资巨头软银，后来又被软银卖给了韩国汽车巨头现代。

此前Everyday Robotics打造的机器人已经在谷歌内部执行一些简单任务，比如送零食、倒垃圾、擦拭柜台。

▲机器人跟谷歌员工打乒乓球

Everyday Robotics项目仍处于起步阶段，机器人行动比较缓慢，做事也没那么果断灵巧。不过随着这些机器人借助谷歌大型语言模型提高理解能力，它们将进一步提高执行力。

除了谷歌外，多家大型科技公司都对机器人技术展现出浓厚的兴趣。

一个典型的代表是美国电商巨头亚马逊，它在仓库中使用了许多机器人，并且正在试验无人机送货。这个月初，亚马逊还宣布计划以17亿美元收购扫地机器人鼻祖iRobot，此次收购也将成为亚马逊史上第四大巨额收购交易。

就在上周，国内智能手机制造商小米公布了其研发的人形机器人“铁大”，去年它还推出了一款机器狗“铁蛋”。

▲小米人形机器人“铁大”

除此之外，美国电动车龙头特斯拉也在研发通用机器人，并将在9月30日发布其首款人形机器人“擎天柱”原型机。

据特斯拉创始人兼CEO马斯克透露，“擎天柱”将是一款非常友好的机器人，能替代人类执行一些从事危险、重复、无聊的任务，包括拿扳手给特斯拉电动车装螺丝，或者帮人类买菜、做饭、照顾老人，而且未来其成本比汽车还要便宜。

▲特斯拉“擎天柱”的部分参数

结语：距离高智能机器人还有很长的路要走

多年来，用AI技术训练机器人屡有突破，但大的进展仍然缓慢。而引入语言模型的方法，或许可以帮助机器人进一步提高解决复杂问题的能力，从而替代人类从事更多重复性劳动。

谷歌的这一探索，展示了机器人技术与大型语言模型进步结合的更多可能性。

目前真正大范围渗透进人们日常生活空间的家庭机器人，仅有清洁机器人这个品类，但在AI、激光雷达等技术的辅助下，随着机器人提高视觉、导航等技能，更多新型机器人将进入家庭场景。

当然，迄今的机器人研发，距离我们想象的十项全能“机器人管家”，还有很长的路要走。

语言模型固然可以为机器人提供更好的步骤规划评估和选择，但它们还做不到事无巨细地提供所有信息，比如不能告诉机器人打开冰箱时应施加多大的力。谷歌研究人员也暂时没有将PaLM-SayCan商业化的计划。

围绕机器人创新技术及商业化落地成果，智东西将在明日举行的2022世界机器人博览会现场发来更多一线观察报道，欢迎关注。

关键词：语言模型研究人员

推荐DIY文章

主机存在磨损或划痕风险 PICO4便携包宣布召回

穿越湖海！特斯拉Cybertruck电动皮卡可以当“船”用

vivoXFold+折叠旗舰开售配备蔡司全焦段旗舰四摄

飞凡R7正式上市全系标配换电架构

中兴Axon30S开售拥有黑色蓝色两款配色

荣耀MagicBookV14 2022正式开售搭载TOF传感器

华硕无双上新新增指纹识别模块和键盘背光

曝爱彼迎联合创始人加入特斯拉董事会自愿放弃现金薪酬

联想YOGAPro14si9版将开启预售搭载i9-12900H处理器

RTX4090发布：性能提升高达2倍功耗保持450W

一加NordWatch智能手表官宣采用矩形表盘

小米米家智能枕开启众筹内置智能压电传感器可捕捉心跳

出轨成性，死拖张嘉倪，换着法子骂网友，买2023-05-25
今日快看!西藏日喀则：金融活水“贷”动文2023-05-25
雪居之地哪些首领具有扫射和狂热的资质2023-05-25
塞尔达传说王国之泪为海布拉带来和平挑战视2023-05-25
塞尔达传说王国之泪科尔天的下落挑战视频攻2023-05-25
塞尔达传说王国之泪白鸟所指引的洞窟任务在2023-05-25
天天快资讯丨垃圾分类达人评选，诉求降65%2023-05-25
新疆：棉企调降基差汽运出库未降温2023-05-25
「雷鸟Air Plus+雷鸟魔盒」评测：1+1能否2023-05-25
实测！AI诈骗生成露脸说话视频仅需数十元 2023-05-25
外媒：禁售美光就是中国开始反击的信号2023-05-25
玩转光追1080P：iGame GeForce RTX 40602023-05-25
李佳琦联合近千家品牌启动618 三大直播间2023-05-25
小米什么都想要：手机虽然大缩水，但还有汽2023-05-25
关注：戴森发布全新360 Vis Nav吸尘机器2023-05-25
教育部部署各地深入开展“2023高考护航行动2023-05-25
HugNLP框架：一键刷榜，全面统一NLP训练_世2023-05-25
民乐：力促商务经济高质量发展_动态2023-05-25
光天化日有人持刀劫持女子，有人一锹拍在持2023-05-25
布朗炮轰塔图姆：不知道他为什么总是排挤我2023-05-25
塞尔达传说王国之泪为阿卡莱带来和平挑战视2023-05-25
雪居之地裸地精输出怎么样|全球快看点2023-05-25
塞尔达传说王国之泪骸骨马任务在哪里做2023-05-25
世界今日报丨雪居之地裸地精抓位怎么样2023-05-25
沪指跌0.23％，深成指跌0.05％，创业板平开。2023-05-25
微信红包不收多久退回？微信红包发错了怎么2023-05-25
电池正极是凸出来还是凹进去？电池正极是什2023-05-25
手机信号不好怎么能增强信号？手机无网络信2023-05-25
直动式减压阀是常开还是常闭？直动式减压阀2023-05-25
环球关注：一季度价格战拖累毛利！小鹏汽车2023-05-25

环球百事通！谷歌将大模型塞进机器人！干活更麻利，还能听懂“话外音”

新闻排行

精彩推荐

综合信息