成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
把大象装冰箱总共要几步?英伟达发布ProgPrompt,让语言模型给机器人安排计划
2022 年 10 月 10 日
新智元
新智元报道
编辑:LRS
【新智元导读】
一条命令,让机器人帮你把大象装冰箱里!
对于机器人来说,
任务规划(Task Planning)
是一个绕不过去的难题。
想要完成一个真实世界的任务,首先你得知道
把大象装冰箱总共要几步
。
即便是比较简单的
扔苹果
任务也包含
多个子步骤
,机器人得
先观察苹果的位置
,如果
没有看到苹果
就要
持续寻找
,然后
靠近苹果
,把苹果
抓起来
,
找到并靠近垃圾桶
。
如
果垃圾桶
是
关着的
,还得先
把它打
开
,然后再
把苹果扔进去
,
关上垃圾桶
。
但每个任务的
具体实施细节
不可能都由人来设计,如何通过一句命令来生成
动作序列
就成了难题。
用
命令生成序列
?这不正是
语言模型
的工作么?
过去有研究人员使用大型语言模型(LLMs)根据输入的任务指令对潜在的下一步行动空间进行评分,然后生成行动序列。
指令由自然语言进行描述
,不包含额外的领域信息。
但这类方法要么需要列举所有可能的下一步行动进行评分,要么生成的文本在形式上没有任何限制,其中可能包含在当前环境下特定机器人
不可能采取的行动
。
最近南加州大学和英伟达联合推出了一个新模型
ProgPrompt
,同样使用语言模型对输入指令进行任务规划,其中包含了一个
程序化的提示结构
,使得生成的计划在不同的环境、具有不同能力的机器人、不同的任务中都能发挥作用。
在保证任务的规范性上,研究人员采用
生成python风格代码
的形式来提示语言模型哪些动作是可用的、环境中有哪些物体以及哪些程序是可执行的。
比如输入
「扔苹果
」
命令
就可以生成如下程序。
ProgPrompt模型在
虚拟家庭任务中达到了sota性能
,研究人员还将该模型部署在一个
用于桌面任务的物理机器人手臂
上。
妙用语言模型
想要完成日常家庭任务(everyday household tasks)既需要对世界具有常识性理解,也需要当前环境的情景知识。
为了创建一个「做晚饭」的任务计划,智能体最起码需要知道的常识包括:
物体的功能
,如炉子和微波炉可以用来加热;
行动的逻辑顺序
,在添加食物之前必须先预热烤箱;以及
物体和行动的任务相关性
,例如加热和寻找食材首先是与「晚饭」相关的行动。
但如果没有
状态反馈(state feedback)
,这种推理就无法进行。
智能体需要知道
当前环境中哪里有食物
,例如冰箱里是否有鱼,或者冰箱里是否有鸡肉。
在大型语料库上训练的自回归大型语言模型可以在输入提示的条件下生成文本序列,具有显著的多任务泛化能力。
比如输入「做晚饭」,语言模型可以生成后续序列,如打开冰箱、拿起鸡肉、拿起苏打水、关闭冰箱、打开电灯开关等。
生成的文本序列需要映射到智能体的行动空间中,比如生成的指令是「伸手拿起一罐泡菜」,对应的可执行动作可能就是「拿起罐子」,然后模型会计算出一个行动的概率评分值。
但缺少环境反馈的情况下,如果冰箱里没有鸡肉,却仍然选择「拿起鸡肉」行动,就会导致任务失败,因为「做晚饭」并没有包含任何关于世界状态的信息。
ProgPrompt模型在任务规划中巧妙地利用了编程语言结构,因为
现有的大规模语言模型通常都在编程教程和代码文档的语料中进行过预训练
。
ProgPrompt为语言模型提供了一个Pythonic的程序头部作为提示,导入了可用的动作空间、预期参数和环境中可用的物体。
然后
定义
了诸如make_dinner, throw_away_banana等
函数
,其主体是对物体进行操作的
动作序列
,然后通过
断言计划的先决条件
,例如在试图打开冰箱之前靠近冰箱,以及用恢复行动来应对断言失败的情况,以此
纳入环境的状态反馈
。
最重要的是,ProgPrompt程序中还包括了
自然语言编写的注释
,用以解释行动的目标,从而提高了生成的计划程序执行任务的成功率。
ProgPrompt
有了完整的想法,ProgPrompt的整体工作流程就清晰了,主要包括
三部分
,
Pythonic函数构建
、
构造编程语言提示
、
任务计划的生成和执行
。
1、将机器人计划表述为Pythonic函数
计划函数包括对
动作原语(action primitive)
的API调用,总结动作并添加注释,以及跟踪执行的断言。
每个动作原语需要一个物体作为参数,比如「把三文鱼放进微波炉」任务中,包括对find(salmon)的调用,其中find就是一个动作原语。
利用代码中的注释来为后续的动作序列提供自然语言的总结,注释有助于将高层次的任务分解成合乎逻辑的子任务,即「抓取三文鱼」和「把三文鱼放进微波炉」。
注释也可以让语言模型了解当前的目标,减少不连贯、不一致或重复输出的可能性,
类似于思维链(chain of thought)
生成中间结果。
断言(assertions)
提供了一个环境反馈机制,以确保前提条件成立,并在不成立时实现错误恢复,比如在抓取行动之前,计划断言智能体已经接近了三文鱼,否则智能体需要先执行find行动。
2、构造编程语言prompt
prompt需要向语言模型提供关于环境和主要行动的信息,包括观察、行动原语、例子,并生成了一个Pythonic提示,供语言模型补全。
然后,语言模型将<next task>预测为一个可执行的函数,即microwave_salmon()
在微波炉三文鱼这个任务中,LLM可以生成的且合理的第一步是取出三文鱼,但负责执行计划的智能体可能没有这样一个动作原语。
为了让语言模型了解智能体的动作原语,将其在prompt中通过import语句导入,也就将输出限制为在当前环境下可用的函数上。
要改变智能体的行为空间,只需要
更新import的函数列表
即可。
变量objects
以一个字符串列表的形式提供了环境中的所有
可用物体
。
prompt还包括一些完全可执行的程序计划作为示例,每个示例任务都演示了如何使用给定环境中的可用动作和目标来完成一个给定的任务,如throw_away_lime
3、任务计划的生成和执行
给定任务之后,计划完全是由语言模型根据ProgPrompt提示推断出来的,然后可以将生成的计划在虚拟智能体或物理机器人系统上执行,需要用到一个解释器,针对环境执行每个行动命令。
在执行过程中,断言检查以闭环的方式进行,并根据当前环境状态提供反馈。
在实验部分,研究人员在
虚拟家庭(VH)仿真平台
评估了该方法。
VH的状态包括一组物体和相应的属性,比如三文鱼在微波炉内部(in),或者靠近(agent_close_to)等。
行动空间包括抓取(grab)、放入(putin)、放回(putback)、行走(walk),寻找(find)、打开(open)、关闭(close)等。
最终实验了3个VH环境,每个环境包括115种不同的物体,研究人员创建了一个包含70个家务任务的数据集,抽象程度很高,命令都是「微波三文鱼」这类的,并为之创建一个ground-truth的行动序列。
在虚拟家庭上对生成的程序进行评估后,评估指标包括成功率(SR),目标条件召回(GCR)和可执行性(Exec),从结果上可以看到ProgPrompt明显优于基线和LangPrompt,表格中还展示了每个特征是如何提升性能的。
研究人员同样在
真实世界
进行了实验,使用一个带有平行爪子的Franka-Emika熊猫机器人,并假设可以获得一个拾取和放置(pick-and-place)的策略。
该策略将目标物体和目标容器的两个点云作为输入,并执行拾取和放置操作,将物体放在容器上或里面。
系统实现引入一个开放词汇的物体检测模型ViLD来识别和分割场景中的物体,并构建prompt中的可用物体列表。
与在虚拟环境中不同的是,这里物体列表是每个计划函数的局部变量,这样可以更灵活地适应新对象。
语言模型输出的计划中包含形式为grab和putin等函数调用。
由于现实世界的不确定性,实验设置中
没有实施基于断言的闭环选项
。
可以看到,机器人在分类任务中,能够识别出香蕉和草莓是水果,并生成计划步骤,将它们放在盘子里,而将瓶子放在盒子里。
参考资料:
https://progprompt.github.io/
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
语言模型
关注
11
《多智能体任务规划》2022博士论文
专知会员服务
270+阅读 · 2022年11月20日
5400亿!谷歌「Pathways语言模型」发布,能理解做推理生成代码
专知会员服务
38+阅读 · 2022年4月5日
【Hugging Face】指导文本生成与约束波束搜索🤗Transformers,Guiding Text Generation with Constrained Beam Search in 🤗 Transformers
专知会员服务
21+阅读 · 2022年3月18日
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
专知会员服务
44+阅读 · 2022年1月24日
【斯坦福博士论文】视觉语言的多模态表示,102页pdf
专知会员服务
71+阅读 · 2021年7月29日
一天狂揽2000+星,微软面向初学者ML课程来了,完全免费
专知会员服务
33+阅读 · 2021年7月5日
Knowledge In PLM: 语言模型可以作为一种知识库吗?
专知会员服务
29+阅读 · 2021年6月15日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
129+阅读 · 2020年8月27日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
【华盛顿大学】知识建模+生成式推理,60页ppt,Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning
专知会员服务
52+阅读 · 2019年12月27日
「羊驼打篮球」怎么画?有人花了13美元逼DALL·E 2亮出真本事
机器之心
1+阅读 · 2022年10月8日
给我1张图,生成30秒视频!|DeepMind新作
新智元
0+阅读 · 2022年8月19日
有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了
新智元
1+阅读 · 2022年8月17日
1行代码生成随机迷宫,这个概率编程语言登GitHub热榜,作者曾开发著名WFC算法
量子位
0+阅读 · 2022年6月6日
炸场!通用人工智能最新突破:一个模型、一套权重通吃600+视觉文本和决策任务,DeepMind两年研究一朝公开
THU数据派
0+阅读 · 2022年5月13日
专治各种噩梦级抠图!魏茨曼联合英伟达发布Text2LIVE,用自然语言就能PS
新智元
0+阅读 · 2022年4月14日
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
新智元
0+阅读 · 2022年4月10日
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
机器之心
0+阅读 · 2022年2月24日
英伟达又一次突破想象力!一句话实时P图在线Demo可玩,「神笔马良」升级「创世纪」
THU数据派
0+阅读 · 2021年11月24日
谷歌发布最新看图说话模型,可实现零样本学习,多类型任务也能直接上手
量子位
1+阅读 · 2021年10月24日
以多酸作为电致变色材料构筑光电致变色器件的研究
国家自然科学基金
0+阅读 · 2015年12月31日
基于AR和Jak2/Stat3信号通路对异甘草素多靶点触控抑制前列腺癌作用的分子机制研究
国家自然科学基金
0+阅读 · 2013年12月31日
仿人机器人自主动态越障关键技术研究
国家自然科学基金
2+阅读 · 2013年12月31日
空间站用大型末端执行器系统优化与柔性抓捕控制研究
国家自然科学基金
0+阅读 · 2013年12月31日
无指导汉语文本挖掘的统计模型和统计推断
国家自然科学基金
0+阅读 · 2013年12月31日
定子双绕组异步风力发电机组并网运行控制机理研究
国家自然科学基金
0+阅读 · 2013年12月31日
石墨烯与拓扑绝缘体上磁性的非磁场调控与相关元激发
国家自然科学基金
0+阅读 · 2013年12月31日
大型海上风电场并网柔性直流输电变流器关键技术研究
国家自然科学基金
0+阅读 · 2012年12月31日
互联网环境下中文实体知识挖掘关键技术研究
国家自然科学基金
3+阅读 · 2012年12月31日
藏语语音合成关键技术研究
国家自然科学基金
0+阅读 · 2011年12月31日
Managing Controlled Unclassified Information in Research Institutions
Arxiv
0+阅读 · 2022年11月27日
Detect-Localize-Repair: A Unified Framework for Learning to Debug with CodeT5
Arxiv
0+阅读 · 2022年11月27日
Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks
Arxiv
0+阅读 · 2022年11月25日
A Comprehensive Survey of Few-shot Learning: Evolution, Applications, Challenges, and Opportunities
Arxiv
52+阅读 · 2022年5月13日
Transformers in Time Series: A Survey
Arxiv
33+阅读 · 2022年2月15日
Pix2seq: A Language Modeling Framework for Object Detection
Arxiv
10+阅读 · 2021年9月22日
AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing
Arxiv
23+阅读 · 2021年8月12日
Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey
Arxiv
16+阅读 · 2021年5月26日
A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions
Arxiv
21+阅读 · 2021年5月25日
Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks
Arxiv
17+阅读 · 2018年6月5日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
语言模型
机器人
任务规划
Prompt
包含
序列
相关VIP内容
《多智能体任务规划》2022博士论文
专知会员服务
270+阅读 · 2022年11月20日
5400亿!谷歌「Pathways语言模型」发布,能理解做推理生成代码
专知会员服务
38+阅读 · 2022年4月5日
【Hugging Face】指导文本生成与约束波束搜索🤗Transformers,Guiding Text Generation with Constrained Beam Search in 🤗 Transformers
专知会员服务
21+阅读 · 2022年3月18日
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
专知会员服务
44+阅读 · 2022年1月24日
【斯坦福博士论文】视觉语言的多模态表示,102页pdf
专知会员服务
71+阅读 · 2021年7月29日
一天狂揽2000+星,微软面向初学者ML课程来了,完全免费
专知会员服务
33+阅读 · 2021年7月5日
Knowledge In PLM: 语言模型可以作为一种知识库吗?
专知会员服务
29+阅读 · 2021年6月15日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
129+阅读 · 2020年8月27日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
【华盛顿大学】知识建模+生成式推理,60页ppt,Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning
专知会员服务
52+阅读 · 2019年12月27日
热门VIP内容
开通专知VIP会员 享更多权益服务
OpenAI十二天总结与Agent新范式
【伯克利博士论文】高效深度学习推理的全栈方法
【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏
大规模语言模型增强推荐系统:分类、趋势、应用与未来
相关资讯
「羊驼打篮球」怎么画?有人花了13美元逼DALL·E 2亮出真本事
机器之心
1+阅读 · 2022年10月8日
给我1张图,生成30秒视频!|DeepMind新作
新智元
0+阅读 · 2022年8月19日
有事您说话!谷歌机器人「吃了」语言大模型后,会自学和思考了
新智元
1+阅读 · 2022年8月17日
1行代码生成随机迷宫,这个概率编程语言登GitHub热榜,作者曾开发著名WFC算法
量子位
0+阅读 · 2022年6月6日
炸场!通用人工智能最新突破:一个模型、一套权重通吃600+视觉文本和决策任务,DeepMind两年研究一朝公开
THU数据派
0+阅读 · 2022年5月13日
专治各种噩梦级抠图!魏茨曼联合英伟达发布Text2LIVE,用自然语言就能PS
新智元
0+阅读 · 2022年4月14日
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
新智元
0+阅读 · 2022年4月10日
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
机器之心
0+阅读 · 2022年2月24日
英伟达又一次突破想象力!一句话实时P图在线Demo可玩,「神笔马良」升级「创世纪」
THU数据派
0+阅读 · 2021年11月24日
谷歌发布最新看图说话模型,可实现零样本学习,多类型任务也能直接上手
量子位
1+阅读 · 2021年10月24日
相关基金
以多酸作为电致变色材料构筑光电致变色器件的研究
国家自然科学基金
0+阅读 · 2015年12月31日
基于AR和Jak2/Stat3信号通路对异甘草素多靶点触控抑制前列腺癌作用的分子机制研究
国家自然科学基金
0+阅读 · 2013年12月31日
仿人机器人自主动态越障关键技术研究
国家自然科学基金
2+阅读 · 2013年12月31日
空间站用大型末端执行器系统优化与柔性抓捕控制研究
国家自然科学基金
0+阅读 · 2013年12月31日
无指导汉语文本挖掘的统计模型和统计推断
国家自然科学基金
0+阅读 · 2013年12月31日
定子双绕组异步风力发电机组并网运行控制机理研究
国家自然科学基金
0+阅读 · 2013年12月31日
石墨烯与拓扑绝缘体上磁性的非磁场调控与相关元激发
国家自然科学基金
0+阅读 · 2013年12月31日
大型海上风电场并网柔性直流输电变流器关键技术研究
国家自然科学基金
0+阅读 · 2012年12月31日
互联网环境下中文实体知识挖掘关键技术研究
国家自然科学基金
3+阅读 · 2012年12月31日
藏语语音合成关键技术研究
国家自然科学基金
0+阅读 · 2011年12月31日
相关论文
Managing Controlled Unclassified Information in Research Institutions
Arxiv
0+阅读 · 2022年11月27日
Detect-Localize-Repair: A Unified Framework for Learning to Debug with CodeT5
Arxiv
0+阅读 · 2022年11月27日
Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks
Arxiv
0+阅读 · 2022年11月25日
A Comprehensive Survey of Few-shot Learning: Evolution, Applications, Challenges, and Opportunities
Arxiv
52+阅读 · 2022年5月13日
Transformers in Time Series: A Survey
Arxiv
33+阅读 · 2022年2月15日
Pix2seq: A Language Modeling Framework for Object Detection
Arxiv
10+阅读 · 2021年9月22日
AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing
Arxiv
23+阅读 · 2021年8月12日
Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey
Arxiv
16+阅读 · 2021年5月26日
A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions
Arxiv
21+阅读 · 2021年5月25日
Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks
Arxiv
17+阅读 · 2018年6月5日
大家都在搜
palantir
自主可控
大型语言模型
CMU博士论文
生成式人工智能
无人艇
洛克菲勒
数字孪生
CSIG
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top