从Transformer到多模态大模型的演进与应用。Transformer不仅在语言处理上广泛应用,还扩展至图像、视频、音频等多模态任务。诸如StableDiffusion、VideoPoet和MusicLM等模型展现了其强大的生成能力,推动了多模态大模型(MLLM)的发展。  机器人现实世界至数据化的突破:RT-2、RoboCat与MimicGen。RT-2通过大规模的视觉-语言预训练,将视觉识别与低级机器人控制结合,实现了机器人在复杂任务和未见环境中的强大泛化能力。RoboCat则基于Gato模型,展示了多任务和多具身平台上的自我迭代学习能力,能够快速适应新任务并生成跨任务策略。英伟达的MimicGen自动生成大量模仿学习数据,有效减少了人工干预,提升了机器人学习的效率。  特斯拉FSD,端到端算法成为主流,数据为关键。2020年FSD引入Transformer模型,走向了数据驱动的模型范式,2024年初FSD V12完全采用神经网络进行车辆控制,从机器视觉到驱动决策都将由神经网络进行控制。FSDV12能够模拟人类驾驶决策,成为自动驾驶领域全新发展路径。  英伟达Robocasa:具体智能关键节点,首次论证real-sim-real。通过升级模拟平台并构建模拟框架,基于厨房场景和原子任务、复合任务、真实世界三个场景收集行为数据集并进行结果评估。说明模拟器的丰富多样性以及视觉和物理真实性显著改善了模拟效果,实验结果首次论证了real-sim-real可行。  后续演绎:在机器人real-sim-real可行,证明存在scaling law的基础上,持续推荐可执行任务的泛化能力,迈向真正的AGI智能化:1)李飞飞Rekep:一种针对机器人操作任务的新型空间和时间约束表示方法,提供了一种三任务闭环的解决方案。通过关键点约束解构机器人行为,将操作行为分为多阶段,并构建子目标约束和路径约束,基于此提出一种三任务闭环的解决方案。同时,融入大型视觉模型和视觉-语言模型,利用VLM和GPT-4o生成Rekep约束,避免了手动指定Rekep的需要。2)1x世界模型:首证扩展定律,能通过大量学习理解周围环境。通过大量的真实数据学习和模拟,机器人能够预测复杂的物体互动,理解周围环境,并灵活应对日常任务。1x的进展首次在机器人上证明了扩展法则。3)GR-2的高效动作预测与泛化能力。由字节跳动研究团队开发的第二代机器人大模型,凭借大规模视频预训练和多模态学习技术,展示了卓越的泛化能力与多任务通用性。4)数字表亲:机器人训练法优化,以更低的成本获取更好的泛化能力。在保留数字孪生优势的基础上,数字表亲表现出了更强的适应能力和鲁棒性,成功实现了从模拟到现实的零样本迁移,为机器人学习在复杂、多变的真实环境中的应用开辟了新的可能性。

成为VIP会员查看完整内容
0

相关内容

机器人中的三维高斯溅射:综述
专知会员服务
17+阅读 · 10月17日
《视频任意分割Segment Anything》系统性综述
专知会员服务
20+阅读 · 8月19日
知识图谱与大模型融合综述
专知会员服务
90+阅读 · 6月30日
基于大型语言模型的游戏智能体综述
专知会员服务
63+阅读 · 4月3日
《Transformer压缩》综述
专知会员服务
46+阅读 · 2月14日
知识图谱KG在NLP的十年研究进展综述
专知会员服务
128+阅读 · 2022年10月4日
Nature论文: DeepMind用AI引导直觉解决数学猜想难题
专知会员服务
29+阅读 · 2021年12月2日
知识图谱KG在NLP的十年研究进展综述
专知
14+阅读 · 2022年10月4日
ICLR'21 | GNN联邦学习的新基准
图与推荐
11+阅读 · 2021年11月15日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
教程 | PyTorch经验指南:技巧与陷阱
机器之心
15+阅读 · 2018年7月30日
MATLAB计算机视觉与深度学习实战
炼数成金订阅号
19+阅读 · 2017年8月4日
RNN | RNN实践指南(2)
KingsGarden
19+阅读 · 2017年5月4日
RNN | RNN实践指南(1)
KingsGarden
21+阅读 · 2017年4月4日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2014年12月31日
国家自然科学基金
9+阅读 · 2014年12月31日
Arxiv
0+阅读 · 10月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
395+阅读 · 2023年3月31日
Arxiv
19+阅读 · 2023年3月17日
Arxiv
23+阅读 · 2022年2月4日
Arxiv
10+阅读 · 2021年2月26日
VIP会员
相关VIP内容
机器人中的三维高斯溅射:综述
专知会员服务
17+阅读 · 10月17日
《视频任意分割Segment Anything》系统性综述
专知会员服务
20+阅读 · 8月19日
知识图谱与大模型融合综述
专知会员服务
90+阅读 · 6月30日
基于大型语言模型的游戏智能体综述
专知会员服务
63+阅读 · 4月3日
《Transformer压缩》综述
专知会员服务
46+阅读 · 2月14日
知识图谱KG在NLP的十年研究进展综述
专知会员服务
128+阅读 · 2022年10月4日
Nature论文: DeepMind用AI引导直觉解决数学猜想难题
专知会员服务
29+阅读 · 2021年12月2日
相关资讯
知识图谱KG在NLP的十年研究进展综述
专知
14+阅读 · 2022年10月4日
ICLR'21 | GNN联邦学习的新基准
图与推荐
11+阅读 · 2021年11月15日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
教程 | PyTorch经验指南:技巧与陷阱
机器之心
15+阅读 · 2018年7月30日
MATLAB计算机视觉与深度学习实战
炼数成金订阅号
19+阅读 · 2017年8月4日
RNN | RNN实践指南(2)
KingsGarden
19+阅读 · 2017年5月4日
RNN | RNN实践指南(1)
KingsGarden
21+阅读 · 2017年4月4日
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2014年12月31日
国家自然科学基金
9+阅读 · 2014年12月31日
相关论文
Arxiv
0+阅读 · 10月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
395+阅读 · 2023年3月31日
Arxiv
19+阅读 · 2023年3月17日
Arxiv
23+阅读 · 2022年2月4日
Arxiv
10+阅读 · 2021年2月26日
微信扫码咨询专知VIP会员