【微软Sebastien Bubeck】Transformers with LEGO，最新报告 - 专知

会员服务 ·

0

【微软Sebastien Bubeck】Transformers with LEGO，最新报告

2022 年 11 月 9 日 专知

本文提出一个合成任务LEGO(学习平等和组操作)，封装了遵循推理链的问题，研究了transformer架构如何学习这一任务。我们特别关注数据效果，如预训练(对看似不相关的NLP任务)和数据集组成(例如，训练和测试时不同的链长度)，以及体系结构变量，如权重绑定层或添加卷积组件。我们研究经过训练的模型如何最终成功完成任务，特别是，我们能够(在一定程度上)理解一些注意力头以及信息如何在网络中流动。基于这些观察，我们提出了一个假设，预训练的帮助仅仅是因为它是一个聪明的初始化，而不是存储在网络中的一些深入的知识。在一些数据环境中，经过训练的transformer找到了"捷径"解决方案来遵循推理链，这妨碍了模型泛化到主要任务的简单变体的能力，而且可以通过适当的架构修改或仔细的数据准备来防止这种捷径。在发现的激励下，开始探索学习执行C程序的任务，其中对transformer的卷积修改，即在键/查询/值映射中添加卷积结构，显示了令人鼓舞的优势。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“T81” 就可以获取《【微软Sebastien Bubeck】Transformers with LEGO，最新报告》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

0

相关内容

微软（英文名称：Microsoft；中文名称：微软公司或美国微软公司）始建于1975年，是一家美国跨国科技公司，也是世界PC（Personal Computer，个人计算机）软件开发的先导，由比尔·盖茨与保罗·艾伦创办于1975年，公司总部设立在华盛顿州的雷德蒙德（Redmond，邻近西雅图）。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

几何深度学习有何进展？252页ppt《几何深度学习》2022夏令营报告，牛津大学Twiter大牛Bronstein主讲

几何深度学习有何进展？252页ppt《几何深度学习》2022夏令营报告，牛津大学Twiter大牛Bronstein主讲

专知会员服务

49+阅读 · 2022年8月3日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

ICCV 2021最佳论文出炉！微软Swin Transformer摘得马尔奖

ICCV 2021最佳论文出炉！微软Swin Transformer摘得马尔奖

专知会员服务

30+阅读 · 2021年10月13日

视觉语言研究进展到哪了？CVPR2021视觉语言研究全面概述：预训练、视觉问答等，附视频与430页ppt

视觉语言研究进展到哪了？CVPR2021视觉语言研究全面概述：预训练、视觉问答等，附视频与430页ppt

专知会员服务

44+阅读 · 2021年7月9日

【NAACL2021】长序列自然语言处理, 250页ppt

【NAACL2021】长序列自然语言处理, 250页ppt

专知会员服务

62+阅读 · 2021年6月7日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

325+阅读 · 2020年11月26日

【论文翻译】2020最新预训练语言模型综述：Pre-trained Models for Natural Language Processing: A Survey

【论文翻译】2020最新预训练语言模型综述：Pre-trained Models for Natural Language Processing: A Survey

专知会员服务

94+阅读 · 2020年4月13日

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

专知会员服务

48+阅读 · 2019年11月25日

深度学习如何用于蛋白质？微软最新《多模态深度学习的蛋白质工程》报告，附300页ppt与视频

深度学习如何用于蛋白质？微软最新《多模态深度学习的蛋白质工程》报告，附300页ppt与视频

专知

0+阅读 · 2022年10月12日

「扩散模型」Awesome资料最新大合集

「扩散模型」Awesome资料最新大合集

专知

3+阅读 · 2022年10月10日

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

专知

0+阅读 · 2022年9月27日

《自监督学习》最新报告，45页ppt

《自监督学习》最新报告，45页ppt

专知

1+阅读 · 2022年9月14日

最新《Transformers》报告，Google Lucas Beyer 报告, 附Slides与视频

最新《Transformers》报告，Google Lucas Beyer 报告, 附Slides与视频

专知

1+阅读 · 2022年9月13日

【AAAI2022】知识图谱表示模型是如何进行外推的?

【AAAI2022】知识图谱表示模型是如何进行外推的?

专知

1+阅读 · 2022年2月2日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

斯坦福NLP组最新报告：自然语言处理中的学习挑战（附149页报告全文下载）

斯坦福NLP组最新报告：自然语言处理中的学习挑战（附149页报告全文下载）

专知

14+阅读 · 2019年4月8日

光响应分子非对称修饰及协同调控纳米通道离子输运性能研究

国家自然科学基金

0+阅读 · 2014年12月31日

镧系金属有机骨架材料的功能调控

国家自然科学基金

0+阅读 · 2014年12月31日

聚合物半导体中磁阻现象的机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

可抵抗密钥失窃的无线通信安全协议研究

国家自然科学基金

1+阅读 · 2013年12月31日

靶向LMP1干扰通过PI3K/Akt/mTOR通路逆转鼻咽癌细胞的TRAIL抵抗

国家自然科学基金

0+阅读 · 2013年12月31日

基于文本语境约束的XML商业报告多维分析模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

高分子纳米复合材料的开关设计及其多形效应的研究

国家自然科学基金

0+阅读 · 2012年12月31日

拓扑非平衡输运

国家自然科学基金

1+阅读 · 2012年12月31日

纳米杂化双光子吸收无机功能材料的构筑与机理研究

国家自然科学基金

0+阅读 · 2011年12月31日

苦参碱逆转ABCG2介导白血病细胞多药耐药的机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

Tracr: Compiled Transformers as a Laboratory for Interpretability

Tracr: Compiled Transformers as a Laboratory for Interpretability

Arxiv

0+阅读 · 2023年1月12日

Combining Transformers with Natural Language Explanations

Arxiv

0+阅读 · 2023年1月12日

Multimodal Learning with Transformers: A Survey

Arxiv

69+阅读 · 2022年6月13日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

Arxiv

17+阅读 · 2020年6月2日

已删除

Arxiv

33+阅读 · 2020年3月23日

Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

Arxiv

10+阅读 · 2019年9月15日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Order-Free RNN with Visual Attention for Multi-Label Classification

Arxiv

16+阅读 · 2017年12月20日

VIP会员

相关主题

相关VIP内容

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

几何深度学习有何进展？252页ppt《几何深度学习》2022夏令营报告，牛津大学Twiter大牛Bronstein主讲

几何深度学习有何进展？252页ppt《几何深度学习》2022夏令营报告，牛津大学Twiter大牛Bronstein主讲

专知会员服务

49+阅读 · 2022年8月3日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

ICCV 2021最佳论文出炉！微软Swin Transformer摘得马尔奖

ICCV 2021最佳论文出炉！微软Swin Transformer摘得马尔奖

专知会员服务

30+阅读 · 2021年10月13日

视觉语言研究进展到哪了？CVPR2021视觉语言研究全面概述：预训练、视觉问答等，附视频与430页ppt

视觉语言研究进展到哪了？CVPR2021视觉语言研究全面概述：预训练、视觉问答等，附视频与430页ppt

专知会员服务

44+阅读 · 2021年7月9日

【NAACL2021】长序列自然语言处理, 250页ppt

【NAACL2021】长序列自然语言处理, 250页ppt

专知会员服务

62+阅读 · 2021年6月7日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

325+阅读 · 2020年11月26日

【论文翻译】2020最新预训练语言模型综述：Pre-trained Models for Natural Language Processing: A Survey

【论文翻译】2020最新预训练语言模型综述：Pre-trained Models for Natural Language Processing: A Survey

专知会员服务

94+阅读 · 2020年4月13日

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

专知会员服务

48+阅读 · 2019年11月25日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

深度学习如何用于蛋白质？微软最新《多模态深度学习的蛋白质工程》报告，附300页ppt与视频

深度学习如何用于蛋白质？微软最新《多模态深度学习的蛋白质工程》报告，附300页ppt与视频

专知

0+阅读 · 2022年10月12日

「扩散模型」Awesome资料最新大合集

「扩散模型」Awesome资料最新大合集

专知

3+阅读 · 2022年10月10日

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

专知

0+阅读 · 2022年9月27日

《自监督学习》最新报告，45页ppt

《自监督学习》最新报告，45页ppt

专知

1+阅读 · 2022年9月14日

最新《Transformers》报告，Google Lucas Beyer 报告, 附Slides与视频

最新《Transformers》报告，Google Lucas Beyer 报告, 附Slides与视频

专知

1+阅读 · 2022年9月13日

【AAAI2022】知识图谱表示模型是如何进行外推的?

【AAAI2022】知识图谱表示模型是如何进行外推的?

专知

1+阅读 · 2022年2月2日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

斯坦福NLP组最新报告：自然语言处理中的学习挑战（附149页报告全文下载）

斯坦福NLP组最新报告：自然语言处理中的学习挑战（附149页报告全文下载）

专知

14+阅读 · 2019年4月8日

相关基金

光响应分子非对称修饰及协同调控纳米通道离子输运性能研究

国家自然科学基金

0+阅读 · 2014年12月31日

镧系金属有机骨架材料的功能调控

国家自然科学基金

0+阅读 · 2014年12月31日

聚合物半导体中磁阻现象的机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

可抵抗密钥失窃的无线通信安全协议研究

国家自然科学基金

1+阅读 · 2013年12月31日

靶向LMP1干扰通过PI3K/Akt/mTOR通路逆转鼻咽癌细胞的TRAIL抵抗

国家自然科学基金

0+阅读 · 2013年12月31日

基于文本语境约束的XML商业报告多维分析模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

高分子纳米复合材料的开关设计及其多形效应的研究

国家自然科学基金

0+阅读 · 2012年12月31日

拓扑非平衡输运

国家自然科学基金

1+阅读 · 2012年12月31日

纳米杂化双光子吸收无机功能材料的构筑与机理研究

国家自然科学基金

0+阅读 · 2011年12月31日

苦参碱逆转ABCG2介导白血病细胞多药耐药的机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Tracr: Compiled Transformers as a Laboratory for Interpretability

Tracr: Compiled Transformers as a Laboratory for Interpretability

Arxiv

0+阅读 · 2023年1月12日

Combining Transformers with Natural Language Explanations

Arxiv

0+阅读 · 2023年1月12日

Multimodal Learning with Transformers: A Survey

Arxiv

69+阅读 · 2022年6月13日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

Arxiv

17+阅读 · 2020年6月2日

已删除

Arxiv

33+阅读 · 2020年3月23日

Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

Arxiv

10+阅读 · 2019年9月15日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Order-Free RNN with Visual Attention for Multi-Label Classification

Arxiv

16+阅读 · 2017年12月20日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

滴滴司机调度系统实践

微信扫码咨询专知VIP会员