吸引机器学习圈眼球的MoE,会成为 NLP 与 CV 的未来吗?

2022 年 7 月 4 日 机器之心


在过去的十几年里,受到算法设计、数据、算力三大关键因素的推动,深度学习取得了突破性 进展,极 大地变革了图像分类、机器翻译等领域。

然而在这个过程中,大模型以及数据集的使用是以大量计算需求为代价的。过往的一些研究表明,增强模型的泛化能力以及稳健性离不开大模型的支持,因此,在训练大模型的同时协调好与训练资源的限制非常重要。

一种可行的方法是利用条件计算,该方法不是为单个输入激活整个网络,而是根据不同的输入激活模型的不同部分。这一范式已经在谷歌提出的 Pathway(一种全新的 AI 解决思路,它可以克服现有系统的许多缺点,同时又能强化其优势)愿景和最近的大型语言模型研究中得到了重视,但在计算机视觉领域还没有得到很好的探索。

近段时间,稀疏门控混合专家网络 (Sparsely-Gated MoE) 已经在自然语言处理领域展现出优秀的可扩展性。2021 年,谷歌的 Switch Transformers 将 MoE 风格的架构与 Transformer 模型架构相结合 ,与密集的 T5-Base Transformer 模型相比,训练时间和效率提高了 7 倍。

但在计算机视觉领域,当前几乎所有的高性能网络都还是密集的。接下来,MoE 会成为计算机视觉的未来吗?

北京时间 7 月 5 日 19:00-21:00,机器之心将举办以「MoE 会是 NLP 与 CV 的未来吗?」为主题的在线圆桌论坛,邀请多位来自国内领军技术公司的负责人分享和探讨相关技术的进展和落地应用。届时,他们将围绕 MoE 技术在 NLP 与 CV 领域的应用前景等话题展开探讨。

特邀嘉宾与主题介绍

分享一:大模型时代的机器翻译

分享嘉宾:王明轩,字节跳动科技有限公司机器翻译业务负责人,算法科学家,研究方向主要为机器翻译和自然语言处理。在机器翻译领域,发表包括 ACL、EMNLP 等顶级会议论文超过 40 篇,多次拿到 WMT 等国际翻译评测比赛第一。同时他还担任 EMNLP2022 赞助主席,和 NeurIPS 2022、NLPCC 2022、AACL2022 等会议领域主席。

分享摘要:BERT、GPT 等见证了大模型的巨大成功,对机器翻译来说,海量的数据和更大的模型碰撞是否会带来质变的结果?本次分享主要介绍在大模型时代,机器翻译目前的进展、挑战和机遇。

分享二:Tutel: 一个自适应的超大规模混合专家系统

分享摘要:混合专家系统 (Mixture-of-Experts, MoE) 是目前预训练万亿参数模型的关键技术,与稠密模型相比,MoE 中的条件计算可以在相同计算量下大幅提升模型参量。然而在大规模集群中高效且有效地训练 MoE 仍然具有挑战。在本次分享中,我们将介绍一个动态自适应的大规模可伸缩的 MoE 系统——Tutel,在 16 和 2,048 张 A100 GPU 上基于 Tutel 训练的单 MoE 层可分别达到相比于 Fairseq 4.96 和 5.75 倍的加速。此外,我们使用 Tutel 训练了 SwinV2-MoE 模型,在加速训练和推理的同时在预训练和下游任务中都达到了比相应 SwinV2 稠密模型更好的结果。

分享嘉宾: 熊一帆,微软亚洲研究院系统与网络组研发工程师。 研究兴趣包括机器学习系统和人工智能基础设施,目前主要从事机器学习系统的调度和优化、大规模网络中的集合通信等方面的工作。
 
分享三:Uni-Perceiver-MoE:利用多专家稀疏模型应对通用感知模型中的任务干扰

分享嘉宾:朱锡洲,商汤科技研究院资深算法研究员。2020 年博士毕业于中国科学技术大学 - 微软亚洲研究院联合培养博士生项目。研究方向主要为图像和视频中的物体检测、多模态多任务通用感知模型、视觉自监督与弱监督预训练等。

分享摘要:通用感知模型 Uni-Perceiver 使用同一套模型权重完成各式不同任务,但多任务间的参数共享会引入干扰导致性能下降。Uni-Perceiver-MoE 首次利用 MoE 去除通用感知模型的任务干扰,显著提升了下游任务的性能,并维持模型在新任务上的零样本泛化能力。

圆桌主持人 :胡瀚,微软亚洲研究院视觉计算组高级研究员,西安交大兼职博导。主要研究兴趣包括视觉神经网络设计,自监督表征学习,以及视觉 - 语言联合表征学习等等。他于 2014 年和 2008 年在清华大学自动化系分别获得博士和本科学位,博士论文获得中国人工智能学会优博奖。他的论文 Swin Transformer 荣获 2021 年国际计算机视觉会议 ICCV 最佳论文奖(马尔奖),并被学界和业界广泛使用。

圆桌嘉宾: 王明轩、朱锡洲两位老师将参与圆桌讨论。 此外,微软亚洲研究院系统与网络组高级研究员程鹏老师也将参与圆桌讨论。

程鹏,微软亚洲研究院系统与网络组高级研究员。他于 2015 年获得清华大学计算机科学与技术博士学位,研究兴趣是计算机系统与网络,最近主要从事人工智能基础设施,智能系统,及数据中心资源解耦及虚拟化。

加群看直播

直播间: 下方立即预约,北京时间 7 月 5 日 19:00 开播。
交流群: 本次直播有 QA 环节,欢迎加入本次直播交流群探讨交流。

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动欢迎所有 AI 领域技术从业者加入

  • 点击阅读原文,访问机动组官网,观看往期回顾;

  • 关注机动组服务号,获取每周直播预告

登录查看更多
5

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
一年一总结的NLP年度进展,2021年有哪些研究热点?
专知会员服务
46+阅读 · 2022年1月27日
字节跳动今斩获最佳论文,ACL 2021各大奖项揭晓
专知会员服务
48+阅读 · 2021年7月7日
专知会员服务
38+阅读 · 2021年6月6日
小米在预训练模型的探索与优化
专知会员服务
18+阅读 · 2020年12月31日
NLPCC 2020《预训练语言模型回顾》讲义下载,156页PPT
专知会员服务
47+阅读 · 2020年10月17日
由浅入深详解NLP中的Adapter技术
PaperWeekly
7+阅读 · 2022年7月21日
今晚,一起来聊聊吸引NLP与CV圈眼球的MoE技术
机器之心
6+阅读 · 2022年7月5日
稀疏大模型简述:从MoE、Sparse Attention到GLaM
夕小瑶的卖萌屋
13+阅读 · 2022年3月22日
Recsys21 | 浅谈推荐系统如何在NLP的肩膀上前进
机器学习与推荐算法
2+阅读 · 2021年11月4日
推荐几个NLP出论文的好方向!!
夕小瑶的卖萌屋
1+阅读 · 2021年8月24日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年4月30日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年9月3日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
23+阅读 · 2020年9月16日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Arxiv
15+阅读 · 2018年4月3日
VIP会员
相关VIP内容
相关资讯
由浅入深详解NLP中的Adapter技术
PaperWeekly
7+阅读 · 2022年7月21日
今晚,一起来聊聊吸引NLP与CV圈眼球的MoE技术
机器之心
6+阅读 · 2022年7月5日
稀疏大模型简述:从MoE、Sparse Attention到GLaM
夕小瑶的卖萌屋
13+阅读 · 2022年3月22日
Recsys21 | 浅谈推荐系统如何在NLP的肩膀上前进
机器学习与推荐算法
2+阅读 · 2021年11月4日
推荐几个NLP出论文的好方向!!
夕小瑶的卖萌屋
1+阅读 · 2021年8月24日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年4月30日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
0+阅读 · 2022年9月3日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
23+阅读 · 2020年9月16日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Arxiv
15+阅读 · 2018年4月3日
Top
微信扫码咨询专知VIP会员