吸引机器学习圈眼球的MoE，会成为 NLP 与 CV 的未来吗？

2022 年 7 月 4 日 机器之心

在过去的十几年里，受到算法设计、数据、算力三大关键因素的推动，深度学习取得了突破性进展，极大地变革了图像分类、机器翻译等领域。

然而在这个过程中，大模型以及数据集的使用是以大量计算需求为代价的。过往的一些研究表明，增强模型的泛化能力以及稳健性离不开大模型的支持，因此，在训练大模型的同时协调好与训练资源的限制非常重要。

一种可行的方法是利用条件计算，该方法不是为单个输入激活整个网络，而是根据不同的输入激活模型的不同部分。这一范式已经在谷歌提出的 Pathway（一种全新的 AI 解决思路，它可以克服现有系统的许多缺点，同时又能强化其优势）愿景和最近的大型语言模型研究中得到了重视，但在计算机视觉领域还没有得到很好的探索。

近段时间，稀疏门控混合专家网络 (Sparsely-Gated MoE) 已经在自然语言处理领域展现出优秀的可扩展性。2021 年，谷歌的 Switch Transformers 将 MoE 风格的架构与 Transformer 模型架构相结合，与密集的 T5-Base Transformer 模型相比，训练时间和效率提高了 7 倍。

但在计算机视觉领域，当前几乎所有的高性能网络都还是密集的。接下来，MoE 会成为计算机视觉的未来吗？

北京时间 7 月 5 日 19:00-21:00，机器之心将举办以「MoE 会是 NLP 与 CV 的未来吗？」为主题的在线圆桌论坛，邀请多位来自国内领军技术公司的负责人分享和探讨相关技术的进展和落地应用。届时，他们将围绕 MoE 技术在 NLP 与 CV 领域的应用前景等话题展开探讨。

特邀嘉宾与主题介绍

分享一：大模型时代的机器翻译

分享嘉宾：王明轩，字节跳动科技有限公司机器翻译业务负责人，算法科学家，研究方向主要为机器翻译和自然语言处理。在机器翻译领域，发表包括 ACL、EMNLP 等顶级会议论文超过 40 篇，多次拿到 WMT 等国际翻译评测比赛第一。同时他还担任 EMNLP2022 赞助主席，和 NeurIPS 2022、NLPCC 2022、AACL2022 等会议领域主席。

分享摘要：BERT、GPT 等见证了大模型的巨大成功，对机器翻译来说，海量的数据和更大的模型碰撞是否会带来质变的结果？本次分享主要介绍在大模型时代，机器翻译目前的进展、挑战和机遇。

分享二：Tutel: 一个自适应的超大规模混合专家系统

分享摘要：混合专家系统 (Mixture-of-Experts, MoE) 是目前预训练万亿参数模型的关键技术，与稠密模型相比，MoE 中的条件计算可以在相同计算量下大幅提升模型参量。然而在大规模集群中高效且有效地训练 MoE 仍然具有挑战。在本次分享中，我们将介绍一个动态自适应的大规模可伸缩的 MoE 系统——Tutel，在 16 和 2,048 张 A100 GPU 上基于 Tutel 训练的单 MoE 层可分别达到相比于 Fairseq 4.96 和 5.75 倍的加速。此外，我们使用 Tutel 训练了 SwinV2-MoE 模型，在加速训练和推理的同时在预训练和下游任务中都达到了比相应 SwinV2 稠密模型更好的结果。

分享嘉宾：熊一帆，微软亚洲研究院系统与网络组研发工程师。研究兴趣包括机器学习系统和人工智能基础设施，目前主要从事机器学习系统的调度和优化、大规模网络中的集合通信等方面的工作。

分享三：Uni-Perceiver-MoE：利用多专家稀疏模型应对通用感知模型中的任务干扰

分享嘉宾：朱锡洲，商汤科技研究院资深算法研究员。2020 年博士毕业于中国科学技术大学 - 微软亚洲研究院联合培养博士生项目。研究方向主要为图像和视频中的物体检测、多模态多任务通用感知模型、视觉自监督与弱监督预训练等。

分享摘要：通用感知模型 Uni-Perceiver 使用同一套模型权重完成各式不同任务，但多任务间的参数共享会引入干扰导致性能下降。Uni-Perceiver-MoE 首次利用 MoE 去除通用感知模型的任务干扰，显著提升了下游任务的性能，并维持模型在新任务上的零样本泛化能力。

圆桌主持人 ：胡瀚，微软亚洲研究院视觉计算组高级研究员，西安交大兼职博导。主要研究兴趣包括视觉神经网络设计，自监督表征学习，以及视觉 - 语言联合表征学习等等。他于 2014 年和 2008 年在清华大学自动化系分别获得博士和本科学位，博士论文获得中国人工智能学会优博奖。他的论文 Swin Transformer 荣获 2021 年国际计算机视觉会议 ICCV 最佳论文奖（马尔奖），并被学界和业界广泛使用。

圆桌嘉宾： 王明轩、朱锡洲两位老师将参与圆桌讨论。此外，微软亚洲研究院系统与网络组高级研究员程鹏老师也将参与圆桌讨论。

程鹏，微软亚洲研究院系统与网络组高级研究员。他于 2015 年获得清华大学计算机科学与技术博士学位，研究兴趣是计算机系统与网络，最近主要从事人工智能基础设施，智能系统，及数据中心资源解耦及虚拟化。

加群看直播

直播间：下方立即预约，北京时间 7 月 5 日 19:00 开播。

交流群：本次直播有 QA 环节，欢迎加入本次直播交流群探讨交流。