今晚，圆桌讨论Transformer跨界CV任务

2021 年 3 月 25 日 机器之心

自2017 年 6 月谷歌发布论文《Attention is All You Need》后，Transformer架构为整个NLP领域带来了极大的惊喜。

随着技术的发展，Transformer 不仅成为自然语言处理领域的主流模型，还开始了向其他领域的跨界。

特别是在近几个月，Transformer 开始大量应用于计算机视觉领域的研究，甚至有取代卷积网络的趋势。2020 年 5 月，Facebook AI 实验室推出Detection Transformer（DETR），用于目标检测和全景分割。这是第一个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架，在大型目标上的检测性能要优于 Faster R-CNN。2020 年 10 月，谷歌提出了 Vision Transformer (ViT)，可以直接利用 transformer 对图像进行分类，而不需要卷积网络。ViT 模型取得了与当前最优卷积网络相媲美的结果，但其训练所需的计算资源大大减少。

而后，Transformer在图像合成、点云处理、视觉 - 语言建模等领域的研究如雨后春笋般喷涌而出。由此，「Transformer 是万能的吗？」成为了近期机器学习社区的热门话题。甚至不久之前，谷歌大脑研究员 David Ha 发推表示：Transformer 是新的 LSTM。

为了方便读者们了解Transformer在CV领域的前沿研究，为大家提供更多洞见。机器之心策划了「Transformer is all you need？」线上圆桌主题活动，邀请业内做Transformer CV研究的学者们一起讨论相关话题。

本活动主要分为三个环节：每位嘉宾10分钟的研究介绍，40分钟的圆桌讨论以及20分钟在线答疑。

嘉宾简介

翟晓华，ViT共同一作，现任瑞士苏黎世谷歌大脑团队Staff Researcher，研究方向为特征学习、深度学习、人工智能。他于2014年在北京大学王选计算机研究所获得博士学位。他负责的大规模迁移学习算法「Big Transfer (BiT)」基于亿级规模图像数据来训练模型，在超过二十个视觉任务上取得了很好的效果；作为共同一作，他提出的「Vision Transformer (ViT)」将Transformer模型应用于图像识别，利用更少的计算资源取得了与计算机视觉领域的主流模型CNN相当的效果，该工作已被多家媒体报导（包括美国《财富》杂志、机器之心等）；这两个特征学习项目及模型已开源，在GitHub上共获得3000个星标。他提出的「S4L」学习框架将自监督学习应用于半监督学习，该思想已被自监督学习领域广泛采纳和应用。他是「Compare GANs」项目的主要贡献者，在Github上获得1700个星标。他共同创建了「The Visual Task Adaptation Benchmark (VTAB)」项目，这是一个多样、真实、具有挑战性的评测基准，用于评测未见任务小样本条件下的特征学习，包括生成式模型、自监督学习、半监督学习和监督学习。

他发表了多篇国际顶级期刊和会议论文，包括ICLR、ICML、CVPR、ICCV、ECCV、AAAI和IEEE TCSVT。2012年作为彭宇新教授团队的核心成员参加由美国国家标准技术局（NIST）举办的TRECVID中的INS比赛，并获得国际第一名。他是IEEE TPAMI、TIP、TMM、ICLR、ICML、CVPR、ECCV、ICCV、AAAI和ACM MM等国际顶级期刊和会议的审稿人。