CVPR 2019分享会论坛实录丨2019最值得期待的计算机视觉问题有哪些？

2019 年 4 月 10 日 微软研究院AI头条

编者按：4月2日，微软亚洲研究院创研论坛CVPR 2019论文分享会在清华大学圆满落幕。20余位论文作者在分享会现场进行了报告宣讲，30多篇论文进行了海报展示与交流，还有一场精彩的圆桌论坛，就计算机视觉领域值得关注的前沿问题、发展方向、人才培养等热点话题进行了讨论。

这是微软亚洲研究院主办的第三届CVPR分享会，除了容纳300人的罗姆楼报告厅会场座无虚席，还有数千人通过网络观看了本场分享会的在线直播。如果你错过了这场干货满满的分享会，欢迎扫描二维码观看录播视频并下载PPT。

论坛主持人

刘家瑛，北京大学副教授

论坛嘉宾

赫然，中科院自动化所研究员，研究方向为计算机视觉、模式识别理论、信息理论学习等，在相关国际期刊和会议上发表论文140篇，研究工作获得国家优秀青年科学基金和北京市杰出青年科学基金资助。

梁小丹，中山大学副教授，研究方向为机器学习、计算机视觉、智慧医疗等，已有60多篇顶级论文发表，获2018年CCF优秀博士论文。

刘偲，北京航空航天大学副教授，研究方向为计算机识别、多媒体分析、深度学习在图像视频中的应用，已发表30余篇CCF A类论文，获ACM SIGAI China新星奖、吴文俊人工智能优秀青年奖。

马惠敏，清华大学副教授，中国图像图形学会副理事长兼秘书长，研究方向为三维图象认知、复杂环境图像目标检测等，已在相关国际会议和期刊上发表80余篇论文，获2016年吴文俊人工智能科学技术创新一等奖、2017年日内瓦国际发明银奖、教育技术发明二等奖。

童欣，微软亚洲研究院首席研究员，研究方向为计算机图形学和计算机视觉，已在计算机图形学相关的顶级会议SIGGRAPH和期刊ACM TOG上发表50多篇论文，2018年获得ChinaGraph贡献奖。

朱军，清华大学教授，研究方向为机器学习基础理论以及高效算法等，已在相关国际会议和期刊上发表100余篇论文。

从左至右：刘家瑛、梁小丹、赫然、刘偲、朱军、马惠敏、童欣

主持人：首先想请各位老师分享一下最近在研究什么，在关注计算机视觉或交叉方向的哪些前沿问题？

梁小丹：我的研究方向偏深度推理，我认为接下来的人工智能（包括计算机视觉）要走向认知推理，结合人类的常识和Life-long Learning特征去做更高层的分析，比如人机交互对话、视觉关系图推理等。

赫然：我最近在研究概率深度学习基础理论和应用方法，主要应用于高维图像生成，比如生成高分辨人脸和自然场景图像；力图赋予机器一些创造能力，使机器像人类一样能够创造出一些有意思的结果。

刘偲：大家知道前段时间深度学习的“三驾马车”获得了图灵奖，图像中的感知已经取得了很大的进展，我也非常认同小丹的观点，我们下一步应该向图像推理和认知方向努力。所以我正在从事图像中视觉关系的理解、分析方面的研究。

朱军：我主要做机器学习，最近也在关注计算机视觉方面的研究。在机器学习方面，我们在做贝叶斯深度学习、概率编程库，以及一些和决策相关的工作。和计算机视觉紧密相关的工作是深度学习的对抗攻击与防御。

马惠敏：我主要的研究方向是图像认知心理学和机器学习结合的交叉研究，通过研究人的视觉行为来推动human-like learning，同时也在做视觉、听觉、语言结合在一起的任务驱动的问题，主要应用于自主视觉感知领域。我也希望有更多不同学科的学者和同学们一起来让计算机视觉更加接近于人类的水平。

童欣：我的主要方向是图形学，我们现在的研究集中在三维内容生成和三维内容分析上，包括三维内容的物体、场景以及人脸、头发等与人有关的方面的建模与分析理解。

主持人：现在的计算机视觉研究大多基于数据集，以致于有人戏称“Dataset CV”，这究竟是一个好的出发点，还是使我们的研究和视野都局限在了数据集的范畴内呢？

梁小丹：虽然我做了很多数据集，但我觉得依赖数据集不是一条“正途”，因为它会限制我们对算法的想象，大家就不会花更多精力去思考人类为什么可以终身学习、可以从小样本推断大样本这些真正的智能。大量数据对工业界来说是好事，但在学术界是对创新力的极大限制，所以我希望大家不再刷数据集，可以通过比如对物理世界的仿真、自主挖掘信息等方式做更好的研究。

赫然：实际上数据还是非常关键的，因为机器学习肯定要从具体的数据中学习。现在主流的、有影响力的数据集大多是国外建立的，因此建立能推动领域向前发展的、具有国际影响力的数据集是非常重要的一个方面。当然我们也更希望能从dataset到insight，朱军老师的贝叶斯深度学习可能会提供更好的解决方案，让我们从数据中解放出来，获得一个抽象的学习范式。

刘偲：我们今年在ICCV投了一个workshop，提出了一个新的问题，就是基于结构化的搜索，用Scene graph帮助做图像重建。那么提出新问题的时候，我们肯定要搭配一套数据集，才能推动这个领域的发展。另外，我们和产业界合作了一个Human-object Interaction（HOI）数据集，我们不想和传统的HOI数据集一样类别很多，我们专注于很少的类，但应用范围非常广，以此来缩小学术界和工业应用的距离。

朱军：我补充一点，在机器学习领域，大家在2012年对数据集有一个讨论。数据集本身是没错的，问题在于大家在做数据集的时候把背后的意义、问题本身的难度忘掉了，所以我觉得这个是大家要记住的。

主持人：前段时间，图灵奖终于颁给了三位深度学习的开山之祖，知乎马上有帖子说，往往图灵奖颁给哪个领域，哪个领域就开始走向寒冬。那么在座很多同学都很关心，是不是等大家毕业的时候，这个方向就不火了？今年我们也确实看到产业界一些AI方向在转冷，此前也有人质疑AI的火热是不是一个泡沫。学界和产业界的各位老师怎么看待呢？

朱军：我觉得技术发展有起伏是好事，从技术本身来看，其实大家已经发现，深度神经网络能解决一些问题，也有很多问题不能很好解决。大家如果记得，10年、11年的图灵奖都和统计学习有关，后来它的光芒被深度神经网络掩盖了很多。但是现在看来，贝叶斯方法也有优势，比如在小样本学习、不确定性推理等方面，同时，将两者融合的贝叶斯深度学习受到越来越多的关注。我觉得“寒冬”和“回归”都是很正常的，因为大家研究到一定阶段的时候，会发现技术的瓶颈，去探索其它的路径，我觉得应该积极地看待这个问题。

马惠敏：我有两点想说。第一，我们视觉领域的老祖宗马尔，同时是计算机和心理系的教授，包括我们这次图灵奖的三位获得者，他们在神经科学领域有着很深的理解和造诣，所以这一方向其实是一直在上升的，怎么把人类学习方式与计算机视觉结合，一定是一个新的爆发点。第二，大家是不是觉得傅里叶变换、小波、BP这些方法过了很多年就没有用了呢？实际上这些方法包括深度学习神经网络都是非常有效的研究工具。我觉得不存在冷的问题，降温是因为产业界对人工智能的期待过高，作为科学家和学者，我们要做的是脚踏实地。

童欣：我非常赞同马老师和朱老师的观点，我觉得寒冬是好事，这一届图灵奖得主就是在寒冬中坚持下来了。所以一旦寒冬了，说明下一个图灵奖，大家就有希望了。大家应该继续努力，坚持过寒冬，你们就胜利了。

主持人：谢谢，我的下一个问题是，很多人都开始转向计算机视觉，或者做交叉研究，我们可以看到CVPR的投稿数量飞涨。那么大家为什么来做CV，怎么看待所谓的“全民计算机视觉”以及不同领域的交叉？

童欣：我做CV其实原因很简单，因为我做的这些题目和方向正好适合投CV。但是我觉得无论冷或者热，各个领域都是机会均等的。如果一个领域很热，关注多，但是进来的人很多，你想做出好的、出类拔萃的工作会很难，如果一个领域人很少，收到的关注会少，但是可能有机会十年磨一剑，最后大家机会均等。真正会被记住的是那些经得起时间考验的工作。

朱军：我做CV主要是因为最近在研究深度学习的对抗样本攻击和防御，单从数据上说，图像是一种连续的信号，从优化的角度来说更好做，应用也很广泛。当然，我们也做了离散数据（如图、文本）的对抗样本，相对来说优化更困难一些。

现场观众提问一：我想问朱军老师，我们现在对抗样本的攻防会陷入一种模式，比如一个人提出一种攻击方法，另一个人接着他的攻击方法又提了一种防御方法，针对这个防御又出现二次攻击方法，出现类似军备竞赛的一种攻防模式，请问朱军老师对这种发展趋势有什么看法？

朱军：做安全总是存在这种情况，因为防御提高了，攻击也会有相应的办法去破解，但之所以存在这个问题，根本原因是对模型的理解不够深入，不知道真正的局限在哪里。最近大家从学习方法或者学习理论上也在探索，对一些简单的模型，在数据分布比较清楚的情况下，可以有办法去证明一种方法，但对于复杂的神经网络我们还知之甚少。所以我觉得做对抗样本攻防最主要的意义在于加深对模型的理解，使得将来能够设计出更好的模型。

现场观众提问二：梁小丹老师，您刚刚提到常识、认知和推理，您最近在做哪些相关的工作？

梁小丹：我觉得计算机视觉大部分问题是关于感知的问题，我希望可以把推理能力加入人工智能系统，所以我最近主要在做对话系统，把人类的一些常识和推理加入对话。

我觉得推理有两种策略，一种是把维基百科这样的结构化知识转换成图结构数据显式地加入模型，另一种是演绎学习。我们没法做机器推理的原因是没有把一些潜在的逻辑学习出来，如果我们可以在推理过程中显式地把一些解释逻辑、规则学习出来，就可以让一个深度学习模型有更广泛的适应性。

现场观众提问三：我想问童欣老师，现在的三维物体生成模型大都基于ModelNet、ShapeNet这样基础的三维模型数据库，您觉得在三维生成领域有没有什么新的topic，或者跟图形学结合有什么新的问题？

童欣：刚刚大家也讲到大数据，有大数据是非常幸福的事情，因为像刚刚这位同学讲到，三维生成的问题就是数据太少了。三维生成本来就是为了生成数据，但用深度学习又需要大量三维数据，这是一个鸡和蛋的问题。也因为如此，我个人觉得三维数据生成里有很多挑战，或者说处处都是机遇，特别是关于三维空间中，形体如何有效表达，它的特征空间应该是什么样？还有如何快速构建一个大型的三维数据库，如何把三维机器学习、三维分析和已有的数据捕捉或者造型结合起来，我觉得这些都是很好的研究题目。同时我也非常欢迎做计算机视觉的同学，如果有兴趣可以来看一看三维相关的很多东西，因为在传统视觉中三维重建是很重要的研究内容，我相信有很多topic值得大家研究。

现场观众提问四：很多人都说三维视觉会成为AI的一片蓝海，我想问童欣老师，您认为在三年到五年之内，三维视觉里哪些技术有可能成熟或者落地？

童欣：三维视觉技术会是AR中的关键技术，同时对机器人和无人车等三维环境中自动导航等都会有非常重要的应用。另一方面，三维视觉和深度学习技术也会给三维内容创作带来很多新的东西。

马惠敏：虽然离成熟还有距离，但现在自动驾驶领域的应用已经可以说“被”成熟了，这些跟我们生活连接最紧密的领域，往往是催生应用落地的点，无论是机器人、自动驾驶，还是医疗等，都有不少的成果出现，但要注意，这些成果都是有限条件下的成果，如果想达到具有普遍意义的成果，还有很多路要走。

主持人：最后一个问题，我前两周参加了一个中学生的AI评委会，看到现在中学生已经能很好的使用深度学习平台，熟练地掌握PyTorch的调参技巧，学生就会有这样的焦虑感，说“老师，中学生都能很好的驾驭AI了，我们还要干什么？”我想问几位老师，在现在这个AI时代，我们应该教会学生什么样的东西，让他们拥有傍身之技？

刘偲：我之前确实遇到过人大附中的学生，跑实验和写paper都特别好，让我非常震惊。但是我们科班的人肯定希望能做一些前沿的事情，包括跨领域的探索，我觉得高校的老师和学生可以朝交叉学科的方向去做。

赫然：现在很多高中同学确实具有较强的科研实力，他们的研究工作往往都是建立在指导老师的肩膀上（长期的积累）。网络调参只是科研工作的一小部分，好的科研成果需要导师告诉高中同学具体的科研问题和方法的创新思路，还需要很多数据、平台和计算资源支撑。做科研还是需要有长期的积累，才可能走的更远。

扫描下方二维码查看分享会回放视频

扫描下方二维码下载分享会PPT

你也许还想看：

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。

登录查看更多

相关内容

刘偲

关注 1

刘偲，北航教授，博导。曾主持国家优秀青年科学基金。博士毕业于中科院自动化所，曾于新加坡国立大学任研究助理和博后，曾任微软亚洲研究院(MSRA)铸星计划研究员。研究方向是跨模态多媒体智能分析（跨模态包含自然语言，计算机视觉以及语音等）以及经典计算机视觉任务（目标检测、跟踪和分割）。共发表了CCF A类论文50余篇，其研究成果发表于TPAMI、IJCV和CVPR等。Google Scholar引用8000次。2017年入选中国科协青年人才托举工程。获CCF-腾讯犀牛鸟专利奖、吴文俊人工智能优青奖、CSIG石青云女科学家奖。获ACM MM最佳技术演示奖和最佳论文奖各一次，以及IJCAI 最佳视频奖。指导学生获ChinaMM 2018最佳学生论文奖和PRCV 2020最佳论文提名奖。多次带领北航大三、大四本科生发表一作CVPR、AAAI和ACM MM 论文。带领学生获得10项CVPR、ICCV、ACL等国际顶级竞赛冠军。并指导学生获得北航冯如杯一等奖。主办了ECCV 2018、ICCV 2019、CVPR 2021‘Person in Context’workshop，在学术界和工业界均有较大影响力。担任中国图象图形学学会理事、副秘书长。多次担任ICCV、CVPR、ECCV等顶级会议领域主席（AC），担任IEEE TMM, TCSVT 等领域重要期刊编辑（AE）。研发的技术服务于十余家互联网领军企业，如阿里、腾讯、华为、商汤、依图和小米等。

浅谈文字识别：新思考、新挑战及新机遇，华南理工大学金连文教授，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

专知会员服务

26+阅读 · 2019年10月24日

文档分析与识别技术回顾与反思，中国科学院自动化研究所刘成林研究员，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

专知会员服务

38+阅读 · 2019年10月24日

网络表示学习，北京大学宋国杰副教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

41+阅读 · 2019年10月24日

【CVPR 2019 | tutorial】用于计算机视觉的胶囊网络 Capsule Networks for Computer Vision，中佛罗里达大学|Mubarak Shah，Rawat

专知会员服务

25+阅读 · 2019年6月16日