汤晓鸥与MIT、宾大教授共话AI：热潮终将退去，人工智能的中国式文艺复兴（附全场PPT）

会员服务 ·

汤晓鸥与MIT、宾大教授共话AI：热潮终将退去，人工智能的中国式文艺复兴（附全场PPT）

2018 年 1 月 30 日 黑智大数据文摘

⁕本文由大数据文摘（BigDataDigest）授权转载

文 | 龙牧雪

“《前任3》票房赚了18亿，那是一个前任6亿啊！”

香港中文大学信息工程系教授、商汤科技联合创始人汤晓鸥昨天在《麻省理工科技评论》与DeepTech深科技主办的新兴科技峰会EmTech China上，保持了“被科研耽误的段子手”的特性，如此调侃道。

你没进错场，汤晓鸥演讲的主题是人工智能，不是娱乐新闻。但是他的演讲自带段子手属性，还两次晒了自家娃，引发全场爆笑，简直让文摘菌回忆起了自己养蛙时候的心情。

下面，文摘菌就带大家回顾一下汤晓鸥的演讲全程，以及之后的圆桌讨论环节。参与28日上午峰会的，还有从事自然语言处理研究的宾夕法尼亚大学计算机与信息科学系教授Dan Roth和从事计算机视觉研究的MIT脑与认知科学系和人工智能实验室教授Tomaso Poggio，大家可以往后翻查看他们的演讲PPT。

汤晓鸥：人工智能的中国式文艺复兴

Ladies and Gentlemen, I will conduct my entire talk in Chinese, in 东北 Chinese.

一上台，汤晓鸥首先表示，自己将用东北口音普通话完成演讲

今天我讲的题目是《人工智能的中国式文艺复兴》，这个题目我在上海讲过一次，我这个人不太喜欢重复自己，于是我又想了一个新的题目，叫《人工智能的中国式十月革命》。

人工智能的热潮终究还是会过去的，过去完了以后是什么呢？有的人告诉我是区块链（笑）。

如果说人工智能=大跃进，大跃进之后是三年自然灾害，那么区块链=三年自然灾害？

言归正传，我每次演讲，都是从这张照片开始。有两个原因，第一，这是我儿子；第二，他长得漂亮。

言归正传地晒娃

今天又多了一个更名正言顺的原因：在座有很多MIT的教授，我儿子再过四、五年就要申请大学了，我想提前让教授们认识一下我儿子，帮助他将来申请。我想我长这样都可以进MIT，他这么帅，应该没问题。虽然他学习成绩很一般，而且不是一般的一般。

再一次言归正传，我想大部分中国人都应该知道这部电影——《战狼》。

一下子赚了56亿票房，约8.8亿美金。这在15、20年前是不可能的；那时候中国的一部电影是不会赚这么多钱的。这有很多原因，其中一个非常重要的原因就是今天我们都愿意花钱去电影院看电影了，而15年前、20年前，很多人会去买盗版的VCD，或者去网上下载一个盗版。如果这样，导演和演员也就没有动力再继续坚持下去了。今天中国电影的成果最重要的推动力就是我们对原创和版权的尊重。

我们现在不是只有一部电影这样成功，比如《羞羞的铁拳》赚了22亿，《芳华》是一部文艺片，也能达到14亿的票房，当然，冯导的电影从来没有让人失望过。

《前任3》的票房是18亿，平均下来，每个前任6亿啊！

《无问西东》是一部非常有情怀的文艺片，也做到了5亿票房。都非常不容易。所以，对原创的尊重使得中国的原创电影不断往前发展。

在三四十年代，全球电影发展起来时，中国电影并不落后，像《马路天使》、《一江春水向东流》一点也不输给好莱坞电影。即使在那个战火连天的年代，中国还能够拍出这些好电影，一个原因可能也是当时没有DVD和互联网来帮助盗版。

再往前，说一下文艺复兴的时候，如果米开朗基罗的这些作品，或者任何一个艺术品很快有人进行复制了拿去卖，那么他可能也赚不到什么钱，也就活不下去了。所以，对于原创的尊重也是文艺复兴能真正兴起的一个原因吧。

我在最后放了一个现代艺术品，我觉得和米开朗琪罗的《大卫》有异曲同工之妙，是用手纸做的一个弹琴的艺术家。这个也是给MIT教授看的，因为这个是我儿子做的。（晒娃乘以二！）

说到原创，下面我们来讲讲人工智能。

一提到人工智能，大家脑海里第一个想到的公司是哪一家呢？我看到大家都在点头，应该大家都同意，第一个想到的一定是商汤。（观众爆笑）

花式晒公司

我觉得大家这个笑就很不礼貌了。OK，是谷歌。

但是我相信人工智能这个热潮一定会过去的，等这个热潮过去了以后，商汤一定会成为人工智能最顶级的公司。（掌声）

那为什么是谷歌？因为谷歌真的把资金投入人工智能发展，2015年的研发经费就是120亿美金。2014年有一家公司叫DeepMind，只有12个员工，没有赚钱，只是在用深度学习玩游戏和下棋，但是谷歌就花了6.6亿美金收购了这家公司。如果是在中国，大家就会花几百万美金把人一个个挖过来，那要便宜得多。但是如果那样做的话，就是对公司、对原创的不尊重，就不会有后来的AlphaGo了。大家也就不会坐在这儿对人工智能产生这么大的兴趣。AlphaGo真的是开创了这个时代。

那么AlphaGo之后大家还能做点什么呢？谷歌又做了AlphaGo 2（AlphaGo Zero），有些公司开始学着AlphaGo下围棋，还有的公司选择打扑克牌，这从某种意义上讲，都是跟在别人的后面做事情。

真正有意义的事情是，在AlphaGo之前你做了什么？有没有做什么事情让机器在某项任务上战胜人类？在AlphaGo之前我们做了一件事情，2014年，我们团队从事人脸识别，在全球第一次让机器的人脸识别能力超过了人的眼睛，像AlphaGo一样，在某一个人类定义的单项任务上，机器超越了人类。超越了人类就过了一条红线，而过了这条红线就可以在工业上进行应用了。

但是在真正应用的时候，又发现了很多问题，过了红线还是不够用的，从实验室到大规模产业化还有很长的路要走。

2014年，我们用20万人脸来对机器进行训练做到了98.5%的准确率，而人是97.5%；2015年我们用30万人脸进行训练，达到了99.55%的准确率。但是这个准确率还是不够。如果用上亿人来建模，还是会有非常多的误报。所以我们从实验室进入了工业化时代。

2016年，我们用6000万人脸训练，达到了百万分之一的误识率；2017年，我们用20亿人脸训练可以达到一亿分之一的误识率，而这样的误识率才可以真正地应用到各行各业，包括监控、金融、安防、手机等行业。所以，我们和高通签署了全球AI战略合作协议。

那么除了人脸识别，我们现在还做什么？我从我们做的十几个行业里选出一个来简单介绍一下——视频分析。

下面这个技术是行为检测。

这是里约奥运会的跳水比赛直播，大家可以看到过了9分钟也没有看到跳水的内容，要花一大堆时间看一些枯燥的内容介绍。所以，我们用计算机视觉分析的方法，可以从很长的一段视频里把重点内容检测出来，你就可以直接跳过没有意义的部分，直接看这些有趣的、真正的跳水的镜头。

下面这个演示是基于内容的视频搜索。

在电影中，我们可以把各种各样的片段搜索出来，比如说你想搜索武打动作片段，或者喜剧片段，我们可以直接把它搜索出来，或者你想搜索科幻的，我们可以把科幻的片段搜索出来。

下面这个演示是用自然语言描述来进行场景搜索。

我们用自然语言来描述一个电影中的场景，然后它就可以自动根据你的描述把这个电影片段搜索出来，比如，我们要搜house of cards中的一个片段，“Claire和Frank坐在蓝色沙发上”，大家看到下面这段场景就出来了。

另外我们不但能把视频分析出来，还能理解这个视频，然后用自然语言描述出来。比如下面这些运动视频，机器可以像解说员一样来描述运动场上发生的事情。

上世纪的一部电影《美国往事》是在威尼斯的Lido酒店拍摄的，下面这个演示里，我们能把电影场景里的所有物体都检测出来。

不仅仅检测演员是哪一个演员，他穿的是什么衣服。这个场景是在餐厅里，所有的桌子、花、椅子全部能够实时的自动检测出来。这样的技术在以前是非常难的，但是现在我们都可以做到了。

再回头来看我们如何用这些技术来分析前面提到的电影《战狼》和《羞羞的铁拳》，我们通过分析这些演员的动作和他们之间的关系，可以分析出来在不同的场景之下，这两个演员是谁，在做什么，这个片段是什么类的情节。

同时，我们可以给每一帧情节分类，可以识别出每一个镜头是打斗场景还是恋爱场景。我们也可以把一个电影最精彩的镜头提取出来，大家可以挑选比如动作的精彩镜头、感情戏的精彩镜头、悲剧的精彩镜头等等。

那么总结起来，我们在做什么呢？

我们是在教机器看电影。我们的目的是让机器代替人类看电影。（笑）

一开始我们是教机器来识别人脸，Google是在教机器来下围棋，而现在我们来教机器代替人看电影。这个感觉有点怪，我们让机器来做下棋，看电影，玩游戏这些有趣的事情，然后我们人类只负责给机器充充电，维修和保养。我想未来可能就是这样的啊。（笑）

我觉得大家听了这个一定觉得很可笑。实际上所有的任务，都是我们人安排给机器做的，机器是按照我们的指令在做事情，不存在机器控制人类这样的事情，AI的真正目的是帮助人类，帮助我们提高生产效率。

最后给年轻人留下两句话：

第一句，电影一定要自己亲自去看。

第二句，AI这个词在中国拼音翻译过来就是“爱”，所以谈恋爱也要自己亲自去谈，否则你就不止是“前任3”了，很有可能是“前任4”、“前任5”了。

汤晓鸥与MIT、宾大教授共话AI

在圆桌环节三位大咖的思维碰撞中，汤晓鸥、Dan Roth、Tomaso Poggio三位教授都提到在中国发展人工智能有诸多良好条件，包括高层有工科背景、大数据方面法律宽松、有大量学生等。

Tomaso Poggio（左二）、Dan Roth（左三）、汤晓鸥（左四）

Dan Roth从自然语言处理的角度出发，提到人工智能目前发展的瓶颈有两点：有没有足够数据，和能否给出合理解释。

汤晓鸥补充说，“We know how it succeeds, but we don't know when it will fail” 。可解释性在医疗领域的研究中尤为重要。

Tomaso Poggio从计算机视觉和脑神经科学的角度补充说，人类婴儿在学习时，不会需要上百万的图片来认识什么是猫、什么是狗。人脑科学非常复杂，人工智能需要方方面面的解决方案。机器要能拥有和人一样的智能程度（能解决多方面问题而不仅仅是单一问题），还需要进行很多研究。现有人工智能商业化应用非常良性，而要取得进步，在研究方面的投入和商业化一样重要。"There is science to be made, not just technology"。

最后，汤晓鸥给出了对想进入人工智能领域的学生的建议：

“如果你5年前想进入AI领域，那很好。但是现在进入AI领域，你会发现5年后，所有人都在做AI，你甚至找不到工作。Follow your heart, never follow anyone else.“

文摘菌觉得，这就是“听从你心，无问西东”的另一个解释吧 :)

说到人工智能的目前进展，可以看看现场的实时翻译效果

最后，文摘菌给大家送来了宾大、MIT两位从事自然语言处理和计算机视觉研究的教授的演讲PPT。

宾夕法尼亚大学计算机与信息科学系教授Dan Roth演讲PPT实录

Dan Roth是宾夕法尼亚大学计算机与信息科学系的教授，此前，他是伊利诺伊大学香槟分校计算机科学系的创始人。他于1995年在哈佛大学获得博士学位。他曾获得国际人工智能联合会议（IJCAI） John McCarthy奖。

MIT脑与认知科学系和人工智能实验室教授Tomaso Poggio演讲PPT实录

Tomaso Poggio是麻省理工学院（MIT）的脑认知科学系和人工智能实验室（CSAIL）的教授、美国人文与科学院院士。他于1981年加入麻省理工学院，此前他在德国的马克斯·普朗克生物与控制论研究所工作了10年。他于1970年在意大利热那亚大学获得博士学位。他曾获得计算机视觉顶级会议ICCV 2017 “Azriel Rosenfeld 终生成就奖”。

登录查看更多

相关内容

汤晓鸥

关注 0

汤晓鸥教授是上海人工智能实验室主任、香港中文大学信息工程系教授。曾担任中国科学院深圳先进技术研究院副院长，2005年-2008年期间，汤晓鸥教授曾任微软亚洲研究院视觉计算负责人。汤晓鸥教授是IEEE院士，同时还担任ICCV（IEEE国际计算机视觉会议）2019程序委员会主席、ICCV 2019大会主席以及计算机视觉领域两大顶级国际期刊之一的IJCV主编。2014年，他带领团队研发的人脸识别技术成为世界上第一个超过人眼识别能力的计算机算法。这项技术还于2015年荣获人工智能领域顶级学术会议 AAAI 首次设立的最佳学生论文奖。