中国科大校园行暨联培博士宣讲会3月16日与你相见！

2022 年 3 月 10 日 微软研究院AI头条

2022年，微软 AI 讲堂再度与你相见！

3月16日，在中国科学技术大学校园内，我们将带来中国科大微软联合培养博士生项目和创新学院项目的精彩介绍，更有一众科研大牛与你面对面交流！无线网络、机器学习、智能多媒体、自然语言处理、计算机系统、计算机视觉、OCR……来自微软亚洲研究院的研究员，同时也是中国科大联合培养博士生的导师们，将带你深入了解人工智能多个领域的前沿发展，与你探讨人工智能时代未来的机遇与挑战。

除此之外，活动现场还设置微软亚洲研究院实习生招聘咨询，现场接收简历！快来开启你和微软亚洲研究院的故事吧！

日程安排

时间：

3月16日 15:45-18:45

地点：

中国科学技术大学西区活动中心二楼学术报告厅

15:45-15:48

开场及领导致辞

15:48-16:00

中国科大微软联合培养博士生项目和创新学院项目介绍

石贝贝，微软亚洲研究院资深学术合作经理

16:00-16:20

无线通信与感知

邱锂力，微软亚洲研究院副院长

16:20-16:40

何为机器学习领域好的研究

秦涛，微软亚洲研究院首席研究员、中国科学技术大学博士生导师

16:40-17:00

一个新颖的解耦表征学习框架及其在图像、音频、视频中的应用

罗翀，微软亚洲研究院高级研究员、中国科学技术大学博士生导师

17:00-17:20

基于自然语言处理技术的人工智能创作

段楠，微软亚洲研究院高级研究员

17:20-17:40

RAMMER：通过全局视角编译深度学习计算

杨凡，微软亚洲研究院高级研究员

17:40-18:00

大统一时代：走向自然语言与计算机视觉的统一建模

曹越，微软亚洲研究院主管研究员

18:00-18:20

赋能数字化转型的 OCR 与文档理解技术前瞻

霍强，微软亚洲研究院首席研究员、中国科学技术大学博士生导师

18:20-18:45

提问答疑

演讲摘要与嘉宾介绍

（按演讲顺序排列）

演讲一

中国科大微软联合培养博士生项目

&创新学院项目介绍

演讲人：石贝贝

摘要：演讲将向同学们总体介绍微软亚洲研究院，包括使命、技术方向、近期成果、企业文化和学习环境等；同时也会系统地介绍与中国科学技术大学共建的联合培养博士生项目和创新人才学院项目，包括项目培养方案、导师团队、课程体系、申请方法等。帮助同学全面了解微软亚洲研究院以及中国科大微软联合培养博士生项目和创新人才学院项目。

石贝贝

微软亚洲研究院资深学术合作经理

微软亚洲研究院资深学术合作经理，负责微软亚洲研究院与中华人民共和国教育部的战略合作，以及微软亚洲研究院与中国高校的整体科研合作，包括微软联合实验室、微软联合科研项目、微软铸星计划等旗舰项目，同时负责微软与中国科学技术大学等华中地区以及华南地区高校的高校关系与合作。

演讲二

无线通信与感知

演讲人：邱锂力

摘要：无线技术不仅把万物连接起来，也让我们能更全面更精准地感知世界。该演讲将简要介绍如何用无线信号来定位并感知物体的移动、温度、成分及成像。为了提高精度并减少环境的影响，如何结合信号处理和机器学习。最后我们讨论无线感知的应用场景、挑战和机会。

邱锂力

微软亚洲研究院副院长

邱锂力博士现任微软亚洲研究院副院长，主要负责微软亚洲研究院（上海）的研究工作，以及与产学研各界的合作。邱锂力博士是无线及移动网络领域的国际顶级专家，曾在2001-2004年任微软雷德蒙研究院系统和网络组研究员。2005年，她加入美国得克萨斯大学奥斯汀分校 (UT Austin)任计算机系助理教授，之后因其在互联网和无线网络领域的卓越成就被晋升为终身正教授、博士生导师。邱锂力博士是国际电子电气工程师学会院士 (IEEE Fellow)，国际计算机学会院士 (ACM Fellow)。同时，她还担任国际计算机学会无线及移动系统专委（ACM SIGMOBILE）的主席。邱锂力博士曾获得 ACM 杰出科学家 (ACM Distinguished Scientist)、美国国家科学基金会杰出青年学者奖 (NSF CAREER award)等多项荣誉。邱锂力博士生长于上海，在美国康奈尔大学先后获得计算机硕士及博士学位。

个人主页：https://www.microsoft.com/en-us/research/people/liliqiu/

演讲三

何为机器学习领域好的研究

演讲人：秦涛

摘要：讲者将结合自己的研究工作分享过去若干年在机器学习领域的个人体会和经验总结，并推荐几类好的研究：

（1）设计更好的算法模型如 R-Drop （简单而有效的 Dropout 算法，在自然语言处理计算机视觉多个任务18个数据集上取得明显提高，应用到微软翻译服务中 20 多种语言的翻译）等；

（2）设计更快的算法模型如 FastSpeech 系列（当前最高效神经语音合成模型，支撑了微软云上的所有130+语言300+声音的合成服务）等；

（3）深入理解/分析一个问题或模型算法如 DERL（理论上分析了实际 RL 应用中有模型更新次数限制条件下算法的最优性能，并设计算法达到最优性能）等；

（4）定义一个新的问题如对偶学习（助力微软2018在中英新闻翻译任务上达到了人类专家水平，并在2019机器翻译大会比赛中获得4项第一，应用到多项微软产品中，包括机器翻译语音合成）；

（5）解决一个重要问题如麻将 AI Suphx（全球首个在知名竞技麻将平台天凤上达到专业10段的 AI，安定段位远胜人类顶级选手，在日麻圈广受推崇）。

秦涛

微软亚洲研究院首席研究员

中国科学技术大学计算机科学与技术学院博士生导师

清华大学电子工程系博士，现任微软亚洲研究院首席研究员、深度和强化学习组负责人，中国科学技术大学兼职博士生导师。主要从事深度学习及其在自然语言语音图像处理药物研发中的应用、强化学习及其在游戏 AI 和实际问题中的应用等方面的研究，在业内顶级期刊/会议发表论文100余篇，（曾）担任 ICML/IJCAI/AAAI/SIGIR/ AAMAS/ACML 等会议领域主席/资深程序委员会成员、WWW 2020 研讨会主席、DAI 2019 工业论坛主席，曾任多个国际学术研讨会联席主席。他带领的团队获得了2019年国际机器翻译大赛8项冠军，开发了迄今为止最强麻将人工智能 Suphx，他的团队研发的技术已被广泛应用于微软认知服务、必应（Bing）搜索以及微软云服务。

个人主页：https://www.microsoft.com/en-us/research/people/taoqin/

演讲四

一个新颖的解耦表征学习框架及其在图像、音频、视频中的应用

演讲人：罗翀

摘要：表征学习是近年来机器学习的热点，而解耦表征学习不仅为机器学习提供了更强的可解释性，而且还能被应用到各种智能编辑和生成任务中。本次讲座将介绍我们提出的一个新颖的、与模态无关的解耦表征学习框架 Retriever。该框架可以被用于图像的特征学习，区分人体或面部的各个部位，并进行局部的风格转换；它可以被用于音频的特征学习，分离出一段语音的内容和说话人特征，并进行声音转换或特定人的语音生成；它也可以被用于视频的特征学习，分离出视频的内容、风格、及物体的运动，并进行内容转换、风格转换、运动重定向，甚至是三方视频合成。Retriever 即将发表于表征学习的顶级国际会议 ICLR’22。

罗翀

微软亚洲研究院高级研究员

中国科学技术大学信息科学技术学院电子工程与信息科学博士生导师

上海交通大学信号与信息处理专业博士，现任微软亚洲研究院智能多媒体组高级研究员，中国科学技术大学兼职教授、博士生导师。主要研究方向为计算机视觉、智能语音、跨模态视频分析、视频通信等。著有《Uncoded Multimedia Transmission》(CRC Press)，在包括 CVPR/ECCV/ICCV/NeurIPS/ICLR/AAAI/IJCAI 等顶尖学术会议以及多份 IEEE 期刊上发表论文60余篇，拥有十余项国际发明专利。罗翀博士是现任 IEEE 电路与系统学会多媒体系统与应用技术委员会委员。曾获得2016年上海市计算机学会“上海市网络领域最有影响力论文奖”。

演讲五

基于自然语言处理技术的人工智能创作

演讲人：段楠

摘要：近年来，预训练语言模型的发展极大提升了自然语言处理 (NLP)各项任务的性能。不仅如此，由于其对序列化类型数据具有极好的适用性，这些技术为人工智能在文本、图像和代码等领域上的新型应用提供了巨大的想象和探索空间。本报告首先将简要回顾 NLP 现有的主流技术，然后重点介绍这些技术在人工智能编程(AI for Programming)和人工智能视觉合成 (AI for Visual Synthesis)这两大新型应用场景上的最新进展和所面临的的挑战，最后和大家一起讨论 NLP 在多学科领域融合这一大背景下的未来发展方向。

段楠

微软亚洲研究院高级研究员

段楠博士，微软亚洲研究院自然语言计算组高级研究员，天津大学兼职教授，主要从事自然语言处理、机器推理、以及针对语言/视觉/代码的大规模预训练等研究，多次担任 NLP/AI/ML 相关国际会议评测主席、高级领域主席和领域主席，CCF 杰出会员和杰出讲演者，CCF-NLPCC 青年科学家，发表学术论文100余篇，持有专利10余项，多项研究成果用于微软各类人工智能产品。

演讲六

RAMMER:通过全局视角编译深度学习计算

演讲人：杨凡

摘要：目前深度学习框架采用分层调度将深度学习模型调度到硬件设备上。上层调度主要负责将表达为数据流图的 DNN 模型中的算子正确地调度到下层设备上；下层硬件设备中的调度器将每个算子调度到硬件内的并行计算核上。这样两层调度的模型尽管较为简洁明晰，但在实际的部署中，两个调度层互相不感知会导致较大的调度开销，以及较低的硬件利用率(2-40%)。

针对这种局限性，我们提出了 DNN 编译框架 RAMMER。RAMMER 用 rOperator 暴露出算子内部并行性，同时表示了算子间和算子内的并行度；RAMMER 还用“虚拟设备”暴露出硬件内部的并行调度能力。RAMMER 提供了全局视角，将深度学习计算的并行度充分映射到硬件上，提高硬件利用率。

在 NVIDIA GPU、AMD GPU 和 Graphcore IPU 上的实验表明，RAMMER 可以成倍甚至几十倍地提高性能。相比于当前最先进的神经网络编译器如 XLA 和 TVM，该编译技术可以使现有模型的性能提升高达 20 倍。甚至和 NVIDIA 内部高度优化过的私有计算库 TensorRT 相比，也能得到高达 3 倍的性能超越。

杨凡

微软亚洲研究院高级研究员

杨凡博士现任微软亚洲研究院高级研究员，系统研究组负责人。作为研究经理，他主要负责规划研究战略，协调、管理系统组的研究、产品转化及公司内外的合作项目。他个人的主要研究兴趣为计算机系统，特别是大型分布式系统。他目前主要关注和探索由新兴应用 (如深度学习等) 所产生的新型计算机系统原理、设计和实现。他的多项技术成果都已开源并在微软公司 Bing、Azure、Office 等部门落地，其中多项重要结果均发表在系统顶级会议（如 OSDI）上。杨凡博士毕业于南京大学并先后获得计算机科学学士、硕士及博士学位。

个人主页：https://www.microsoft.com/en-us/research/people/fanyang/

演讲七

大统一时代：走向自然语言与计算机视觉的统一建模

演讲人：曹越

摘要：人工智能领域的发展是一个关于走向统一的故事。机器学习时代统一了学习范式——从数据中学习，深度学习时代统一了基础建模模型——深度神经网络，近期很多研究者致力于探索进一步的统一建模，即使是不同领域的不同任务也可以使用同一个模型及其参数。本报告将介绍计算机视觉在模型和学习方法层面的最新进展。在模型层面，在2017年 Google 设计出 Transformer 并在 NLP 领域证明其有效性后，有大量的工作专注于将 Transformer 应用于计算机视觉领域，使得两个领域从模型层面走向统一成为可能。在学习方法层面，2018年 BERT 的出现使得自监督预训练席卷自然语言处理领域，而计算机视觉领域的研究者们也致力于研究可以从无标记数据中学到强大表征的自监督学习方法，主要可以分为生成式和判别式这两大类。近期，自然语言领域中常用的掩码预测任务在视觉学习中被逐渐发掘出潜力，也使得两个领域进一步走向统一。

曹越

微软亚洲研究院主管研究员

曹越，现任微软亚洲研究院视觉计算组主管研究员，分别于2014年和2019年在清华大学软件学院获得本科和博士学位，代表作有 Swin Transformer、GCNet 与 VL-BERT 等，曾于2017年获微软学者奖学金、2018年获清华大学特等奖学金与林枫辅导员奖，2021年获 ICCV 最佳论文奖—马尔奖。至今在 CVPR、ICCV、ICLR、ICML、NeurIPS 等国际顶级会议和期刊中发表论文30余篇，其中有四篇入围 PaperDigest Most Influential Papers 榜单，谷歌引用八千余次。目前主要的研究兴趣是自监督学习、多模态学习和 Transformer 建模。

个人主页：https://www.microsoft.com/en-us/research/people/yuecao/

演讲八

赋能数字化转型的 OCR 与文档理解技术前瞻

演讲人：霍强

摘要：OCR 和文档理解是微软公司推动数字化转型文档智能愿景的重要赋能技术。在微软亚洲研究院，我们致力于研究开发以下领域的最先进技术和业界领先产品解决方案：

（1）检测和识别任意图片/PDF 中任意语言文本的通用 OCR 技术；

（2）检测和识别任意图片/PDF 中任意形式数学公式的通用数学 OCR 技术；

（3）检测、识别和理解任意图片/PDF 中任意语言表格的通用表格理解技术；

（4）检测任意图像/PDF 中包括文本块、列表、表格、数学公式、图表在内的任意对象，鉴别对象间逻辑关系，获取主体文本阅读顺序的通用版面分析技术；

（5）从任意图片/PDF 中的任意语言文档里提取实体、键值对、列表和其它所需信息的通用信息提取技术；

（6）用于降低开发成本，提高引擎性能，加速创新迭代的数据合成技术。

通过在 Azure Read 和 Form Recognizer 认知服务以及 Power Platform 里部署上述技术，微软公司正在赋能大量内部和第三方客户通过解锁图片/PDF 中的隐藏信息，实现流程自动化、知识挖掘和领域相关的文档智能化，成就不凡。在本次讲座中，我将带领大家一窥我们的技术成果，展望未来的技术方向。

霍强

微软亚洲研究院首席研究员

中国科学技术大学信息科学技术学院电子工程与信息科学博士生导师

微软亚洲研究院语音组首席研究员，2007年8月加入微软，此前在香港大学任教近十年，他培养的许多学生现已成为业界领袖。在过去的三十多年，霍强博士一直坚持研究，为语音识别、手写识别、光学字符识别、文档理解、手势识别、基于生物特征的用户识别、语音和图像处理的硬件设计等领域做出重要贡献，研发的技术已被广泛应用于 Windows、Office、Dynamics、Power Platform、Microsoft 365、Azure 认知服务和必应（Bing）搜索等微软产品和服务中。

个人主页：https://www.microsoft.com/en-us/research/people/qianghuo/

你也许还想看：

登录查看更多

相关内容

微软亚洲研究院

关注 9

微软亚洲研究院 - 维基百科，自由的百科全书

微软亚洲研究院（Microsoft Research Asia）位于北京市海淀区中关村丹棱街5号微软大厦2号楼12-14层，是微软研究院之一，也是微軟在海外最大的研究院及微软在亚洲的第一個研究院，2004年被麻省理工学院《技术评论》称为“世界上最火的计算机实验室”。经过多年的发展，微软亚洲研究院拥有超过230名全职研究员、工程师与超过250名访问学者与实习生。

15页ppt《中国智慧养老服务模式创新及应用》朱勇博士

专知会员服务

30+阅读 · 2022年4月7日

【百图生科宋乐博士】人工智能赋能医药研发

专知会员服务

29+阅读 · 2022年3月17日

2022北京冬奥！领略冬奥上的硬科技【中国科技创新之路——科技冬奥】

专知会员服务

29+阅读 · 2022年2月16日

【重磅】2021年国家自然科学基金项目指南正式公布！(附下载)

专知会员服务

83+阅读 · 2021年1月15日