CAAI前沿讲习班 ∣ 第七期《计算机视觉应用技术》8月31日-9月1日武汉开讲

2019 年 7 月 22 日 中国人工智能学会

为加快实施创新驱动发展战略，促进人工智能领域的青年从业者更好地了解本领域学科前沿，加强学术交流，开阔视野以及提高技术水平，中国人工智能学会举办了“人工智能前沿讲习班”（以下简称CAAI-AIDL）系列学术交流活动。

此前，CAAI-AIDL已经成功举办六次，主题分别为：《深度学习如何促进AI发展》（学术主任：陶建华）、《机器学习前沿》（学术主任：周志华）、《大数据：理论与应用》（学术主任：程学旗）、《智能感知与交互》（学术主任：王蕴红）、《深度学习》（学术主任：季向阳）和《自然语言处理》（学术主任：张潼和刘兵）。

第7期AIDL主题为《计算机视觉应用技术》，由中国人工智能学会主办，白翔和章国锋两位教授担任学术负责人，并邀请到计算机视觉领域十余位著名学者作为特邀报告人。参会者不仅可以听取专家们对本领域基础知识和最新进展的集中讲解，也可以获得跟顶尖专家交流的机会。

主办单位：中国人工智能学会

举办时间：2019年8月31日-9月1日

举办地点：武汉·华中科技大学

官网：https://aidl.caai.cn/

活动日程

8月31日

08：30- 10：00

查红彬北京大学信息科学技术学院智能科学系教授，机器感知与智能教育部重点实验室主任

报告题目：SLAM研究的新进展：从多视点几何计算到在线学习

报告摘要：

近年来，随着自动驾驶、机器人导航与移动终端传感计算等应用的快速发展，SLAM（Simultaneous Localization and Mapping：即时定位与地图构建）技术再度成为计算机视觉与虚拟现实领域的研究热点。传统的SLAM技术充分利用多视点几何与SfM（Structure from Motion）等领域的高效算法，并通过与深度传感器、惯性传感器等下一代传感设备的数据融合，在传感器轨迹计算精度与三维场景重建质量方面取得了显著的进步。但在实际应用中，仍存在重建误差积累严重、计算成本高昂等问题，影响了机器系统的在线响应速度以及对复杂环境的自适应能力。针对这些问题，我们应最大限度地利用传感数据的时空一致性与三维地图的几何不变性，在现有多视点几何计算的基础上，强化SLAM算法的系统性与泛化能力，进一步改善其基本性能。该报告的主要内容包括：（1）引入数据流计算的基本概念，充分挖掘密集采样传感数据内在的时空连续性，以加强SLAM算法的预测能力；（2）构建基于时域变化的增量算法，并利用地图全局特征的约束以及传感数据的实时反馈作用，实现传感器轨迹的高效计算与三维地图的递进式构建；（3）尝试各类机器学习算法在SLAM问题中的应用，以探讨建立自监督SLAM在线学习技术的新途径。

10：00 - 11：30

山世光中国科学院计算技术研究所研究员、智能信息处理重点实验室常务副主任，国家优秀青年科学基金获得者，国家“万人计划”入选者

报告题目：从看脸到读心：深度理解人的视觉技术和方法进展

报告摘要：

基于视觉方式理解人是人工智能研究的重要方向。过去五年来，得益于深度学习、强大算力与大规模人脸数据，人脸识别等“看脸”技术得到了飞速发展，并已在诸多领域得以应用，引领了AI技术的成功落地。智能技术发展进入下半场，需要对人有更深刻的感知和理解，基于视觉的方式“读心”首当其冲。这里所谓的“读心”是指通过对普通摄像设备采集的人物视频的分析，获得视频人物情感状态、生理指标和心理状态的技术，主要包括：基本表情识别、面部动作单元检测、正负性情绪分类、身高/体重估计、心率估计、呼吸次数估计、血氧估计、心跳变异分析(房性纤颤)、瞳孔状态分析、视点估计与跟踪等关键技术，以及在这些技术基础上构建的心理状态估计技术及系统，其中包括专注与分神、疲劳与精力充沛、紧张与放松、疑惑与确信、抑郁与舒畅等等。这些技术在人机交互、交通、教育、健康、医疗、商业、公安等诸多领域均有广泛的应用前景。本报告的第一部分将介绍上述“读心”技术的研究现状，第二部分将介绍本人课题组在这些任务上的研究进展和未来计划，最后将讨论“读心”技术的未来发展趋势。

11：35- 12：05 ICDAR2019票据扫描件比赛端到端识别任务冠军介绍比赛经验

14：30 - 16：00

彭宇新 北京大学二级教授、博士生导师、863项目首席专家

报告题目：跨媒体智能：表征、分析与应用

报告摘要：

随着多媒体和网络技术的迅猛发展，海量的图像、视频、文本等跨媒体数据快速增长，它们多源异构且相互关联，使得数据表征、信息检索、知识发现、语义推理面临跨媒体、跨数据源等挑战。如何借鉴人脑的跨媒体特性，跨越视觉、听觉、语言等不同的感官信息认知外部世界，对于提高计算机的感知认知能力和智能水平至关重要。本报告将对中国工程院“人工智能2.0”中跨媒体分析推理技术的任务和目标进行介绍，然后重点介绍我们的相关研究进展，包括细粒度图像分类、跨媒体检索、文本生成图像、视频描述生成等。

16：10- 17：40

章国峰浙江大学计算机辅助设计与图形学国家重点实验室教授，博士生导师，国家优秀青年科学基金获得者

报告题目：视觉SLAM技术与AR应用

报告摘要：

虽然基于视觉或视觉惯性的SLAM技术在过去十多年里取得了很大的进展，但要满足实际的应用需求仍需要解决一些关键性难题。尤其是如何在移动设备上做到实时稳定的跟踪，如何处理快速运动和强旋转？如何实现高效的全局优化？另外，如何评测现在的VSLAM/VISLAM算法在AR应用上的性能？本次讲座主要与大家分享我们为了解决这些关键问题所做的研究工作以及在AR上的应用，并发布了专门针对AR应用的视觉惯性数据集和评测标准。

9月1日

08：20 - 9: 50

金连文华南理工大学二级教授，博士生导师

报告题目：文字检测与识别：现状及展望

报告摘要：

文字识别技术在图像理解、智慧教育、信息安全、人机交互、智慧金融、虚拟现实、信息录入及办公自动化等诸多领域有非常广阔的应用前景，是目前人工智能及计算机视觉等相关领域的研究热点问题之一。基于深度学习的文字检测与识别技术近年来取得了极大进步及发展，虽然不少方法在许多任务及数据集上取得了State-of-the-art的性能，然后仍存在不少问题有待解决，例如深度检测模型鲁棒性问题（如Anchor等超参数设置、目标尺度大小鲁棒性问题等）、文字序列识别解码鲁棒性及效率问题（例如Attention机制在长文本序列解码时的注意力漂移及对齐问题等）。在此报告中，我将首先简要回顾目前基于深度学习的文字检测及识别的最新进展情况，然后重点介绍几种提升文字检测或识别模型鲁棒性的几种新方法，并对文字检测与识别的一些其它重要问题（例如数据合成、评测标准）及新应用进行讨论和展望。

10：00 - 11：30

贾梦雷阿里巴巴研究员

报告题目：我们如何将AI在时尚行业落地

报告摘要：

在电商及社交平台上有海量的包含服饰的图片。我们希望通过一张图片就可以识别出衣服的各种设计要素，从而通过对海量图片的分析，得到对潮流趋势的解读，来为消费者和商家提供建议。传统的设计要素知识体系有各种缺陷，导致在此基础上的机器识别效果有限。为此，我们和专家一起做了“面向机器学习的知识重建”，将女装的设计要素梳理成包括两百多个叶子节点的知识树，大幅提高了机器识别的上限；同时，研发了少样本学习技术，使识别单个知识点所需的样本量降低了两个量级，从而使得大规模的知识重建变得可行。

11：35-12：05 ICDAR2019票据扫描件比赛文本检测任务冠军介绍比赛经验

14：30 - 16: 00

黄伟林码隆科技首席科学家

报告题目：计算机视觉技术在商品识别，以及智能零售方面的应用

报告摘要：

计算机视觉技术在众多领域得到广泛应用，比如，安防，智能驾驶和医疗等。本次课程主要介绍计算机视觉技术应用的一个新场景 - 商品识别和智能零售。智能零售是AI离人们生活最近的应用场景，这里将分享码隆科技最近两年在该领域的探索和研究成果。主要内部包括，商品识别和搜索技术，弱监督学习相关技术，以及Open-Set识别问题等。另外，还将介绍CVPR 2019码隆科技和Google Research联合举办iMat. Product Recognition 比赛中优胜团队的最新技术。

16：10 -17：40

夏桂松武汉大学教授，博士生导师

报告题目：高分辨率遥感图像理解

报告摘要：

遥感对地观测在国防军事、公共安全、国民经济等各个领域中都有重要应用，而遥感图像自动解译是实现这些应用的关键环节之一。本报告围绕高分辨率遥感图像解译中场景分类、语义分割、目标检测、变化监测等关键任务，分析和回顾本领域已取得的研究成果，厘清高分辨率遥感图像解译的关键科学问题，分享近年来人工智能技术和遥感图像解译的交叉研究进展。

授课讲师

查红彬

北京大学信息科学技术学院智能科学系教授，机器感知与智能教育部重点实验室主任

主要从事计算机视觉与智能人机交互的研究，在三维视觉几何计算、三维重建与环境几何建模、三维物体识别等方面取得了一系列成果。出版学术期刊及国际会议论文300多篇，其中包括IEEE T- PAMI，IJCV, IEEE T-VCG, IEEE T-RA, IEEE T-SMC,ACM T-IST, JMLR, PR 等国际期刊以及ICCV, ECCV, CVPR, CHI, ICML, AAAI,ICRA等国际学术会议论文90余篇。

山世光

中国科学院计算技术研究所研究员、智能信息处理重点实验室常务副主任，国家优秀青年科学基金获得者，国家“万人计划”入选者

在人脸识别等图像识别技术上有超过20年的研发经验，发表论文200余篇，被引用16000余次。带领团队获得十余次国内外学术竞赛冠亚军，所研发的人脸识别技术成功应用于公安部出入境管理局、十几省公安厅、多款华为手机等。研究成果获2005年度国家科技进步二等奖，2015年度国家自然科学二等奖。

彭宇新

北京大学二级教授、博士生导师、863项目首席专家

中国人工智能产业创新联盟专家委员会主任委员、中国工程院“人工智能2.0”规划专家委员会专家、中国图象图形学学会理事兼副秘书长。主要研究方向是：跨媒体分析与推理、图像视频理解与检索、计算机视觉。2006年入选教育部新世纪优秀人才支持计划和北京市科技新星计划，2016年获北京市科学技术奖一等奖（排名第一）。主持了863、国家自然科学基金等20多个项目，发表论文140多篇，包括ACM/IEEE Trans和CCF A类论文61篇。7次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛，均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任《IEEE Transactions on Circuits and Systems for Video Technology》等期刊编委， ACM MM 2019、ICIP 2017/2019、ICPR 2018、ICME 2019等领域主席， AAAI 2016/2019、IJCAI 2015高级程序委员。

章国锋

浙江大学计算机辅助设计与图形学国家重点实验室教授，博士生导师，国家优秀青年科学基金获得者

主要从事三维视觉与增强现实方面的研究，尤其在同时定位与地图构建和三维重建方面取得了一系列重要成果，研制了一系列相关软件，如ACTS、LS-ACTS、RDSLAM、RKSLAM等(http://www.zjucvg.net)，并开源了基于非连续特征跟踪的大尺度运动恢复结构系统ENFT-SfM、分段集束调整SegmentBA和高效的增量式集束调整EIBA、ICE-BA等算法的源代码(https://github.com/zju3dv/)。获全国百篇优秀博士学位论文奖、计算机学会优秀博士学位论文奖以及教育部高等学校科学研究优秀成果奖科学技术进步奖一等奖(排名第4)。

金连文

华南理工大学二级教授，博士生导师

中国人工智能学会模式识别专委会常务委员、中国自动化学会模式识别专委会委员等职。在IEEE TPAIMI、IEEE TNNLS、IEEE TIFS、IEEE TCYB、IEEE TITS、IEEE TMM、IEEE TII、IEEE TCSVT、Pattern Recognition、Pattern Recognition Letter、Information Science、Neurocomputing等SCI期刊发表论文50余篇（其中ESI高引论文4篇），ICDAR、ICFHR、ICPR、CVPR、AAAI、IJCAI等主流国际会议论文100余篇，获得发明专利授权50余项，作为主要成员荣获省部级科技奖励5次，荣获国际学术竞赛第一名7次。

贾梦雷

阿里巴巴研究员

1998年至2005年就读于中国科学技术大学，取得本科及硕士学位。毕业后曾任职于微软亚洲研究院和搜狗。于2008年加入淘宝，创立了阿里巴巴最早的图像技术团队，构建了阿里集团内部应用广泛的图像技术基础设施，外部知晓的产品有图片保护产品“八载”、文字识别产品“读光”、以及时尚与AI结合的 “时尚之心”（FashionAI）。

黄伟林

码隆科技首席科学家

博士，曾在牛津大学视觉几何组（Visual Geometry Group - VGG）担任博士后研究员（师从Prof. Andrew Zisserman和Prof. Alison Noble）。他在英国曼彻斯特大学获得博士学位, 曾是中国科学院的助理教授。他的研究兴趣包括场景文本检测/识别，大规模图像分类和医学图像分析。他在计算机视觉领域的主要会议和期刊上发表超过20篇高水平学术论文。他长期担任计算机视觉相关会议（包括ICCV，CVPR，ECCV，MICCAI和AAAI）以及主要期刊（如TPAMI, IJCV, TIP等）的PC/审稿人。他的团队获得ImageNet 2015场景识别比赛的亚军，并且在2017年CVPR的WebVision图像识别挑战赛上获得冠军。

夏桂松

武汉大学教授，博士生导师

长期从事计算机视觉及遥感图像理解的研究工作，在包括 IEEE TPAMI、IJCV、TIP、TGRS、PR等期刊和CVPR、ECCV等会议上发表学术论文100余篇。现担任国际期刊Pattern Recognition, Signal Processing: image communication等期刊编委。科研成果获湖北省自然科学二等奖，个人获得湖北省自然科学基金杰青项目资助。现为中国图象图形学会遥感图像专委会副秘书长、中国计算机学会计算机视觉专委会委员、中国人工智能学会模式识别专委会委员。

学术主任

白翔

华中科技大学电信学院教授、副院长

国家万人计划“青年拔尖人才”入选者，主要研究方向计算机视觉与模式识别、文档分析等。已在计算机视觉与模式识别领域一流国际期刊和会议如PAMI、CVPR等发表论文50余篇。担任期刊Pattern Recognition, Pattern Recognition Letters, Frontier of Computer Science, 自动化学报编委。曾担任CVPR、AAAI等主流国际会议的领域主席/资深技术程序委员或竞赛主席，应邀给ICDAR 2017做大会主题报告。曾获得 AAAI-2019 Outstanding SPC Award，入选2014-2018年Elsevier中国高被引学者。

章国锋

浙江大学计算机辅助设计与图形学国家重点实验室教授，博士生导师，国家优秀青年科学基金获得者

报名方式

会员价：2000元/人

全价票：2500元/人

在校生参会可享受学生优惠价格1200元/人；

希望以会员价购票的参会人可自行注册https://member.caai.cn/或致电18910064547刘老师咨询，微信同号；

请点击文末“阅读原文”报名参会，或扫码填写。

其他事项

差旅和住宿费用自理。

我们提供协议酒店供您参考：

华中科技大学国际学术交流中心8号楼，348元单早（大床/标间），398元双早（大床/标间）

预订电话027—87540068、87540037

联系人：刘老师

联系电话：18910064547（微信同号）

登录查看更多

相关内容

中国人工智能学会(CAAI)

关注 847

中国人工智能学会（Chinese Association for Artificial Intelligence，CAAI）成立于1981年，是经国家民政部正式注册的我国智能科学技术领域唯一的国家级学会，是全国性4A级社会组织，挂靠单位为北京邮电大学；是中国科学技术协会的正式团体会员，具有推荐“两院院士”的资格。

第八届中国科技大学《计算机图形学》暑期课程课件

专知会员服务

62+阅读 · 2020年3月4日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知会员服务

127+阅读 · 2019年11月30日

【北京智源大会2019】视觉信息处理的闭环，北京大学信息科学技术学院长聘教授吴思

专知会员服务

30+阅读 · 2019年11月22日

【CCL 2019】社会媒体处理前沿综述，哈尔滨工业大学助理研究员丁效

专知会员服务

42+阅读 · 2019年11月12日