报告时间:2019年10月16日(星期三)晚上20:00(北京时间)
主题:让机器像人一样阅读:文字检测与识别新趋势
报告主持人:白翔(华中科技大学)
报告嘉宾:金连文(华南理工大学)
报告题目:浅谈文字识别:新思考、新挑战及新机遇
报告嘉宾:刘成林(中国科学院自动化研究所)
报告题目:文档分析与识别技术回顾与反思
Panel议题:
1. 场景文字识别及文档文字识别在技术上有何不同,哪一个的应用前景更广泛?
2. 在深度学习时代,传统的OCR技术(例如预处理、特征提取及表达等)是不是已经变得越来越不重要?
3. 目前不少深度学习模型极大依赖于数据,但在金融OCR等很多领域用户很难提供公开的数据,在特定领域数据不足的情况下,如何设计及训练一个好的模型?
4. 如何看待在不少比赛(例如ICDAR 2019的比赛)大公司频频取得好成绩的现象?公司参与学术竞赛是否对高校不公平(因为高校的数据及计算资源可能远没有公司多)?
5. OCR领域还有哪些重要的学术及研究问题还没有得到很好的解决?
6. 手写文字识别的研究是不是没有受到足够的重视?
7. 我们是否应该构建更难、更大、更全、更有挑战的OCR数据集?
Panel嘉宾:
金连文(华南理工大学)、刘成林(中国科学院自动化研究所)、王永攀(阿里巴巴)、姚聪(旷视科技)、张睿(美团)
*欢迎大家在下方留言提出主题相关问题,主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题!
报告嘉宾:金连文(华南理工大学)
报告时间:2019年10月16日(星期三)晚上20:00(北京时间)
报告题目:浅谈文字识别:新思考、新挑战及新机遇
报告人简介:
金连文教授1991年本科毕业于中国科技大学,1996年于华南理工大学获博士学位,目前为华南理工大学二级教授,博士生导师,兼任中国图像图形学学会(CSIG)常务理事、广东省图像图形学会副理事长、CSIG文档图像分析与识别专委会主任、CSIG机器视觉专委会常务委员、CAAI模式识别专委会常务委员、CCF计算机视觉专委会委员等职。主要研究领域为深度学习、机器学习、文字识别、计算机视觉及应用等,在IEEE TPAIMI、IEEE TNNLS、IEEE TIFS、IEEE TMM、IEEE TCSVT、IEEE TCYB、IEEE TITS、IEEE TAFFC、Pattern Recognition、Information Science、Neurocomputing等主流国际期刊上发表学术论文60余篇(其中4篇论文先后入选ESI高被引论文),在ICDAR、CVPR、AAAI、IJCAI等主流国际会议发表论文100余篇,获得发明专利授权50余项,荣获省部级科技奖励5次,荣获国际学术竞赛第一名11次。
个人主页:
http://www.dlvc-lab.net/lianwen/
报告摘要:
文字识别技术在图像理解、信息录入、智慧教育、智慧金融、信息搜索、信息安全等诸多领域有非常广阔的应用前景,是目前计算机视觉及机器学习领域的研究热点问题之一。基于深度学习的文字识别技术近年来取得了极大进步及发展,虽然不少方法在许多复杂场景及各种数据集上取得了卓越性能,但仍存在不少问题及挑战。在此报告中,我将在简要回顾近期研究进展的基础上,对目前文字识别领域存在的一些重要问题及挑战谈一点个人的思考,并对未来发展方向进行讨论和展望。
参考文献:
[1] Zecheng Xie, Yiaoxiong Huang, Yuanzhi Zhu, Lianwen Jin, Yuliang Liu, Lele Xie, Aggregation Cross-Entropy for Sequence Recognition, CVPR 2019.
[2] Yuliang Liu, Lianwen Jin, Zecheng Xie, Canjie Luo, et al., Tightness-aware Evaluation Protocol for Scene Text Detection, CVPR 2019.
[3] Yuliang Liu, Sheng Zhang, Lianwen Jin, et al., Omnidirectional Scene Text Detection with Sequential-free Box Discretization, IJCAI 2019.
[4] Lele Xie, Yuliang Liu, Lianwen Jin, Zecheng Xie, DeRPN: Taking a further step toward more general object detection, AAAI 2019.
[5] Canjie Luo, Lianwen Jin, Zenghui Sun, MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition, Pattern Recognition, vol. 90, no.6, pp109-118, 2019.
报告嘉宾:刘成林(中国科学院自动化研究所)
报告时间:2019年10月16日(星期三)晚上20:30(北京时间)
报告题目:文档分析与识别技术回顾与反思
报告人简介:
刘成林,1989年本科毕业于武汉大学,1992年获北京工业大学工学硕士学位,1995年获中国科学院自动化研究所工学博士学位。1996年至1999年先后在韩国科学技术院(KAIST)和日本东京农工大学从事博士后研究工作。1999年至2004年在日立中央研究所先后任研究员和主任研究员。2005年1月回国,入选中国科学院“百人计划”(引进海外杰出人才计划)。现任中国科学院自动化研究所研究员、副所长,模式识别国家重点实验室主任,中国科学院大学人工智能学院副院长。研究方向为模式识别、图像处理、机器学习、文字识别与文档分析等。在国内外期刊和学术会议上发表论文300余篇,其中包括国际期刊(IEEE Trans. on PAMI, Pattern Recognition等)第一作者论文20篇。合著文字识别方面的英文专著一本。获得授权发明专利5项。由于其在手写文字识别研究方面的突出成就,2005年在国际模式识别协会主办的国际文档分析与识别会议上获得IAPR/ICDAR Young Investigator Award (青年学者奖)。2008年获得国家杰出青年科学基金。现任国际期刊Pattern Recognition的副主编, Image and Vision Computing, International Journal on Document Analysis and Recognition和Cognitive Computation的编委,国内期刊《自动化学报》副主编。中国人工智能学会会士、模式识别专委会主任,中国自动化学会理事、模式识别与机器智能专委会主任,中国图象图形学学会常务理事,美国电气电子工程师协会会士 (IEEE Fellow)、国际模式识别学会会士(IAPR Fellow)。
个人主页:
http://www.nlpr.ia.ac.cn/liucl
报告摘要:
自上世纪50年代以来,文字识别(广义地,称为文档分析)的研究和应用取得了巨大的进展。50-70年代以统计模式识别和特征匹配方法为主;80-90年代提出了很多结构分析方法,并且字符切分、字符串识别和版面分析受到重视;2000年以来继续在文档分析与识别的各个方面持续提高;2013年开始深度学习(深度神经网络)逐渐成为主导性的方法,使文字检测和识别的性能得到明显提升。随着识别精度不断提升和应用的展开,文字识别的可靠性、泛化性、可解释性要求开始凸显,在这些方面传统的模式识别和文字识别方法表现出一定的优势或互补性,与深度学习方法结合可开辟新的研究途径。本报告对文字识别领域历史上主要方法进行回顾,对当前主要方法的特点和一些最新研究动态进行分析,并对将来的研究提出一些建议。
参考文献:
[1] G. Nagy, G.L. Shelton, Self-corrective character recognition systems, IEEE Trans. Information Theory, 12(2): 215-222, 1966.
[2] H. Fujisawa, Forty years of research in character and document recognition—an industrial perspective, Pattern Recognition, 41(8): 2453-2446, 2008.
[3] Cheng-Lin Liu, In-Jung Kim, Jin H. Kim, Model-based stroke extraction and matching for handwritten Chinese character recognition, Pattern Recognition, 34(12): 2339-2352, 2001.
[4] Xu-Yao Zhang, Yoshua Bengio, Cheng-Lin Liu, New benchmark for online and offline handwritten Chinese character recognition with deep convolutional network and adaptation, Pattern Recognition, 61: 348-360, 2017.
[5] Yi-Chao Wu, Fei Yin, Cheng-Lin Liu, Improving handwritten Chinese text recognition using neural network language models and convolutional neural network shape models, Pattern Recognition, 65: 251-264, 2017.
[6] Fei Yin, Yi-Chao Wu, Xu-Yao Zhang, Cheng-Lin Liu, Scene Text Recognition with Sliding Convolutional Character Models, arXiv:1709.01727, 2017.
Panel嘉宾:王永攀(阿里巴巴)
嘉宾简介:
王永攀,阿里巴巴高级算法专家,达摩院OCR负责人。
主要研究方向是文字识别和图文结构理解,在文字识别方向,结合模型、数据、系统能力形成一套高效实用的文字检测&识别方案;图文结构理解是我们定义的新方向,融合CV和NLP将文本&图像等元素通过label-parse-match形成最终的结构理解输出,扩展了OCR的应用能力。推动产学合作,将算法和产业实际应用场景结合实现落地,和高校形成良好的互补协作推动OCR的技术和产品发展。
现负责阿里巴巴读光OCR云产品, 读光在阿里巴巴集团内部的图片管控,搜索,智能审核等领域扮演重要角色。“读光”云产品陆续推出高质量高效率的文档图片,网络图片,表格图片和卡证照图片识别服务,为电商、政务、金融、海关等行业提供专业的OCR解决方案。
Panel嘉宾:姚聪(旷视科技)
嘉宾简介:
姚聪于华中科技大学电信学院获得学士和博士学位,其主要研究方向为自然场景文字检测和识别。在国际重要期刊IEEE TPAMI, IEEE TIP以及顶级会议CVPR、ICCV和ECCV等上发表论文十余篇。目前在旷视科技(Face++)担任云服务业务算法负责人,主持自然场景OCR、人脸活体检测等技术的研发工作,为FaceID互联网身份验证服务、Face++开放平台等提供算法支持。
个人主页:
https://scholar.google.com/citations?user=IpmnLFcAAAAJ&hl=en
Panel嘉宾:张睿(美团)
嘉宾简介:
张睿,现任美团视觉图像中心研究员,负责美团文字识别技术。于1993年和1996年获大连理工大学获学士、硕士学位。于2003年获清华大学博士学位。专注于事图像识别、机器学习等技术方向。之前曾在百度和阿里巴巴担任资深算法工程师和高级专家,在文字和文档图像识别的多个领域从事算法研发和应用实践。
主持人:白翔(华中科技大学)
主持人简介:
白翔,华中科技大学电子信息与通信学院教授,国家万人计划“青年拔尖人才”入选者,国家优青入选者。主要研究方向计算机视觉与模式识别、文档分析等。
已在计算机视觉与模式识别领域一流国际期刊和会议如PAMI、CVPR等发表论文60余篇。由于在场景文字检测与识别取得的突出成就,2019年在国际模式识别协会主办的国际文档分析与识别会议上获得IAPR/ICDAR Young Investigator Award (青年学者奖)。
现任期刊Pattern Recognition, Pattern Recognition Letters, Frontier of Computer Science, 中国科学-信息科学、自动化学报编委。
曾担任CVPR、AAAI等主流国际会议的领域主席/资深技术程序委员或竞赛主席,并获得AAAI-2019 Outstanding SPC Award。入选2014-2018年Elsevier中国高被引学者。
个人主页:
http://122.205.5.5:8071/~xbai//
19-27期VALSE在线学术报告参与方式:
长按或扫描下方二维码,关注“VALSE”微信公众号(valse_wechat),后台回复“27期”,获取直播地址。
特别鸣谢本次Webinar主要组织者:
主办AC:白翔 (华中科技大学)
协办AC:韩琥(中科院计算所)
责任AC:刘日升(大连理工大学)
VALSE Webinar改版说明:
自2019年1月起,VALSE Webinar改革活动形式,由过去每次一个讲者的方式改为两种可能的形式:
1)Webinar专题研讨:每次活动有一个研讨主题,先邀请两位主题相关的优秀讲者做专题报告(每人30分钟),随后邀请额外的2~3位嘉宾共同就研讨主题进行讨论(30分钟)。
2)Webinar特邀报告:每次活动邀请一位资深专家主讲,就其在自己熟悉领域的科研工作进行系统深入的介绍,报告时间50分钟,主持人与主讲人互动10分钟,自由问答10分钟。
活动参与方式:
1、VALSE Webinar活动依托在线直播平台进行,活动时讲者会上传PPT或共享屏幕,听众可以看到Slides,听到讲者的语音,并通过聊天功能与讲者交互;
2、为参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ群(目前A、B、C、D、E、F、G、H、I、J群已满,除讲者等嘉宾外,只能申请加入VALSE K群,群号:691615571);
*注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。
3、在活动开始前5分钟左右,讲者会开启直播,听众点击直播链接即可参加活动,支持安装Windows系统的电脑、MAC电脑、手机等设备;
4、活动过程中,请不要说无关话语,以免影响活动正常进行;
5、活动过程中,如出现听不到或看不到视频等问题,建议退出再重新进入,一般都能解决问题;
6、建议务必在速度较快的网络上参加活动,优先采用有线网络连接;
7、VALSE微信公众号会在每周四发布下一周Webinar报告的通知及直播链接。
8、Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新[slides]。
9、Webinar报告的视频(经讲者允许后),会更新在VALSE爱奇艺空间,请在爱奇艺关注Valse Webinar进行观看。