CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第三期于2021年11月2日成功举行。本沙龙由中国图象图形学学会主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。本期活动邀请微软亚洲研究院林伟鸿研究员分享报告:ViBERTgrid:一种用于文档关键信息提取的联合训练多模态二维文档表示。微沙龙活动在B站、蔻享学术,中国图像图形学报视频号进行了同步直播,人气峰值近4000。
本次活动由微软亚洲研究院高级研究员孙雷主持。来自微软亚洲研究院的研究员林伟鸿做了题为“ViBERTgrid: 一种用于文档关键信息提取的联合训练多模态二维文档表示”的学术报告。报告首先通过一些数据和实例展示了当前大规模文档型数据数字化需求的时代背景,并由此介绍了智能文档处理的相关概念。接下来,报告重点关注了智能文档处理领域中的一个重要场景“关键信息提取”,对该方向过去的技术进行了总结,并从研究动机、技术分析以及实验结果为切入点详细介绍了报告人所在研究小组近期发表在ICDAR 2021上并获得最佳论文奖的研究工作ViBERTgrid。最后,报告针对相关领域在学术界和工业界的现状例举了一些在未来值得探索的研究方向,并号召广大同行共同解决相关问题,进一步完善一些困难场景的数据集与技术。
报告嘉宾还回答了很多听众的问题,包括相关模型结构的设计问题、视觉图像特征与文本特征的融合问题、模型运算速度的问题以及该技术应用到中文场景的相关问题等。
报告的论文:
ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for Key Information Extraction from Documents
链接地址:https://arxiv.org/abs/2105.11672v1
本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!
错过直播的同学可以前往B站观看回放视频,点击阅读原文,打开直播回放链接。