机器学习与图文识别前沿，大咖怎么看？

会员服务 ·

机器学习与图文识别前沿，大咖怎么看？

2019 年 4 月 16 日 中国图象图形学报

人工智能是近年来最受关注的IT热点领域，作为人工智能的核心关键理论技术支撑，以深度学习为代表的机器学习理论与技术正在成为新一代人工智能及信息领域的关键基础技术。

由人工智能的飞速发展而带来的科技革命，正在催生出多个领域的变革和跨越式发展，将会给我们的生活工作带来深远的影响。

图像和文字是我们感知世界、理解世界、以及进行信息交流最重要的媒介之一，相关的计算机视觉、图像视频理解、文档图像分析与识别等也是目前人工智能领域中活跃、有潜力及有前景的几个热点研究方向。

在从事机器学习、文字识别、计算机视觉领域研究的国内知名专家眼中，机器学习和图文识别的前沿技术都有哪些呢？

刘成林

中国科学院自动化研究所研究员

模式识别国家重点实验室主任

国家杰青，IEEE Fellow，IAPR Fellow

论题：文档图像版面分析技术

摘要：版面分析是文档图像分析与识别的关键一步。版面分析标记分割出图像中所有的文本区域（段落、文本行、公式等）和非文本区域，便于后续的文本识别和文档内容理解。版面分析方法可分为自上而下的方法和自下而上的方法两大类。自上而下的方法只适合版面简单和规则的文档，而自下而上的方法可用于版面复杂和不规则的文档。近年来，版面分析研究的重点更多地聚焦在复杂版面的手写文档和手写-印刷混合文档，方法主要集中在自下而上的方法，包括基于深度神经网络的方法。近十年来复杂文档的一些主要方法包括：基于聚类的方法、基于弹性轮廓的方法、基于连通部件分类的方法、基于全卷积神经网络（FCN）的方法等。

于剑

北京交通大学计算机学院教授

北京交通大学人工智能研究院常务副院长

中国计算机学会会士、理事

论题：机器学习公理化研究的现状和未来

摘要：机器学习成为一个独立的研究方向已经接近40年，新的机器学习任务和算法不断涌现，居于新一代人工智能的核心。2015年，Jordan 与Mitchell 在Science上联合撰文指出，机器学习的一个核心问题是：是否存在统管一切人、生物、机器的学习规律？这个问题更加提炼锐化，即：机器学习是否存在公共的假设，如果存在，是什么？如果不存在，为什么？更简单的说法是，机器学习是否可以公理化？我们将着重讨论这个问题，对于机器学习公理化的研究现状与未来进行分析与讨论

白翔

华中科技大学电信学院教授、副院长

国家优青

论题：基于通量表示的骨架检测与文字检测方法

摘要：骨架作为一种基于结构的物体描述，反映了物体的局部对称性以及各部分间的连通性，为可形变的物体提供了一种准确而有效的表示；文字作为人类发明的交流符号，也是一种特殊形状的物体，在信息传递中起着重要的作用。因此，对于骨架和文字的研究都有着重要的意义。从目前骨架检测方法中存在的部分问题出发，基于通量表示的骨架检测方法可以在多方向和曲形文本检测起到关键作用，可以克服目前文字检测方法中存在的部分问题，给不规则文字的检测提供了一种新的思路。

李玺

浙江大学教授

浙江大学-每日互动数据智能研发中心主任

国家千人计划青年项目入选者

论题：视觉结构学习理论和应用

摘要：互联网和物联网时代催生了海量视频大数据，从这些海量视频数据中有效提取知识迫切需要各种人工智能的技术和手段。因此，如何进行人工智能驱动的视觉计算已经成为当今知识经济时代亟待解决的核心技术问题。围绕数据驱动的人工智能学习方法，进行大规模图像/视频数据的视觉结构学习，从目标视觉感知特性、视觉特征表达、深度学习器构建机制、高层语义理解等多维度视角进行了深入剖析，并引入了大规模视觉结构学习所涉及的主要研究问题和技术方法。然后系统地回顾了视觉结构表达和学习领域的不同发展阶段，介绍了近年来我们利用视觉结构学习进行视觉语义分析和理解所做的一系列代表性的研究工作及其实际应用。

程明明

南开大学教授

国家“万人计划”青年拔尖人才

论题：面向开放环境的自适应视觉感知

摘要：现有视觉学习技术通常依赖于大规模精确标注的训练数据。在典型实验室环境下设计和训练的人工智能模型，在行业应用场景变换时，容易导致系统性能急剧下降。从弱监督视觉理解的角度，介绍在降低模型对特定应用场景数据依赖方面所开展的一些研究工作，主要包括如何学习一些通用属性，并利用这些通用属性构建弱监督学习模型。

俞扬

南京大学教授

全国优秀博士学位论文奖、CCF优秀博士学位论文奖

论题：面向物理世界的强化学习

摘要：强化学习旨在从环境交互中自主学习最优决策，近期在围棋、视频游戏对弈中有夺目表现，可取得超越人类的决策能力，但同时强化学习的一些局限，使其在工业应用中难以实施。从基本概念和基本方法开始介绍面向物理世界的强化学习，并将介绍近期在落地应用方面的一些研究进展。

严骏驰

上海交通大学研究员

论题：图匹配及其嵌入技术初探

摘要：图（graph）数据结构在计算机科学的诸多领域拥有广泛的应用场景，而图嵌入（graph embedding）与图匹配（graph matching）技术是分析、处理图结构的两种重要手段。图嵌入技术将高阶的图结构信息映射为向量表示，使计算更加高效；图匹配技术则借助一阶与高阶信息，寻找两个图之间节点的对应关系。基于卷积神经网络（CNN）与图神经网络（GNN），我们实现了一个端到端的深度图匹配模型。我们的模型包含了一个排列损失函数，以及节点特征提取、图特征嵌入、相似度映射等模块。这些模块都包含了可学习的参数，能够在现有的深度学习框架下通过梯度传播端到端地学习。其中，GNN能够学习图相似度信息，进而将该信息用于匹配问题的求解。由于图匹配问题具有NP-难性质，相比于传统的、基于松弛优化的、不可学习的图匹配算法，我们的深度图匹配算法更准确、更高效，同时支持端到端的学习。