Nowadays, as cameras are rapidly adopted in our daily routine, images of documents are becoming both abundant and prevalent. Unlike natural images that capture physical objects, document-images contain a significant amount of text with critical semantics and complicated layouts. In this work, we devise a generic unsupervised technique to learn multimodal affinities between textual entities in a document-image, considering their visual style, the content of their underlying text and their geometric context within the image. We then use these learned affinities to automatically cluster the textual entities in the image into different semantic groups. The core of our approach is a deep optimization scheme dedicated for an image provided by the user that detects and leverages reliable pairwise connections in the multimodal representation of the textual elements in order to properly learn the affinities. We show that our technique can operate on highly varying images spanning a wide range of documents and demonstrate its applicability for various editing operations manipulating the content, appearance and geometry of the image.


翻译:目前,随着我们日常活动迅速采用相机,文件图像正在变得丰富和普遍。与捕捉物理物体的自然图像不同的是,文件图像包含大量带有关键语义和复杂布局的文本。在这项工作中,我们设计了一种通用的、不受监督的技术,以学习在文件图像中文本实体之间的多式联运关联,考虑到它们的视觉风格、其基本文字的内容和图像中的几何背景。然后我们利用这些学到的相似性,将图像中的文本实体自动组合成不同的语义组。我们的方法的核心是一个深度优化方案,专门为用户提供的图像专门设计一个深度优化方案,该图像在文本元素的多式表达中探测和利用可靠的对对对式连接,以便正确了解其相似性。我们表明,我们的技术可以使用分布范围很广的图像操作,并显示其适用于调控图像的内容、外观和几何形状的各种编辑操作。

0
下载
关闭预览

相关内容

深度学习搜索,Exploring Deep Learning for Search
专知会员服务
60+阅读 · 2020年5月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
干货 | 为你解读34篇ACL论文
数据派THU
8+阅读 · 2018年6月7日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Local Relation Networks for Image Recognition
Arxiv
4+阅读 · 2019年4月25日
VIP会员
相关VIP内容
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
60+阅读 · 2020年5月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
干货 | 为你解读34篇ACL论文
数据派THU
8+阅读 · 2018年6月7日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员