In recent years, research on visual document understanding (VDU) has grown significantly, with a particular emphasis on the development of self-supervised learning methods. However, one of the significant challenges faced in this field is the limited availability of publicly accessible visual corpora or extensive collections of images with detailed text annotations, particularly for non-Latin or resource-scarce languages. To address this challenge, we propose Web-based Visual Corpus Builder (Webvicob), a dataset generator engine capable of constructing large-scale, multilingual visual corpora from raw Wikipedia HTML dumps. Our experiments demonstrate that the data generated by Webvicob can be used to train robust VDU models that perform well on various downstream tasks, such as DocVQA and post-OCR parsing. Furthermore, when using a dataset of 1 million images generated by Webvicob, we observed an improvement of over 13% on the DocVQA Task 3 compared to a dataset of 11 million images from the IIT-CDIP. The implementation of our engine is publicly available on https://github.com/clovaai/webvicob


翻译:近年来,视觉文档理解(VDU)的研究显著增长,特别是在自监督学习方法的开发方面。然而,该领域面临的主要挑战之一是公开可用的视觉语料库或具有详细文本注释的大量图像集的有限可用性,特别是对于非拉丁或资源匮乏的语言。为了解决这个挑战,我们提出了Web-based Visual Corpus Builder(简记为 Webvicob ),这是一个数据集生成引擎,能够从原始的Wikipedia HTML转储中构建大规模、多语言的视觉语料库。我们的实验表明,Webvicob 生成的数据可以用于训练能够良好执行各种下游任务的强大 VDU 模型,例如 DocVQA 和后OCR分析 。此外,当使用 Webvicob 生成的 100 万张图像数据集时,我们观察到在 DocVQA Task 3 上的性能改进超过了 11 百万张图像的 IIT-CDIP 数据集的 13%。我们的引擎的实现可在 https://github.com/clovaai/webvicob 上公开获取。

0
下载
关闭预览

相关内容

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
NeurlPS 2022 | 深度双向语言-知识图谱预训练
专知会员服务
9+阅读 · 2022年11月28日
专知会员服务
79+阅读 · 2021年7月3日
专知会员服务
54+阅读 · 2021年2月2日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
讲习班 | ISWC 2022 知识感知的零样本学习
开放知识图谱
5+阅读 · 2022年10月22日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
29+阅读 · 2022年3月28日
Arxiv
15+阅读 · 2021年11月19日
Arxiv
21+阅读 · 2019年3月25日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员