Most existing video text spotting benchmarks focus on evaluating a single language and scenario with limited data. In this work, we introduce a large-scale, Bilingual, Open World Video text benchmark dataset(BOVText). There are four features for BOVText. Firstly, we provide 2,000+ videos with more than 1,750,000+ frames, 25 times larger than the existing largest dataset with incidental text in videos. Secondly, our dataset covers 30+ open categories with a wide selection of various scenarios, e.g., Life Vlog, Driving, Movie, etc. Thirdly, abundant text types annotation (i.e., title, caption or scene text) are provided for the different representational meanings in video. Fourthly, the BOVText provides bilingual text annotation to promote multiple cultures live and communication. Besides, we propose an end-to-end video text spotting framework with Transformer, termed TransVTSpotter, which solves the multi-orient text spotting in video with a simple, but efficient attention-based query-key mechanism. It applies object features from the previous frame as a tracking query for the current frame and introduces a rotation angle prediction to fit the multiorient text instance. On ICDAR2015(video), TransVTSpotter achieves the state-of-the-art performance with 44.1% MOTA, 9 fps. The dataset and code of TransVTSpotter can be found at github:com=weijiawu=BOVText and github:com=weijiawu=TransVTSpotter, respectively.


翻译:多数现有视频文本显示基准侧重于评价单一语言和假设情景, 且数据有限。 在这项工作中, 我们引入了大规模、 双语、 开放世界视频文本基准数据集( BOVText ) 。 BOVText 有四个功能。 首先, 我们提供2,000+视频, 超过 1,750,000+框架, 比现有最大数据集大25倍, 附带视频文本。 其次, 我们的数据集覆盖30+开放类别, 广泛选择了各种情景, 例如生活视频、 驾驶、 电影等 。 第三, 为视频中的不同表达意义提供了大量文本类型( 即标题、 标题、 标题或场景文本 ) 。 第四, BOVVText 提供双语文本说明, 以促进多种文化现场和交流。 此外, 我们提议一个端到端视频文本定位框架, 名为 TransVTerVTSpotter, 能够用简单但高效的注意查询机制解决视频中多处文本定位。 它应用了前一框的文本( 标题、 标题、 标题) 作为当前框架的跟踪查询工具 。 在 TransVI- far- frevji=TA 上, 的运行中, 将运行数据引入运行到 。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
计算机视觉领域顶会CVPR 2018 接受论文列表
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
文字描述生成视频的开源项目
CreateAMind
5+阅读 · 2017年12月31日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
计算机视觉领域顶会CVPR 2018 接受论文列表
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
文字描述生成视频的开源项目
CreateAMind
5+阅读 · 2017年12月31日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
Top
微信扫码咨询专知VIP会员