去栅格化的矢量图识别
Recognizing Vector Graphics without Rasterization
论文摘要:本文工作关注在一种与以往大多数工作不同的图像格式:矢量图。和在图像识别中常用的位图不同,由于矢量图基于解析几何的表示方式,可以被无损失的缩放到任意分辨率。同时,矢量图还提供了额外的结构化信息,描述了底层元素是如何构成高层的形状和结构。现有的识别方法并没有充分利用这一格式的优点。本文通过目标检测这一基本的视觉任务来探索这个图像格式。我们提出了一种无需 CNN 的高效网络结构,在识别过程中无需将矢量图渲染为像素图(即栅格化),直接把矢量图的文本作为模型输入,称为 YOLaT (You Only Look at Text)。YOLaT 将矢量图的结构和空间信息建模为一个多重图,并提出一个双流图神经网络基于多重图来进行目标检测。实验证明 YOLaT 通过直接对矢量图进行处理分析,能够在计算效率和性能上显著超过现有的目标检测方法。
https://www.zhuanzhi.ai/paper/8b75d17e2875ed0792f5422150dc1067