ICCV 2019|DewarpNet: 基于2D和3D回归网络的单幅图像文档矫正方法(已开源)

2019 年 11 月 30 日 极市平台

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~




本文简要介绍ICCV2019 论文“DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regression Networks”的主要工作。该论文主要针对手持设备拍摄文档图像时,存在纸张含有物理形变、相机拍摄角度和光照条件多变的问题提出矫正方法。作者先通过对形变纸张进行3维信息的采集,再将平整文档图像渲染到形变的纸张图像上,得到了形变的文档图像。形变的文档图像作为输入,纸张的3维信息、渲染过程的逆变换、平整文档图像共同作为Ground-truth,构成了含有丰富标注信息的数据集Doc3D。作者利用这些标注信息训练一个深度学习模型DewarpNet,在不需要额外硬件和多角度图像的情况下对该类文档图像进行矫正,可以得到接近平面扫描仪的效果,处理后的图像可以显著提高OCR性能。最终取得了State-of-the-art的结果。

       

图1 本文方法效果图


一、研究背景


纸质文档在我们生活中十分重要且常见,上面具有丰富的信息。而数字文档则易于存储、传播以及检索。如今移动摄像头拍摄文档图像是方便且常见的文档数字化方法,但得到的图像由于纸张的物理形变、相机拍摄角度和光照条件多变的原因,不利于自动化信息提取和内容分析。有的研究通过低维的模型来对文档的形变进行建模,这是较难实现的;还有的研究直接假定一个网格(Mesh)对形变图像进行表征,然后直接预测网格上每个顶点对应于输出图像的位置,但很多都需要额外的硬件设备或多角度图像,而且计算量大且费时。近期的研究[1]中虽然提出了更快的方法,但由于训练数据只包含2维形变信息,所以对真实图片测试效果不鲁棒。


二、方法原理简述


图2 数据采集流程


图2是文章提出的数据采集方法的流程,主要分为I和II两个阶段。在I阶段,作者利用一个工作台,得到真实纸张的Depth Map,工作台关键部件有深感相机(用于拍摄纸张的深度图)、针浮雕系统(Pin Relief System,含有64个独立的针,可以改变纸张不同位置的高度,实现多种形变并保持)。有了Depth Map后,通过相机的参数可以直接计算得到Point Cloud。计算点云时作者对同一图拍了6张并取平均以减少零均值噪声(Zero-mean Noise),同时用一些算法对点云进行平滑处理。之后用球旋转算法(Ball Pivoting Algorithm)[3]得到网格,下采样为100x100大小。为网格中每个顶点指定UV坐标,便于后续渲染。之后还对网格进行了旋转、裁剪(裁剪后插值回100x100)的增广操作。贴图渲染过程中,综合改变贴图内容、角度、光照、背景。最终每张图都可以生成3D Coordinate Map, Depth Map, Normals, UV Map, Albedo Map标注信息。


图3 DewarpNet整体框架图,黑线为训练时数据流向,红线为测试时数据流向,C、B、D分别是3D Coordinate Map、Backward Mapping、Regular Checkerboard Pattern Image的Ground Truth


DewarpNet主要包含两个子网络Shape Network和Texture Mapping Network。前者为一个U-net[4]网络,以原图I∈Rh×w×3作为输入,预测3D Coordinate Map Ĉ∈Rh×w×3(每个像素的值是一个三维向量,代表纸张该点的空间坐标)。后者为由多个DenseNet Block[5]构成,以Ĉ 作为输入,预测Backward Mapping B̂∈Rh×w×2(每个像素的值是一个二维向量,代表I的像素在矫正后图像中的位置),因为该子网络实现了3维坐标到2维坐标的转换,作者使用了在坐标转换任务中能提高泛化能力的Coordinate Convolution (CoordConv)[6]。Ic是I以棋盘图案为贴图内容时生成的图像,模型预测出的B̂作用于Ic得到预测D̂∈Rh×w×3,这一做法的目的是让损失函数LD(见下文)损失函数不受贴图内容的影响,使得模型对形变相同但贴图内容的不同的图像的矫正参数是相同的,Ic只用在训练过程中。训练的损失函数为,其中分别为C的水平和垂直图像梯度,为超参数。


图4 后处理网络结构


后处理网络对矫正后图像Id的光照情况进一步优化,提高了视觉质量和OCR性能。网络包含两个U-net网络,一个U-net以原图I作为输入,预测Surface Norm N̂∈Rh×w×3。N̂矫正后得到N̂d。另一个U-net以Id和N̂d作为输入,预测Shading Map Ŝ∈Rh×w×3(表征了图像的光照情况和颜色),利用Id和Ŝ可运算得到去阴影的图像Â(具体计算过程可见论文的补充材料)。


三、主要实验结果及可视化结果


表1 在整个Benchmark[1]上的评估结果  


图5 在Benchmark[1]上不同类中的定量评估结果 


表2 矫正后图像的OCR结果  


图6 DewarpNet与DocUNet的定性比较。红色虚线展示了文档上的结构变化。


图7 DewarpNet与[2]的定性比较


图8 DewarpNet的鲁棒性。前两行展示了对不同光照方向的鲁棒性;后两行展示了对于不同拍摄角度的鲁棒性。

表1中DocUNet和DocUNet on Doc3D 分别代表DocUNet在原数据集和在Doc3D上训练出来的模型;DewarpNet和DewarpNet (ref)分别代表不包含和包含后处理。可以看到本文模型在该Benchmark[1]下的MM-SSIM 和 LD指标都取得了State‑of‑the‑art的结果,同时也证明了数据集Doc3D的有效性。为进一步探究,作者把[1]的Benchmark按照难度分为了a~f 6类,由a到f,难度依次增加,结果展示在图5中。前5类中本文模型都优于DocUNet,最难的f中本文模型取得了与DocUNet相近和稍好一点结果。


四、总结及讨论

  • 提出了一个新颖的DewarpNet网络,通过对纸张3维结构的显式建模,训练出来的模型对不同的文档内容、光照、背景等都有很好的鲁棒性,取得了state-of-the-art的结果。
  • 提出了一个新的含有丰富标注信息(2D和3D)的数据集Doc3D,以及其采集方法。
  • 不足: 1、深度相机精度不足导致对一些纸张复杂的细节处的建模不够好。 2、模型对遮挡十分敏感,遮挡会导致结果性能的下降。  


五、相关资源

  • DewarpNet: Single-Image Document Unwarping With Stacked 3Dand 2D Regression Networks论文、论文补充材料、代码、DewarpNetdemo、Doc3D数据集下载地址:https://sagniklp.github.io/dewarpnet-webpage/

  • DocUNet[1]中的benchmark下载地址:
    https://www3.cs.stonybrook.edu/~cvl/docunet.html


参考文献
[1] Ke Ma, Zhixin Shu, Xue Bai, Jue Wang, and Dimitris Samaras. DocUNet: Document Image Unwarping via A Stacked U-Net. In Proc. CVPR.IEEE, 2018.
[2] Shaodi You, Yasuyuki Matsushita, Sudipta Sinha,Yusuke Bou, and Katsushi Ikeuchi. Multiview Rectification of Folded Documents.IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.
[3] Fausto Bernardini, Joshua Mittleman, Holly Rushmeier, Cl´ audio Silva, and Gabriel Taubin. The ball-pivoting algorithm forsurface reconstruction. IEEE Transactions on Visualization and Computer Graphics, 5(4):349–359, 1999.
[4] Olaf Ronneberger, Philipp Fischer, and Thomas Brox.U-net: Convolutional networks for biomedical image segmentation. In Proc.MICCAI. Springer, 2015.
[5] Gao Huang, Zhuang Liu, Laurens Van Der Maaten, and Kilian Q Weinberger. Densely connected convolutional networks. In Proc. CVPR,number 2, 2017.
[6] Zhengqin Li, Kalyan Sunkavalli, and Manmohan Chandraker. Materials for Masses: SVBRDF Acquisition witha Single Mobile Phone Image. In Proc. ECCV, 2018.


原文作者:Sagnik Das, Ke Ma, Zhixin Shu, Dimitris Samaras, Roy Shilkrot


撰稿:张家鑫   排: 高 学   审校: 连宙辉   发布: 金连文


免责声明: 1 )本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。( 2 )本文观点不代表公众号立场。



-End-



*延伸阅读





极市 OCR 技术交流群


添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:文本检测-小极-北大-深圳),即可申请加入极市OCR技术交流群(已经添加小助手的好友直接私信),更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流一起来让思想之光照的更远吧~



△长按添加极市小助手


△长按关注极市平台


觉得有用麻烦给个在看啦~  

登录查看更多
29

相关内容

ICCV 的全称是 IEEE International Conference on Computer Vision,即国际计算机视觉大会,由IEEE主办,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议,被澳大利亚ICT学术会议排名和中国计算机学会等机构评为最高级别学术会议,在业内具有极高的评价。不同于在美国每年召开一次的CVPR和只在欧洲召开的ECCV,ICCV在世界范围内每两年召开一次。ICCV论文录用率非常低,是三大会议中公认级别最高的。ICCV会议时间通常在四到五天,相关领域的专家将会展示最新的研究成果。
高效医疗图像分析的统一表示
专知会员服务
33+阅读 · 2020年6月23日
专知会员服务
109+阅读 · 2020年3月12日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
已删除
将门创投
8+阅读 · 2019年6月13日
图卷积在基于骨架的动作识别中的应用
极市平台
24+阅读 · 2019年6月4日
SkeletonNet:完整的人体三维位姿重建方法
极市平台
11+阅读 · 2019年1月11日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Arxiv
11+阅读 · 2019年1月24日
Foreground-aware Image Inpainting
Arxiv
4+阅读 · 2019年1月17日
Arxiv
8+阅读 · 2018年1月25日
VIP会员
Top
微信扫码咨询专知VIP会员