We propose a novel end-to-end solution that performs a Hierarchical Layout Analysis of screenshots and document images on resource constrained devices like mobilephones. Our approach segments entities like Grid, Image, Text and Icon blocks occurring in a screenshot. We provide an option for smart editing by auto highlighting these entities for saving or sharing. Further this multi-level layout analysis of screenshots has many use cases including content extraction, keyword-based image search, style transfer, etc. We have addressed the limitations of known baseline approaches, supported a wide variety of semantically complex screenshots, and developed an approach which is highly optimized for on-device deployment. In addition, we present a novel weighted NMS technique for filtering object proposals. We achieve an average precision of about 0.95 with a latency of around 200ms on Samsung Galaxy S10 Device for a screenshot of 1080p resolution. The solution pipeline is already commercialized in Samsung Device applications i.e. Samsung Capture, Smart Crop, My Filter in Camera Application, Bixby Touch.


翻译:我们提出一个新的端到端解决方案,对移动电话等资源受限装置的截图和文件图像进行分层分析。 我们的方法区块实体,如Grid、图像、文本和在截图中出现的图标块,我们提供一种选择,通过自动突出这些实体来进行智能编辑,以便保存或共享。此外,对截图的多层次布局分析有许多使用案例,包括内容提取、关键字图像搜索、风格传输等。我们已经解决了已知基线方法的局限性,支持了多种精密复杂的截图,并开发了一种高度优化用于在构件上部署的方法。此外,我们提出了用于筛选对象提案的新型加权NMS技术。我们实现了平均精确度约为0.95,在三星银河S10设备上,悬浮度约为200米,用于1080p分辨率的截图。解决方案管道已经在三星设备应用程序中商业化,即三星捕捉、智能作物、相机应用程序中的我的过滤器、比克斯比触中。

0
下载
关闭预览

相关内容

【经典书】概率机器人,668页pdf
专知会员服务
78+阅读 · 2020年12月16日
专知会员服务
85+阅读 · 2020年12月5日
【干货书】Pytorch自然语言处理,210页pdf
专知会员服务
165+阅读 · 2020年10月30日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
机器学习入门的经验与建议
专知会员服务
93+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
CCF推荐 | 国际会议信息8条
Call4Papers
9+阅读 · 2019年5月23日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年6月10日
VIP会员
相关VIP内容
【经典书】概率机器人,668页pdf
专知会员服务
78+阅读 · 2020年12月16日
专知会员服务
85+阅读 · 2020年12月5日
【干货书】Pytorch自然语言处理,210页pdf
专知会员服务
165+阅读 · 2020年10月30日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
机器学习入门的经验与建议
专知会员服务
93+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
CCF推荐 | 国际会议信息8条
Call4Papers
9+阅读 · 2019年5月23日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员