夸克程序员揭秘:手机如何变成一台智能扫描仪?

2022 年 9 月 1 日 InfoQ

作者 | 刘燕

8 月 24 日,在夸克“Meet AI”开放日上,夸克 AI 视觉团队分享了夸克在 AI 视觉技术上的研发理念和实力。

数据显示,目前超过一半的夸克用户使用相机来提升学习、工作效率。今年 5 月,夸克的 Slogan 由“新生代智能搜索”升级为“你的高效拍档”。在搜索引擎之外,夸克 App 定位为「智能工具 + 内容 + 服务」的新模式,围绕用户的交互体验与使用场景迭代创新,满足用户主动获取信息、解决实际问题的需求。

1 手机扫描正在超越传统扫描仪

随着居家学习、移动工作的需求爆发,大学生和职场人对扫描的需求也发生了全新变化。夸克扫描王数据显示,学习是排名第一的使用场景,工作需求紧随其后,用户不仅需要清晰度更好的扫描内容,他们对后期的编辑、分享、存储甚至创作都有了更加个性化的需求,而传统的扫描仪已经很难满足这一变化。

夸克视觉技术负责人黄锐华表示,夸克的用户群体大多数是年轻用户群体,超过一半用户小于 25 岁,这部分用户群体的典型职业是学生和初入职场的工作者,这些年轻人善于挖掘和使用各种工具为学习和工作提效,而简单的搜索无法满足用户需求,因此夸克围绕搜索提供了一些智能工具的能力,希望以智能为核心,满足用户在办公、学习场景中的工具需求。

经过多年的技术沉淀和探索,夸克 AI 视觉技术加持的智能搜索、智能工具成为用户获取信息的重要入口之一,通过手机硬件与云端强大算力结合,夸克采用业界最新的深度学习算法,构建了一套完整的训练模型和技术能力,并且已经应用在日常学习、办公、生活等领域中,给用户提供智能化解决方案 。

其中,夸克扫描王就是以 AI 视觉技术为核心的智能工具,从识别、录入、编辑、管理、个性化创意等方面,满足不同场景下的用户需求,帮助他们处理各类扫描问题。支持高清扫描、文字提取、格式转换、照片修复、魔法擦除、自拍证件照等十余项功能,把手机变成了一台智能扫描仪。

黄锐华表示,手机扫描正在超越传统扫描仪,给大学生和职场人带来更高效、更便捷的信息服务体验。在基于手机相机功能的搜索行为中,大学生的学习场景占比超过一半。

夸克扫描王在云端算力和视觉技术上的突破,帮助用户完成从传统图片、文件到数字化资产的进化,提升扫描效率。

尤其在面对一些复杂场景时,夸克扫描王也针对性的提出了多项技术解决方案。当被扫描内容模糊或有污渍时,夸克扫描王可以实现自动修复并提升清晰度;针对手机扫描容易出现的角度不正、遮挡等常见问题,夸克扫描王通过智能算法和图像识别进行摆正、校对;针对个性化的信息处理需求,夸克加大了在识别文字和版式上的技术投入,实现了提取文字、拍黑板、加密以及擦除等实用功能。

2 自研多项 AI 技术,攻克扫描难题

在提升手机扫描的能力方面,夸克 AI 自研了多项 AI 技术。

夸克突破了传统光学字符识别的技术瓶颈,首次将多模算法引入文字识别领域,让公式识别、手写识别的效果得到了大幅度提升,印刷文字识别精度达到 99.99%,手写文字识别精度达到 98.5%+。就算面对复杂的 Word、Excel、PPT 等板式和结构时,夸克扫描王也能像人一样进行深入理解,并通过自然语言处理和计算机视觉技术的深度融合,帮助用户精准、快速的解决复杂问题。

夸克 App 视觉算法工程师顾添锦详细介绍了多模态算法,多模态包括两种模态,一种是图像(视觉)数据,另一种是文本数据。在传统的深度学习领域,图像和文本两个模型一般是不搭界,“井水不犯河水”的状态。但在两年前,业界开始用这两种模态的数据进行混合训练,夸克视觉 AI 团队也进行了一些探索,把文字和图像和文字本身进行连接,这样就可以替代传统的 OCR 识别算法。

这种方法的好处一方面是,在做模型训练时,图像特征跟文本特征可以相互验证,提升各自的准确率。同时,降低了数据的标注成本,文本数据可以有几十亿、上百亿的数据供使用,可以对大量的文本数据进行预训练,语义部分可以输出一些常用的文字组合的能力,再把图像输入进去时,对一些模糊场景有一定的文本脑补能力,这样能大幅度提升识别的能力。

同时,夸克也把游戏引擎数据模拟方法与半监督模型训练方法引入到了文件扫描的模型开发中,通过深度模拟和还原快速提升文件矫正、字迹清晰度、背景杂质擦除的实际效果, 进一步拓展了手机扫描的能力和应用场景,提升用户的满意度、导出率。

此外,夸克还研发出了手机扫描的“离线模式”,无需网络也可以完成高质量的扫描,能在未知的环境中进一步保护用户数据隐私和安全。夸克也成为第一个将扫描 AI 算法上端的 App。

夸克扫描王还研发了魔法擦除、记录屏幕、照片修复等实用功能,让图片更具美感和真实感。去杂质、擦除、植发等特色使用方法可以辅助用户创作。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

30 年 IT 老兵谈数字化:这就不是个技术活

资深 Web 开发的经验之谈:为什么你开发的网页不应该大于 14KB?

TypeScript 遭库开发者嫌弃:类型简直是万恶之源

80 岁 Unix 大神还在修复 AWK 代码;华为全线收缩和关闭边缘业务;小鹏汽车回应苹果汽车前工程师窃密认罪案|Q 资讯

登录查看更多
0

相关内容

数智跃迁:企业全生命周期数字化转型路径
专知会员服务
60+阅读 · 2022年10月3日
2021年中国云原生AI开发平台白皮书
专知会员服务
53+阅读 · 2021年12月4日
专知会员服务
126+阅读 · 2021年8月13日
【2020新书】单机搞AI、数据科学和物联网,323页pdf
专知会员服务
50+阅读 · 2020年7月20日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
107+阅读 · 2020年5月9日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
136+阅读 · 2020年2月16日
你的手机耐摔吗?
ZEALER订阅号
0+阅读 · 2022年11月18日
微软人用低代码做了一件“超人”的事儿!
微软招聘
0+阅读 · 2022年5月18日
AI时代,如何让你的电脑比男朋友还贴心?
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
15+阅读 · 2021年11月19日
A Survey on Edge Intelligence
Arxiv
49+阅读 · 2020年3月26日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
相关VIP内容
数智跃迁:企业全生命周期数字化转型路径
专知会员服务
60+阅读 · 2022年10月3日
2021年中国云原生AI开发平台白皮书
专知会员服务
53+阅读 · 2021年12月4日
专知会员服务
126+阅读 · 2021年8月13日
【2020新书】单机搞AI、数据科学和物联网,323页pdf
专知会员服务
50+阅读 · 2020年7月20日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
107+阅读 · 2020年5月9日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
136+阅读 · 2020年2月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员