重新认识AI落地，从小小词典笔看技术从0到1的工程实践

会员服务 ·

重新认识AI落地，从小小词典笔看技术从0到1的工程实践

2020 年 12 月 8 日 机器之心

机器之心原创

作者：力琴

小小词典笔为何让人“上瘾”？机器之心试图通过采访，了解有道词典笔背后从 0 到 1 的工程实践。

距离有道词典笔 2 代发布的 1 年 3 个月之后，网易有道又推出了一款全新的有道词典 3，区别在于，将查词体验从扫描的交互方式直接简化到点一下就一秒钟完成查词。

网易有道产品负责人吴迎晖拿着全新的词典笔在现场做演示，无论是当天刊发的中国日报英文版、纸质书籍，还是护手霜、药盒，都可以快速点查陌生单词。“‘快速点查’是让你上瘾的一个功能。”他说。

当天发布会的产品体验区，这款词典笔很快引起了参会者的注意，人群熙熙攘攘地聚在体验区周围，迫不及待想要一睹词典笔究竟是什么样。

当我拿起词典笔想要找单词点读时，下意识直接将笔头指向单词的偏中间位置，很多未使用过有道词典笔的参会者几乎都犯了同样的操作错误，导致识别出来的单词大部分是不全的。

后来这种操作被现场工作人员指正，并被告知需要将笔头垂直放在所要识别单词的首个字母前面，才可以顺利完成点查。屡试体验碰壁，在掌握合适方法之后，我很快产生了上瘾查词的感觉。

在英语学习场景当中，辅助查词的产品就有电子词典、点读笔、点读机等。与这些传统产品不同的是，有道词典笔更依赖于人工智能，用技术解决场景需求。只不过，关于这款小小词典笔背后的技术与工程实践很少认真被讨论。

作为一家技术驱动产品的教育科技公司，借助有道词典等产品的 8 亿 + 用户，有道词典笔可以获得大规模文本、OCR 图像和语言的真实数据。自词典笔自 2017 年推出开始，与之相应的工程也在不断更新与迭代。

小小词典笔为何让人“上瘾”？机器之心试图通过采访，了解有道词典笔背后从 0 到 1 的工程实践。

01 一件冒险的事情

“‘超快点查’是吴迎晖的个人主意。”网易有道 CEO 周枫说。“他想到这个主意的时候，整个团队都很兴奋。”

超快点查是有道词典笔 3 的一大亮点，这将查词体验从扫描的交互方式直接简化到点一下就完成查词。

吴迎晖表示这个创新功能来自于对用户的洞察。实际上，从有道词典笔 1 代推出至今，产品团队几乎每天都能收到各种各样用户的反馈，这些反馈都指向一个核心问题，究竟如何更有效率。

他的点子立即点拨了团队的所有人，于是可视化互动点读也出来了。有道词典笔 3 的互动点读功能面向低年龄段儿童，将日常绘本实现动画效果，绘本还设有互动答题，可实现一句一跟读，AI 打分。尤其对于有孩子的用户而言，既要买词典，又要给孩子买点读产品，因此有道想做一款覆盖所有点读场景的智能化产品，用速度换取效率，给用户提供价值。

功能非常吸引人，但如何就需求和场景改设计、验证，挑战很大。“这个挺冒险的，万一不成功，坑的是整个团队。”有道词典笔的解决办法是加入超感光学系统，用视觉办法解决点读。

关于超感光学系统，有道官方的解释是：它兼容了 OCR（光学字符识别）与 OID（光学辨识码）两大 AI 技术的自动判断与识别，可同时识别红外光与可见光。

超感光学系统有非常大的广角，使其能够识别文字的区域更大，这构成了 “超快点查” 的基础条件。

“虽然这个功能非常实用且吸引人，但对算法挑战非常大。”网易有道首席科学家段亦涛说。广角镜头成像会产生畸变，另外，超感光学系统笔头也会导致光照不均。两者都会造成识别困难。

“在此条件下做 AI 模型是很难的事，业界没有现成的参考方案。”

实际上，无论是点查还是可视化点读，所采用的 OCR、OID 技术并不稀奇，难点在于，需要用算法挑战不可控环境下的识别；在有限的硬件条件下，集成不同产品和模块组合。

02 一年零三个月的改变：从模型到框架

为了解决畸变、光照不均等问题，有道开发了新的方案与模型，优化从图像采集、检测及识别的全过程。

直观而言，笔头的广角镜头会在短时间内采集图像，而图像是畸变的，在识别之前需要将畸变图像转换成无畸变图像。

为此，有道预设了理想条件图像到实际采集图像的变换关系，包括广角镜头的径向畸变和倾斜角度的投影畸变。

在点查功能触发后，有道使用预设的变化参数，修正图像的畸变；然后使用阈值化图像技术对阴影进行补偿。

所采集图像经去畸变、去阴影后，再进行图像增强，得到完整且可识别的图像。随后 OCR 负责 “看懂” 图像识别文字，TTS 负责词和句子的读音。整个过程在抬笔间就能完成，实现“超快点查”。

用户可以用词典笔在不同的场景识别不同的文字，比如化妆品的说明书、医药物品曲面等等。词典笔二代推出后，有道意识到用户对密集、弯曲、背景干扰等扫描场景下对模型准确率有更高的期待，因此，部署了更为精细的像素级别检测模型。

有道将图像上的每个像素位置进行前景文字和背景的分类，使用局部特征回归行高等位置信息，将所扫描的中心文字连接并组合成行，切分成用于识别的文本行。新的检测网络模型可将密集、弯曲的文字从各类复杂背景中检测出来。

在 “检测与识别” 的框架上，有道还增加了纠正模块，用于将特殊字体、形近字、背景干扰造成的误识别进行纠正。

基于有道海量的语言数据积累，有道针对词典笔学习场景构建了 N-gram 语言模型。

在训练阶段，有道使用语料库及对应图像数据同时训练识别模型和语言模型；在推理阶段，识别模型的解码能力易受字体和背景干扰，输出 “错误” 的识别结果。

例如图中所示的 “bredkfast”，原是错误拼写。但在语言模型的加持下，“错误” 的预测概率将会被抑制，由语言模型输出的转移概率作用在解码阶段，将更加符合语言规范的结果 “breakfast” 输出。

03 离线侧端的底层工程

相较于词典笔 2 代，词典笔 3 代在不联网的情况下，翻译引擎速度提升了 20%，平均的识别准确率达到了 98.3%，最高的准确率能达到 99%。

这些数据的体现，都要归功于词典笔内置的离线 OCR 和翻译模型。词典笔中的离线模型都是从线上模型演化而来，为了保证用户体验效果，都需要在端上进行推断。

点读笔的运行流程是先要扫描文字，再进行翻译、查词，离线模型当中就包含视觉模型和翻译模型。段亦涛表示，这些模型跟词典笔 2 代相比都有了升级。

笔头广角镜头的设计，给图像识别带来视觉畸变上的麻烦，因此，在视觉模型方面，有道做了检测和识别的模型的升级，并将 NLP 也融合到视觉模型中，可以帮助识别纠错。

图像识别后是翻译环节。翻译模型方面，有道做了语言的适配和优化，让翻译更加智能。由于翻译模型的输入是视觉识别模型的输出，不可避免会出现类似标点符号、形近字等错误。为此，在识别模型本身具备一定纠错能力的情况下，有道还为翻译模型做了一些容错的处理。

这些针对离线模型所做的优化，对词典笔底层的算力及内存提出了挑战。为了保证在给定算力的情况下实时运行，有道在模型上做了大量的优化。这些方法跟机器之心了解到的，针对词典笔 2 代离线模型的做法大致相同，将模型压缩渗透在训练、预测各个阶段。

有道还采用了模型裁剪、参数共享、知识蒸馏等办法降低模型大小。通过这些方面的优化，保证在不影响性能的情况下降低对运算资源的依赖，并对结果做更加精准地预测。

除了针对模型的优化与精简外，有道自研了离线推理框架，从以下几个方面优化推理性能：

底层计算：手写 ARM NEON 汇编级优化，运行 Winograd 卷积算法，网络层合并；
数据管理：重新设计数据排布，高效向量化，支持 FP32/FP16/INT8；
异构平台：多核并行计算，支持 CPU/GPU，模型可以一键转换，自动裁剪；

在新计算引擎的支持下，整个链路的计算速度提升 20%。

“整个优化是从模型、框架、工程等各个层面全方位的升级。”段亦涛认为。

04 智能硬件的新变量

在升级词典笔视觉点读业务的同时，有道也在给其他业务提供视觉技术的支持。段亦涛向机器之心表示，有道有面向 B 端学校的项目，当中有一款硬件产品叫做有道智能学习终端，可以用于识别和收集错题。对视觉技术的要求极大。

随着人工智能技术对学习、教学场景的重塑日趋成熟，有道在技术方面也逐渐深入。网易有道在智能硬件相关的技术研发投入了很大的力量，在包括计算机视觉、自然语言处理、语音技术、高性能计算和异构计算，以及硬件研发方面都有深厚的积累。

目前重技术的智能硬件产品成为网易有道最为重要的业务版图。在第三季度财报中，智能硬件为有道贡献 1.631 亿元，同比增长 289.3%，首次超过广告业务。有道的学习型智能硬件正在爆发其巨大的商业变现潜力。

与此同时，诸如字节跳动、科大讯飞、搜狗等公司也在教育智能硬件市场展现其巨大的野心。对用户及教育企业而言，教育智能硬件能够有效弥补 PC 或 APP 端的交互体验、数据采集的不足，并有利于缓解获客成本，提高用户留存率。

究其各家的智能硬件产品，因切入的场景不同，教育硬件产品形态各异。无论是基于怎样的技术细节及基础，关键在于都需要结合用户需求，将场景做透，在此基础上，AI 能力、产品能力及内容缺一不可。

当下，有道词典笔凭借在技术、产品及内容上的优势已经成为万众瞩目的硬件产品。以后，有道词典笔会成为可复制的硬件吗？面对机器之心的提问，段亦涛表示，“好的东西肯定会有人模仿，至少我们的先发优势强。如果别人没有做过这个东西，一定会付出时间的代价。我们只要做到跑得比别人快。”

网易 CEO 丁磊曾在网易有道上市，及网易在港二次上市之时，向全国英语老师免费赠送有道词典笔，至少在这个环节，有道词典笔已经先抢下用户认知，让用户体验小小词典笔背后神奇的 AI 力量。

对于现在市场上推出的智能硬件产品，段亦涛有自己的理解，他拒绝从工具功能性角度解读，而是有更长远的认知。

“在真实学习场景中，学生需要在物理世界里留痕，因此任何智能工具，包括软硬件，都无法颠覆原有的学习过程。我们可以做到的是，通过智能硬件介入学生学习的物理世界中，让学习行为更加高效。同时通过获得学习过程中的数字化数据，逐步建立趋于成熟的数字化教学体系。”

从数字化角度看，网易有道是一家重算法的以技术驱动的教育科技公司。即使是百分之一的算法和框架优化，都能转化为巨大的商业与教育价值。每一小步突破，就是重构教育的一大步。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

有道词典

关注 0

【百度】从数据到知识，知识中台赋能企业智能化升级，29页pdf

专知会员服务

67+阅读 · 2021年2月8日

【经典书】计算语言学：模型、资源的应用程序，198页pdf

专知会员服务

32+阅读 · 2020年11月19日

干货|书籍《百页机器学习》推荐（附最新135页PDF下载）

专知会员服务

68+阅读 · 2020年9月22日

【2020新书】软件和人工智能项目中的设计思维，157页pdf

专知会员服务

123+阅读 · 2020年8月30日

德勤：2020技术趋势报告，120页pdf

专知会员服务

192+阅读 · 2020年3月31日

【2020新书】使用Google Dialogflow构建虚拟助手对话机器人，201页pdf

专知会员服务

72+阅读 · 2020年3月19日

《人工智能2020：落地挑战与应对》56页pdf

专知会员服务

197+阅读 · 2020年3月8日

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

专知会员服务

162+阅读 · 2020年2月27日

《京东区块链技术实践白皮书》（2019版），95页PDF，京东数字科技编

专知会员服务

50+阅读 · 2019年11月9日

《全球人工智能发展白皮书》（2019版）发布，94页PDF，德勤科技编

专知会员服务

229+阅读 · 2019年11月8日

“马踏飞”AI机器人实现方案介绍

PaperWeekly

5+阅读 · 2019年8月31日

决战618丨京东推荐系统架构揭秘：大数据时代下的智能化改造

架构文摘

8+阅读 · 2019年7月30日

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

AI过气了？那是因为你还没看过这些实践

InfoQ

5+阅读 · 2018年12月8日

怎样用声纹识别，提升智能硬件产品的用户体验？

人人都是产品经理

6+阅读 · 2018年8月27日

大伽「趣」说AI：腾讯云在多个场景中的AI落地实践

人工智能头条

4+阅读 · 2018年8月1日

AI产品经理：对话型机器人话术设计思路

NPDP产品经理资讯

5+阅读 · 2018年7月4日

京东推荐系统架构揭秘：大数据时代下的智能化改造

架构文摘

7+阅读 · 2018年7月1日

程序员为程序员推荐：我觉得这本书不错，分享给你

图灵访谈

6+阅读 · 2018年4月23日

乌镇大佬都在扯的AI，都有哪些案例落地了？

计算广告

3+阅读 · 2017年12月6日

Image-Based Place Recognition on Bucolic Environment Across Seasons From Semantic Edge Description

Arxiv

0+阅读 · 2021年2月12日

Who Left the Dogs Out? 3D Animal Reconstruction with Expectation Maximization in the Loop

Arxiv

0+阅读 · 2021年2月11日

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Arxiv

7+阅读 · 2020年3月19日

Towards a Human-like Open-Domain Chatbot

Arxiv

14+阅读 · 2020年1月27日

Learning under Misspecified Objective Spaces

Arxiv

3+阅读 · 2018年10月11日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

SlugNERDS: A Named Entity Recognition Tool for Open Domain Dialogue Systems

Arxiv

5+阅读 · 2018年5月10日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

Stacked Cross Attention for Image-Text Matching

Arxiv

3+阅读 · 2018年3月21日

Content based video retrieval

Arxiv

3+阅读 · 2012年11月20日

VIP会员