从一款智能台灯，看有道AI的“硬”思考

2022 年 4 月 26 日 AI前线

采访嘉宾 | 林辉

作者 | 凌敏

近几年，教育智能硬件赛道持续火热。数据显示，2020 年，中国教育智能硬件市场规模达到 343 亿元，预计 3 年后市场可达近千亿规模。而在去年“双减”的靴子落地后，这一赛道又迎来了多个新玩家，不少教育机构都在积极向这一赛道转型。

作为教育智能硬件赛道的早期入局者，网易有道在 2017 年便推出了第一款硬件产品“有道翻译蛋”，随后相继推出了词典笔、口袋打印机、听力宝等一系列产品。2022 年 4 月 7 日，网易有道再次发布智能硬件新品：智能学习灯。在这款智能学习灯上，有道首创桌面学习分析引擎，通过 AI 技术对用户进行学习辅导。

那么，在家庭学习场景中应用 AI 需要考虑哪些关键点？网易有道在智能学习灯上是如何应用 AI 技术的，又有哪些研发难点？当前的 AI 技术还存在哪些发展瓶颈，未来有什么样的发展趋势？为解答这些问题，InfoQ 采访了网易有道 AI 技术总监林辉。

借助 AI 技术，教育硬件走向智能化

硬件市场一直是教育巨头们的兵家必争之地，从早期的学习机、学生智能手表，再到点读机、翻译机，各式硬件层出不穷。而随着 AI 技术快速发展，教育硬件加速走向智能化。通过 AI 技术加成和算法优化，智能硬件在图像识别、语音识别、计算速度等方向上有了显著提升，更能精准高效辅助学习。

不过，在家庭学习场景中应用 AI 技术，与其他场景存在很大的不同。

在其他场景尤其是互联网产品中应用 AI 技术，经常会以 pv/uv/ 用户停留时间作为产品吸引力的关键指标，用户使用的时间越长，代表着产品越受用户欢迎。甚至在用户不使用的时候，产品也会想尽办法以弹窗通知等形式引导用户使用。

而在家庭学习场景中应用 AI 技术，关键指标是提升用户的最终成绩，而不是让用户沉迷于产品。这也意味着，用户在产品上停留的时间过长，产品过于吸引用户注意力未必是好事。

在林辉看来，家庭学习场景中应用 AI 技术设计研发产品，需要注意以下三大关键点：

产品设计得简洁有用。尽量在用户需要的时候以最快速度做出反应，不需要的时候不要强制吸引用户的注意力。
要让用户喜欢，又要最大化的帮助用户。最终优化的目标是用户的实际学习能力。
让用户在学习的过程中获得满足感，而不是在使用产品时获得满足感。

教育智能硬件赛道群雄逐鹿，如何做出让市场满意的产品，是每个入局者需要思考的课题。

在智能学习灯上如何应用 AI 技术？

4 月 7 日，网易有道在多家网络平台直播新品发布会，正式推出有道智能学习灯。

据介绍，有道智能学习灯是由网易有道 AI 算法团队和硬件团队共同研发的，项目最早始于 2020 年年中。当时，有道 AI 算法团队已经开始做技术预研，并完成了算法的部分。2021 年上半年，有道智能学习灯正式立项。

谈及有道推出智能学习灯的初衷，林辉表示“桌面学习是一个非常重要的场景，因为每个书桌前面都有台灯，台灯是一种非常自然地切入这个场景的途径。我们在技术上也有多年的积累，可以在这个场景下做出一些对用户有用的功能，帮助用户学习。”

有道对这款智能学习灯的定位是工具类产品，能够提供一些功能帮助用户解决问题，如查词、搜集好题等等；此外也搭载了一些培养习惯的功能，如“AI 高效学习三步法”。

“我们希望对孩子真正有用，需要的时候马上用，不需要的时候不干扰孩子学习，招之即来挥之即去。”林辉说道，“发展目标上，我们希望它不仅仅是工具，而是能更智能，可以主动地发现孩子的一些问题，给出提升的方法。”

桌面学习分析引擎

在这款智能学习灯上，有道首创桌面学习分析引擎，可以自动、实时地分析用户在灯下面与学习有关的行为，比如书本的位置，左右手的意图，手指的动作；对于书本上的内容，它会检测出题目的边界、配图、公式；甚至更进一步，当用户在写作业的时候，笔尖位置、笔画顺序、写字内容等都可以被桌面学习分析引擎实时识别。

据介绍，桌面学习分析引擎主要应用四大 AI 技术：

识别相关与语义理解。如公式、文字的识别，题目的边界识别，并理解彼此之间的联系。此外还需要理解桌面场景，并基于此做智能光。
动作理解。对手势及人体动作做出判断，如指点、握笔、笔尖，以及坐姿、表情等。
自适应学习。通过自适应学习推荐算法为用户个性化定制学习计划。
其他交互，如语音识别、语音合成、语音唤醒、多模态技术等等。

技术实现上，需要解决的难点一是速度，二是准确率。

为了提升速度，有道团队在这款灯上做了很多离线功能，并减少资源占用量。“我们运用了最新的深度学习神经网络技术，把原本神经网络里 300T 的计算量降低到 3T，同时，我们在智能灯上集成了一个神经网络处理器，它的速度是普通 CPU 的十倍。这样我们的引擎才有了‘快’的特点。”

准确率上，虽然当前文字识别技术泛化性尚可，但像对生僻字、艺术字的识别，要识别达到 99% 以上是不大容易的，因为机器学习很难识别到自己“没见过的东西”。

在林辉看来，速度和准确率二者之间需要有一个权衡和取舍，“我们可以把速度做得更快，比如对算法进行优化，但如果更快对用户来讲差别不大，那么完全可以把这部分的算力释放到其他地方，换成准确率，让它做得更准一些。”

有道的 AI 核心能力

据了解，网易从 2011 年开始布局 AI。作为网易独立子公司，网易有道的 AI 布局与网易存在一定区别。

网易有道 CEO 周枫早前在接受媒体采访时表示，有道做 AI 有三大特点：同时注重 C 端和 B 端，同样重视云端和终端 AI 能力的发展；重视实际的场景和领域。

目前，有道的 AI 核心能力主要分为五大方向：自然语言处理（NLP），主要应用在翻译、查词等场景；图像识别技术与计算机视觉（CV），具体包括 OCR 识别技术、动作理解，以及多模态交互，应用场景包括版面分析、作业批改等；语音技术，具体包括语音识别、语言合成和语言评测；高性能计算，包括离线 / 在线的训练、推理；推荐算法，如自适应学习算法等。

AI 的本质是解决问题

当前，AI 已经成为数字经济时代的核心生产力。据艾瑞预测，2021 年人工智能核心产业规模预计达到 1998 亿元，2026 年将超过 6000 亿元。

国内 AI 技术在近几年也取得了不错的进展，计算机视觉、NLP、语音、超大规模预训练模型等方向都有新突破。报告显示，计算机视觉仍是 AI 技术赛道中贡献最大的市场。AI 芯片作为底层的算力支撑，在近几年也获得高速发展，这使得大计算量的模型能够跑在端上。

“当前 AI 人才市场已经接近饱和的状态，但是上市的 AI 公司并不是很多”，林辉认为，很多人对 AI 的理解存在偏差，过去 AI 被资本市场热捧，甚至有人将 AI 视为“赚钱利器”，没有赚到钱后，对 AI 的态度也发生了转变。“其实不能太迷信 AI，本质上 AI 还是帮助别人解决问题，多了一个解决问题的思路。”

不可否认的是，当前的 AI 还没有达到理想中的智能状态，在准确率和速度上还有待进一步提高。

准确率方面，目前很多 AI 框架主要还是依赖监督训练，并且很难做到举一反三。所谓“有多少人工就有多少智能，没有人工没有智能”。人工为机器标注数据，机器就会“认识它”，反之，机器很难“认识”自己没有见过的事物。

“目前在无监督训练上虽然有一些进展，但是还是达不到人的程度。人可以无师自通，机器还得依赖很多人工巧妙设计的流程，和任务相关。”

速度方面，很多 AI 算法需要网络资源，速度会比较慢，做不到快速响应。也有一些模型为了快速响应，做一些压缩裁剪，最终又会降低准确率。

不过，随着算力不断提升，大模型也可以跑得更快，在未来可以尝试更多的提速方法。此外，随着模型结构不断发展，模型可解释性上也有很多应用，加上迁移学习、强化学习等技术进一步发展，都有助于解决目前的难题。

“总体上 AI 技术的发展趋势良好，进一步智能需要的只是时间。”林辉总结道。

对于未来，林辉认为，AI 领域有三个方向值得关注：