技术 | 苹果最新博文剑指汉字手写识别！专家回应：并没有技术含量

2017 年 9 月 29 日 AI100 鸽子

参与 | 鸽子，Shawn

今日，苹果再次更新其博客，这次的内容主打手写识别，而且是对汉字的手写识别。是不是挺好奇的，先来看看这篇论文的简介：

对由30000字符构成的大型汉字字符库进行实时手写汉字识别

随着智能手机、平板电脑和可穿戴设备（如智能手表）的普及，手写识别技术变得愈发重要。但是如果想在这些移动设备上实现汉字手写识别，就必须解决一些特有的问题，因为汉字识别需要有巨大的符号数据库。本论文阐述了我们如何解决这些问题，在iPhone、iPad和Apple Watch（手写模式）上实现了手写汉字的实时识别。我们的识别系统基于深度学习，最多可准确识别30000汉字。为了实现令人满意的准确度，我们在数据收集条件、手写体表征和训练方法上花了很大工夫。我们发现，只要方法正确，系统甚至可以准确识别更大的汉字数据库。我们的试验证明，只要使用的训练数据足够好且足够多，当汉字数据库越来越大时，系统的准确度只会缓慢降低。

引言

手写识别可以增强移动服务的用户体验，尤其是汉字输入的用户体验，因为汉字输入法相对而言较为复杂。而且汉字手写识别又独具挑战，因为潜在汉字数据库十分庞大。使用字母单词写成的文字通常只会用到大约100个字符，但是中国国家标准GB18030-2005中的汉字字符集共包含27533个字符，而且现在整个大中华区还在使用很多新增的意符（logographic）文字。

为了能在计算机上输入汉字，我们通常只一定数量的汉字，这些汉字被认为是我们日常生活中最常使用的汉字。因此，标准的GB2312-80字符集只包含6763个字符（1级字符集包含3755字字符，2级字符集包含3008个字符）。中国科学院自动化研究所(CASIA)数据库中紧密排列的字符集共包含7356个字符 [6]，SCUT-COUCH数据库所涵盖的汉字字符数和它差不多[8]。

早期的识别算法主要依赖于基于单笔划分析的结构方法，后来人们认识到必须实现比划顺序的独立性，因此他们将目光投向了利用汉字整体形状信息的统计学方法[5]。但是如果使用这种方法，大型汉字数据库的识别显然会更加复杂，因为需要对大量的类别进行消除歧义，这样正确分类字符就会变得更加困难 [3]。

在拉丁文识别任务（例如MNIST数据集 [4]）中，卷积神经网络（CNN）很早就被作为解决方案。由于拥有充足的训练数据，而且必要时还可以用合成样本作为增补，CNN可以得出非常有效的结果[1], [10]。但是，这些研究中的类别数量却很少（10种）。

不久前，我们开始研究大型汉字数据集的识别，当时使用CNN是我们的首选方法。但是这种方法要求将CNN缩放到一个大约由30000汉字构成的数据集，同时还要在嵌入式设备上维持实时性能。本论文主要研究的是如何满足准确度、汉字覆盖面和对手写字体的鲁棒性的要求。

（完成博客请见：https://machinelearning.apple.com/2017/09/12/handwriting.html）

这篇论文到底价值如何？有何精华，有何不足？

AI科技大本营在第一时间联系到汉字离线识别领域的专家，请他们对苹果刚刚发布的论文略作评析，同时也对手写识别领域作简要分析。

以下为AI科技大本营根据其观点，以其第一人称总结梳理如下：

文章主要讨论了两件事：

一是把目前汉字识别的类别数扩大之后，如何控制模型的大小和计算量；二是再扩大之后，会遇到更多的混淆字的问题。

苹果在收集自己的数据库时候，发现中国人对同一个字的写法有很多种，这样导致传统的结构识别法在很多情况下不能用，比如笔顺不固定这种情况。

就这两件事情而言，并无太多价值含量。因为通篇只是讨论，并没给出相应的解决办法。

当然，这是苹果公司一直以来的传统，不公布任何技术。

需要注意的是，这篇文章主要关注在线手写识别，也就是带有时序信息，主要应用范围为手机平板这类电子设备。

就汉字在线识别来看，华南理工大学金连文教授算得上最为领先，他与搜狗合作推出的在线汉字手写识别准确率非常高，这一点应该走在苹果前面。除了在线手写识别外，还有一种是离线手写识别。

如果是英语手写识别，德国的DFKI（德国人工智能中心，相当中国中科院）的研究在全球则最为领先。

你怎么看苹果此次发布的这篇博文呢？欢迎在评论区说出你的观点。

点击阅读原文查看完整博文

精彩活动预告

10月28日，SDCC 2017“人工智能技术实战线上峰会”将在CSDN学院举行。

如今人工智能已不单单是发表学术论文、刷新正确率的竞赛，抑或全民参与的新闻事件，它早在为各行各业的先行者们创造着实实在在的利润和商业价值。而且，随着算法改进、硬件升级、架构优化，应用人工智能技术带来的收益还会越来越高。

作为SDCC系列技术峰会的一部分，来自阿里巴巴、微软、商汤科技、第四范式、微博、出门问问、菱歌科技的AI专家，将针对机器学习平台、系统架构、对话机器人、芯片、推荐系统、Keras、分布式系统、NLP等热点话题进行分享。先行者们正在关注哪些关键技术？如何从理论跨越到企业创新实践？你将从本次峰会找到答案。每个演讲时段均设有答疑交流环节，与会者和讲师可零距离互动。