想成为教育领域的阿里云，要分几步走？

2018 年 3 月 11 日 AI前线 AI+教育

采访 & 撰稿 | Natalie

编辑 | Emily

AI 前线导读： 在刚刚结束的两会第三场全国代表通道中，科大讯飞董事长刘庆峰在回答记者提问时，十分激动地表示：人工智能正在改变教育，让学习变得越来越有趣，科大讯飞的语音产品已经进入多个省市的学校，帮助众多学生取得更好的成绩。

这两年，教育可以说是 AI 落地场景中最为热闹的场景之一，不同公司分别从各种角度切入市场。有的公司以拍照搜题打开市场、更专注数理化科目，比如我们上一期采访的学霸君；有的公司更关注语音测评，比如科大讯飞，和我们今天文章的主角先声教育。

但只是侧重不同科目，足以在竞争激烈的 AI 教育市场圈地为王吗？这到底是一个怎么样的市场，小公司又该如何突破？

更多干货内容请关注微信公众号“AI 前线”，（ID：ai-front）

热闹的 AI+ 教育市场，千篇一律的“个性化教学”

2017 年中国家庭教育消费白皮书指出，教育支出占家庭年收入的 20% 以上。为了不让孩子输在起跑线上，中国家长们非常舍得在孩子的教育上花钱，各式教育辅导机构层出不穷。

这两年，AI+ 的大风吹向教育行业，在线教育市场的膨胀速度越发惊人，而各大投资机构更是闻风起舞。前百度研究院院长林元庆在创办自己的 AI 公司时也将教育行业列入重点领域，他认为，相对于其他行业来说，教育行业的业务场景可能是理解起来难度最低的，同时它涉及到的 AI 技术相对来说较为全面（考验综合能力而非单点技术）。

《2017 年教育行业蓝皮书》显示，截至目前，中国在线教育机构已达 4.5 万家，涵盖外语学习、K12 教育、应试学习、职业教育、语言教育等方面。2017 年教育领域的融资数量超过 450 起，入场的投资机构近 200 家，其中不乏顶级投资机构：红杉、经纬、华平、GGV、招商局、远翼资本、IDG、鼎晖、云锋基金等。而其中覆盖时间长、用户规模大（超 1.8 亿）且是刚性需求的 K12（kindergarten through twelfth grade，即幼儿园到高中毕业），是最有爆发力的细分赛道之一。2017 年，K12 领域 AI+ 创业公司的融资堪称数字接力赛，亿级美元融资层出不穷：学霸君 2017 年 1 月获得 1 亿美元 C 轮融资；猿辅导 5 月获得 1.2 亿美元 E 轮融资；8 月份作业帮获得 1.5 亿美元 C 轮融资；不到一周，VIPKID 就刷新了前者记录，获得 2 亿美元 D 轮融资。

在这个热闹非凡但也明显有些拥挤的 AI+ 教育市场中，各家公司到底做得怎么样？我尝试翻阅了几家比较知名的 AI+ 教育公司的官网，发现公司介绍中出现得最多的不外乎“1 对 1 辅导”、“搜题”、“自动批改”、“个性化试题”、“自适应学习”，虽然有的公司主打数理化，有的公司主打英语，但看上去宣传语都大同小异。这不免让人困惑，如果大家做的事情都差不多，这么多公司集体涌入这个市场的意义在哪里？那么多 AI+ 教育公司之间到底有何差异？初创公司如何脱颖而出？

带着这些疑问，我接触到了秦龙，先声教育 CTO。

秦龙是一个对自己正在做的事情充满了热情和信心的典型技术人，当他笃定地说出：“我们把自己定位为教育领域的阿里云。”时，我更加好奇了：这家成立不到两年，名称中不提“智能”、连“科技”都没有的公司，打算怎么实现这个看上去很不简单的目标？

从 Duolingo 到先声教育

在联合创办先声教育之前，秦龙是 Duolingo 的资深技术专家。在 Duolingo 的工作经历对秦龙回国创业有着深远的影响。Duolingo 是一个提供免费语言学习课程的平台，在全球拥有超过 2 亿用户。Duolingo 从创立伊始就以 free education 为基础，这是所有员工认同的一个准则，也是公司文化最重要的一部分。在 Duolingo 的经历让秦龙看到，高质量的免费教育是如何帮助到普通人，让很多人的不可能成为可能。

国内的学生对于英语词汇和语法的学习非常充足，但是对于听说和写作能力的锻炼还非常少。而且这方面的资源特别匮乏，大部分学校和家庭无法创造足够的机会和场景帮助学生锻炼听说和写作能力。因此，秦龙决定回到国内，通过技术改变这一现状。

秦龙告诉我们，先声教育创办的初衷是通过人工智能技术为中国绝大多数家庭提供最好的教育。目前国内存在越来越严重的教育资源分配不均衡的问题，先声教育希望通过技术减轻这一问题对于大多数学生的影响。

而之所以选择语音识别和语音测评作为切入点，是因为一方面语音技术经过多年的发展，已经逐渐被大众所接受；另一方面，英语口语确实对很多学生是个很大的问题，而且学生想在口语方面得到好的指导非常困难，好的资源非常匮乏。语音测评恰好就是教育场景中能够和 AI 结合得非常好的一项应用，这也就成了先声教育选择的切入点。

先声教育背后的AI技术支撑

以智能测评为切入点

先把相对成熟的技术与教育场景的结合做好

根据对于市场和技术成熟度的分析，先声教育首选的方向是智能测评，这主要是为了提高老师和学生在英语学习过程中作业环节的效率，一方面把老师从繁重的作业批改工作中解放出来，另一方面，提高学生做作业的效率和效果，可以使学生在第一时间得到作业结果的反馈。

最早上线智能语音测评技术主要出于两方面考虑：

语音测评技术相对更加成熟
语音测评在教育中是高频应用，并且已经逐渐被老师和学生所接受。

先声教育的很多合作客户主要面向 K12 市场，因此技术上需要解决的问题包括：

语音识别和测评的用户年龄跨度很大，从小学到高中，尤其是小学和初中的用户，他们的声道发育还未完成，也就是我们常说的尚未完成变声阶段，音质和成人有很大的差别。
处理噪音和作弊的问题。有些用户在很嘈杂的环境下使用，有些用户的麦克风比较差，或者还有的学生想作弊，比如说中文或者是弄出来其他声音，需要确保在不同条件下测评的准确性。

同智能语音测评类似，智能写作批改也属于智能测评的一部分。相比语音测评，英文写作的频率没有那么高，但是对于老师和学生来说存在与语音测评同样的痛点。而先声教育在智能写作批改中一项比较大的突破就是测评不需要任何范文。

目前一些主流的写作批改技术，是建立在对于需要批改的作文题目有大量从低分到高分平均分布的范文作为训练数据的。但这个要求会严重限制老师和学生的使用，老师只能在已有的题目中挑选或者需要想办法找到大量范文。为了解决这一问题，先声教育通过大量的数据训练出一个常规打分模型，同时再训练另一个模型来判断学生提交的作文是否是题目所要求的内容。如此一来，不需要用户提供任何范文，就可以对作文题目进行打分。

对话机器人和情感识别是为了解决用户没有实际英语使用场景的问题，为用户打造一个纯英语环境，通过浸入式的语言学习环境，帮助学生提高英语水平。自适应学习则是为了进一步提高学生的学习效率，将时间使用在最需要提高的知识点上。目前先声教育这两方面的技术仍处于研发阶段。

基础平台架构

目前先声教育的语音测评模型和作文批改模型训练使用的是自己搭建的计算平台，主要基于 GPU 和 TensorFlow。

云端部署主要涉及以下工作：

根据访问量动态部署服务器的数量，以更高效地利用计算资源，每天最高峰和最低谷服务器数量相差 10 倍。
在语音测评过程中会保存大量的音频文件，对于这些音频文件，一方面要让用户能够快速获取，比如用做录音的回放；另一方面也需要将文件转移到一个能长久保存的地方。为了实现这两个目标，采用了 CDN、Redis 等服务。
测评的同时会产生大量的日志文件，为了可以更好地读取和分析日志，先声教育还搭建了一个 Elasticsearch 集群。

在客户端，先声教育提供支持不同开发环境的 SDK，覆盖 iOS、Android、Web、Linux & Windows Server 和微信端，客户通过调用 SDK 接口进行语音或者写作的云端测评。目前 SDK 支持离线调用和在线调用两种方式，当用户的设备无法连接网络时，SDK 自动切换到离线调用，不影响用户体验。

智能口语评测：以不变应万变

好的评测 = 双指标 + 多维度

口语测评主要关注两方面的指标，一个是评分的准确性，一个是反馈信息的全面性和有效性。对于评分的准确性，通常会使用 Pearson 相关度来考量，具体地说，就是计算人工专家打分和机器打分的相关度，相关度越接近 1 说明评分越准确。目前先声教育的语音测评相关度可以达到 0.93 以上。

对于学生而言，评分不是终点，通过学习提高英语口语能力才是最终目的。为了帮助学生达到这个目标，先声教育的智能语音测评技术在提供准确打分的同时，还会提供非常详尽的共计 15 个维度的教学场景反馈，使学生从错误中得到成长。

“我们既提供整个句子或者是篇章的总体打分，同时也提供包括完整度、流利度、准确度在内的每个维度的分数。我们还会反馈小到音素级别的音素发音分、音素检错信息，单词发音分、单词重音检错，句子语调、语速、停顿、重复、遗留单词等信息。”

语音测评技术演示

秦龙告诉我们，发音的准确性仅仅是英语口语的一个方面，韵律度和节奏感也是非常重要的。因此先声教育提供的很多反馈信息，都是为了提高学生说英语的节奏感的，比如语速、停顿、重读、语调等。

选择效果最好的算法模型

口语测评一般包括两个环节，首先通过语音识别对用户的录音进行分析，提取一些声学和韵律等各方面的特征，然后再通过训练好的测评模型估计用户的评分。

在语音识别部分，先声教育使用的技术框架和主流的语音识别系统基本一致，目前使用最多的是基于回归神经网络（LSTM）的声学模型。语音信号是一个时序序列，而且我们对一个词 / 音素的发音会受到这个词所处的上下文影响。深度回归神经网络，尤其是长短记忆门网络（LSTM），很好地通过网络结构的设计，不是仅仅根据当前输入进行计算，而是对当前输入的前后状态同时进行考虑。同时，LSTM 对语音信号间大跨度的依赖性有很好的建模，非常适合语音识别和测评的应用。

语音测评原理

语音测评模型一般使用回归模型估计评分，从简单的线性回归，到 boosting，到 SVM，到神经网络，都有使用。如何从众多模型中做出最佳选择，这主要取决于训练数据的多少。同时，在部分使用场景，比如当在用户的手机或者平板电脑上做离线测评时，会根据设备的计算能力调整模型的复杂度。

低延迟、高准确性，但并不完美

目前先声教育智能口语评测的实时性已经达到比较高的水平，在线测评的延时为毫秒级，主要的时间都是用于语音的传输。为了提高实时性，先声教育在传输语音时，一般使用 WebSocket 协议，也就是常说的边录音边传输边测评，等用户的录音结束了，系统的测评也随之结束。如果使用离线测评，基本感觉不到任何延时，测评就已经完成。

从评分的准确性上来说，目前先声教育的语音测评技术已经达到甚至超过了人工评分的表现。对于人类专家来说，多个专家的评分相关度一般在 0.7-0.8 之间，而先声教育的智能语音测评准确性为 0.93。这其中的原因包括：1. 每个人测评的严格程度往往不同，有的人比较严格，而有的比较宽松。2. 即使对于同一个人，也会受到时间、心情等因素影响，造成评分幅度的变化。

当然，先声教育的语音测评系统也并不完美。

秦龙坦诚：“目前的测评系统对于极端情况的测评还不够精细，对于口语特别差以及口语特别好的情况，评分的精细度有时还不能满足要求。比如满分 10 分的时候，9 分和 10 分语音的测评有时候还是会出现偏差。这方面可以通过搜集更多的低分和高分的语音数据，然后优化评分模型去解决。”

“从场景上来说，目前的语音测评主要是针对某一点进行评估，比如某句话学生的表现如何。这样有两方面的缺失，一个是对于同一个学生，跨时间的数据追踪；另外一方面，我们还需要对学生的口语水平做一个全面的评估。通过不断积累同一用户的更多数据，持续地全面评估用户的口语水平。这将是我们下面工作的一个重点。”

智能写作批改：无需大量范文

目前一种比较常用的作文批改方法需要大量的从低分到高分的范文，在批改新的作文的时候，使用同 KNN（K nearest neighbors）非常接近的思想，计算同已有范文的距离，然后根据距离加权得到作文的评分。这一方法的主要问题就是需要大量的范文作为评分前提，而这在实际应用中往往是比较困难的。

先声教育的作文批改没有采用这个技术方案，而是将作文拆解为写作质量（包括语法、词汇正确性等）和主题吻合度分别进行评分。当前的做法是训练一个模型来判断写作的质量，同时训练另外一个模型来判断文章是否点题。在训练第一评分模型的时候，使用来自所有作文题目的数据训练一个深度神经网络，这个模型的作用是判断一篇文章的好坏，主要基于词汇的使用、语法、文章结构等判断维度。训练主题模型的时候，则使用作文的题目和学生的写作一起训练。评分模型和主题模型输出的后验概率一起被作为一个 softmax 函数的输入，而输出为文章最终的得分。

写作批改技术演示

作文改错深度神经网络模型

但同一篇文章，放到不同的年级，可能评分结果就会有所不同。如果在智能写作批改中，需要按不同的年级、不同的打分标准，分别用不同的数据进行单独的模型训练，未免太过低效。

针对这一问题，先声教育目前的做法是将学段作为模型的输入参数之一，然后使用不同学段的数据一起训练评分模型。在有足够的数据的时候，可以针对不同的学段分别训练独立的评分模型进行打分。秦龙解释到：“当然，也不是说不同学段的数据不能复用。在训练我们的改错模型时，我们就会使用所有的数据一起建模，这个模型用来寻找语法和用词的错误。在这个场景下，是否错误的标准是唯一的，所以不会有学段的限制。”

情感计算和自适应学习

除了有条不紊地迭代已经成熟的语音测评系统，升级日渐成熟的写作批改系统，先声教育也在尝试更多，比如情感计算和自适应学习系统。

目前在这两个方面，先声教育都还处于起步阶段。对于情感计算，先声教育主要是从语音信号和文本两个方面来做情感分类。语音信号主要的特征来自韵律，比如语音的基音频率的均值和方差、语音的能量等。对于文本来说，则需要从词汇、短语和主题三个方面来判断。

秦龙指出：“目前公开的一些用于情感识别的语音和文本数据往往是网页或者是商品的评价数据。这些数据库标注的情感标签并不一致，没有统一的标准。另外，我们需要的是针对 K12 教育领域的情感标注数据。比如枯燥或者走神，并不是一个常用的情感分类，但对于教育而言却是非常重要的。”

传统的自适应学习主要是使用基于贝叶斯模型的知识追踪方法。但是这一模型比较简单，无法利用大量的训练数据。最近几年，有一些学者开始尝试使用深度学习的方法去做知识追踪。这种方法需要大量的训练数据来训练深度神经网络，然后通过神经网络自动的去抽象出来每个题目所对应的知识点。但是这种方法的有效性目前学界还存在争议，而且在工业界也没有被验证。

人类对于知识点的记忆是有半衰期的，学生对于知识点的掌握程度不仅取决于历史上考察该知识点的习题的对错，也取决于学生上一次复习该知识点的时间。因此，先声教育目前正在尝试基于贝叶斯知识追踪模型和半衰期回归模型相结合的方法。同时，秦龙认为，要达到很好的自适应学习效果，需要算法、内容和产品的高度结合，因此还需要与用户进行更多的沟通和合作。

先声教育的底气

先声教育目前的商业模式以 ToB 为主，剑指“教育领域的阿里云”。如今他们已有的语音测评和写作批改技术就是以云计算的形式提供给合作伙伴，因此这个目标与先声教育作为教育领域人工智能技术服务商的身份倒也吻合。秦龙告诉我们，他们希望可以像阿里云一样成功，通过向教育企业提供人工智能技术服务，提高教育能效，从而使客户可以更好地为学生和老师服务。

那么先声教育想做“教育领域阿里云”的底气源自于哪里？

据秦龙介绍，目前先声教育语音测评云服务已经拥有超过 20 家企业合作伙伴，覆盖了从线下培训机构、到在线教育企业、到智能教育硬件厂商等多个行业，包括美联英语、纳米盒、步步高等。云平台日均调用量超过 1000 万次，每秒能够同时处理超过 1 万个并发测评请求，每天处理的全国各地各个年龄段的用户的语音数据超过 1 万小时。

这样的一组调用量数据可以说是相当不错了。这背后当然离不开前面提到的一系列技术服务，秦龙透露：“我们希望能够做到，客户需要什么 AI 技术，我们就能够提供相应的服务。在语音测评和写作批改方面，我们已经可以向用户提供最好的技术。”

在提供最好的技术的同时，秦龙认为，企业还需要成为合格的“AI 技术产品经理”。“我们要教育客户如何最好地使用我们的技术，这有点类似云服务厂商的架构师会帮助客户搭建最好的后台架构，在这里，我们除了要帮助用户建立一个好的架构以外，我们还希望理解客户的产品需求和使用场景，从产品层面去帮助用户。”

最后但也是最核心的一点，是数据闭环。数据是 AI 非常重要的基础，尤其在医学 AI 领域，精确标注的数据可以说是相关创业公司的核心竞争力，这一点在教育 AI 领域也是如此。实际上，秦龙表示，在绝大多数场景，数据对于 AI 技术都是至关重要的。

目前先声教育的数据主要是来源于其云平台的用户。通过从云平台每个客户收集到的语音和写作数据，先声教育能够重新训练评分模型，然后使用更新后的更加准确的模型服务所有的客户。每个客户的原始数据只对客户本身开放，而训练出来的统计模型可以用来为所有客户服务。

“通过这样的合作，能更好地优化核心算法，由客户提供使用场景，我们搜集更多的数据，形成了一个从算法到场景到数据的闭环，从而保证我们可以不断的优化测评系统的性能。”秦龙说。

基于 ToB 的商业模式，先声教育可以接触不同类型的客户，比如培训机构、在线学习企业、智能硬件厂商等，而这些客户又覆盖各种各样的学习场景，拥有各个学段各个地区的学生用户，进而帮助先声教育搜集到非常多样化的语音和写作数据，这些都是训练一个高精度的测评模型不可或缺的原料。同时，针对特定的问题，也可以很容易地找到大量的对应数据，从而使这些问题的优化和解决变得更加容易。“海量覆盖各个场景、地区、学段的数据越来越成为我们的核心竞争力。”

目前先声教育以英语为主攻方向，对于其他学科还没有明确的计划。对于秦龙来说，每个学科所面临的问题是不同的，也没有难易之分，在对所面临的场景和问题的细致分析以后，一定有很多问题都是可以通过 AI 技术来解决的。

关于下一步公司的技术布局和发展计划，秦龙也做了颇多考虑。

“我们把自己定位为教育领域的阿里云，那么，我们就不可能仅仅是提供语音测评或是写作批改，这样 1-2 个人工智能技术服务。我们需要的是向客户提供一整套的人工智能解决方案。我们需要通过不同的技术解决客户各种各样的痛点，同客户紧密合作。因此，我们会逐步研发和上线更多的人工智能技术，比如今年我们的重点就是自适应学习和对话技术。”

有了最好的核心技术和数据闭环，接下来最重要的事情就是如何基于客户需求打造更多 AI 技术，并从后台架构以及产品两个层面更好地帮助客户。

征途才刚刚起步

2012-2015 年主要是互联网 + 教育的阶段，涌现了很多 O2O 的教育公司，解决了从线下到线上的问题。而 2016 年到现在则是 AI+ 教育的阶段，解决的是通过人工智能技术提高教育能效的问题。实际上，只有过去比较成熟的产品才会想到通过 AI 技术来打造更好的效果。

在秦龙看来，目前 AI+ 教育还处于早期摸索阶段，虽然在某些问题上已经有了比较成功的应用，但是离“革命”还有很多工作要做。AI 的产业化，AI 和商业或者传统行业的结合才刚刚起步。但与此同时，秦龙也认为 AI 技术本身还有很大的发展空间，未来和产业的结合一定会对我们的生活产生巨大的改变。

“如今很多教育企业，包括初创企业，已经越来越多将 AI 技术的使用作为产品的最基本功能了。或者说，AI 技术越来越成为教育产品的标配。这是一个很强烈的趋势，我觉得就像云服务取代传统的自建机房服务器一样，越来越多的企业会引入人工智能技术。”

但未来 AI 充分发展之后，是不是老师的角色就会被 AI 替代了呢？秦龙的答案是 No！“未来 AI+ 教育，我不认为是简单的替代或者颠覆老师或者学校，我认为更多的是 AI+ 老师的形式。老师从知识的传授者的角色慢慢变成一个教学设计者、一个监督的角色，更多的工作会交给 AI 去做，老师会更注重对于学生人格和思想的培养。”

先声教育作为一家垂直于 K12 领域的人工智能技术服务商，难免会面对“AI 公司就是外包公司”的调侃，对此秦龙到并不太在意。他认为，“是否外包公司与做不做 AI 没有绝对关系，如果一个公司没有自己确定的发展方向，客户要什么就做什么，或者说每个客户需求都是不同的，那这就很有外包的特征。AI 公司要能够提供一个标准化的解决方案，多配置少定制。”

最后，我又向秦龙追问了一个问题：