“AI好老师”智能育人助力系统关键技术

2019 年 4 月 13 日 MOOC

| 全文共13924字，建议阅读时10分钟 |

本文由《开放教育研究》授权发布

作者：陈鹏鹤彭燕余胜泉

摘要

近年来，人工智能渐被用于解决长期制约教育发展的关健问题。本研究关注如何利用人工智能技术解快教育中的育人问题。育人对智能助理系统的要求体现在领城知识的系统化、问题分析的综合化以及问题苦询过程的智能化等方面。因此，本研究利用人工智能的前沿技术，设计和开发智能育人助理一一AI好老师，带助教师和家长正孩子的问题行为，促进孩子健康成长。具体而言，A好老师利用人工智能领城的知识图谱技术，基于不同育人数据，定义育人知识模式，进行知识的获取和融合，构建育人领域的知识图请。在此基上，AI好老师利用人工智能领域的任务导向型对话系统技术和基于知识图谱的推理技术，通过自然语言交互，实现离人问题的智能寄询，自动诊断教师或家长的育人问题，分析原因并给出相应的解决对策。未来，AI好老师将在机器人的结合，智能问答的功能，模型的提升、学生信的自动获取以及案例的主动收集等方面进一步发展。

关键词：育人；智能育人助理；AI好老师；知识图谱；任务导向型对话系统

人工智能是关于如何模拟实现人类智能的理论、方法、技术及应用的研究。基于不同的理念，人工智能研究分三个主要学派：符号主义学派、联结主义学派和行为主义学派（ Nilsson，2009）。符号主义学派认为人类认知和思维的基本单元是符号，主要基于逻辑推理的方法模拟智能，相应成果是以专家系统、知识本体、知识图谱为代表的知识表示理论与技术。近年来，教育知识图谱（ Chen et al.，2018）就是符号主义理论在教育学中的应用实例。联结主义学派把人类的智能归结为人脑的高层活动，利用神经网络及网络间的连接机制与学习算法模拟智能，代表成果是当前流行的卷积神经网络和循环神经网络。卷积神经网络善于捕捉数据的局部特征，广泛应用于图像识别、视频分析等领域。它可以基于摄像头的视频数据分析学生课堂注意力模型

（ Canedo et al.，2018）。循环神经网络善于捕捉数据的前后依赖关系，常被用于序列数据的处理。针对学生知识状态评估的深度知识跟踪模型就是利用循环神经网络算法实现的（ Piech et al.，2015）。行为主义学派认为智能是对外界复杂环境的适应，主要基于“感知一行动”行为模型模拟智能，代表性工作是增强学习，适用于各种决策场景，如智能教学系统如何为学生选择学习路径。在教育领域，人工智能不仅可用于解决适应性学习等问题，也可用于助力破解长期制约教育发展的关键问题。教育过程中，学生经常会出现上课故意捣乱、欺负同学等问题行为，如何解决这些问题，需要具备心理学、教育学、社会学、生理学等专业知识，但一般教师和家长通常不具有多学科完备的知识，难以对学生进行良好的教育引导。本研究针对此难题，利用人工智能技术设计和开发智能育人助理系统，帮助教师和家长矫正孩子的问题行为，引导孩子健康成长。

一、育人助理系统对智能的核心需求

育人以学生的发展为目标，在充分尊重教育客观规律和学生身心发展规律的基础，充分发挥学生的主动性和积极性，促进其健康发展。实践证明，教师积极的育人行为能显著提升中小学生的主观幸福感，明显降低抑郁水平、孤独感，有效减少攻击性行为和违法行为，直接关系学生健康成长和成才。我国现阶段的“育人”工作还存在许多问题，主要体现在：

第一，体系化的育人知识、可借鉴的育人案例及针对性的育人指导匮乏。育人强调的是全面发展，良好的育人能力需要以心理健康、道德教育、人生规划、观念培养等知识为基础。实践中掌握多学科专业知识的育人教师并不多见，普通教师的相关育人知识储备不足，因此育人问题的解决多依赖于经验。然而，当现实间题超出教育经验范围，需要向外界寻求帮助时，教师却很难从互联网、书籍等资源中提取出体系化、易理解的育人知识，找到有参考价值的、有针对性、可操作的育人指导案例。

第二，育人问题解决的复杂性。育人针对的是现实的人，关注的是个体的发展，因此育人问题的解决相对复杂。这主要表现在育人情境的多样化和育人需求的个性化。育人情境的多样化体现在学生生活背景、成长经历、人格特征等方面，表现出的问题也不同。教师需要了解学生问题背后的原因及影响他们成长的内外部因素，才能根据实际情况提供个性化的、有建设性的教育指导，但这会耗费教师大量时间和精力，也可能超出普通教师的能力范畴。

第三，从现实情景提炼要点及整合信息面临困难。造成学生问题行为的因素很多，包括成长背景、个性特点等。为了更好地解决问题，教师需要对学生有全面的了解，从学生的日常学习过程分析辨别其存在的问题。然而，很多教师缺少育人专业知识的系统学习和理解，难以总结出问题的根源所在。

以上三个问题表明，智能育人助理系统需具备以下核心功能：

1．领域知识系统化。智能育人助理需要从专业角度分析定位问题本质及其原因，提供针对性解决对策和操作方案，以及相关案例、专家等资源，辅助教师和家长了解学生存在的问题及解决办法。因此，智能育人助理需要对领域知识进行语义化分析，构建结构化和系统化的领域知识库。

2．问题分析综合化。影响育人问题判定的因素很多，学生的攻击、违纪等行为表现会影响人们对他们问题的判断，家庭结构、同伴接纳等环境也会影响人们对育人问题的分析。因此，智能育人助理需要结合心理学、教育学和社会学理论，通过模型综合分析推理，精准定位学生出现的问题及原因。

3．咨询过程智能化。智能育人助理在育人问题的咨询过程中需要与用户交流沟通，获取学生的信息，判定学生的问题，并给出针对性解决方案。因此，智能育人助理需具备自然语言理解、对话状态跟踪、对话策略学习及自然语言生成等智能。

针对这些问题和需求，本研究利用人工智能前沿技术，设计开发了AI好老师智能育人助理系统，辅助教师和家长解决学生成长过程中面临的问题。具体而言，本研究利用知识图谱技术对育人领域知识进行语义化和结构化整理，从而为I好老师提供知识基础。同时，基于对话系统相关技术，本研究为AI好老师设计开发了应用于育人问题场景的任务导向型对话系统。针对教师和家长面对的学生问题，AI好老师通过询问获取学生信息，同时基于知识图谱总结的育人问题、知识及模型判定学生的问题及原因，给出解决方案。

二、知识图谱与对话系统

针对上述智能需求分析，本研究认为人工智能领域的知识图谱和智能对话系统是实现智能育人助理的关键技术。知识图谱主要针对如何利用人工智能相关技术获取结构化的领域知识，满足智能育人助理的系统化知识库组织管理需求，同时在知识图谱为育人问题的分析判定提供的知识基础上，结合心理学、教育学和社会学理论，构建针对育人问题的综合解决模型。任务导向型对话系统可以通过与用户的自然语言交流沟通，了解学生信息，智能判定学生的问题，实现育人问题咨询的智能化与自动化。

（一）知识图谱

知识图谱通常指利用多关系图结构描述真实世界或特定领域各类实体及实体关系的知识库（Singhal，2012）。知识图谱为人工智能提供了知识基础，可以支持智能语义检索、个人智能助理、智能深度问答等智能应用。从应用领域角度，它分为通用知识图谱和领域知识图谱。通用知识图谱面向普通用户，侧重内容广度；领域知识图谱通常供行业人员使用，侧重内容的深度和精度。近年来，随着知识图谱研究的发展，工业界和学术界研发构建了 DB Pedia（Lehmann et al., 2015), Concept Net (Speer & Havasi ，2013）、 XLORE（ Wang et al.，2013）等知识图谱。

从内容逻辑角度来看，知识图谱主要分为模式层和数据层（刘峤等，2016）。模式层对知识中的实体类型及关系类型进行抽象定义和总结。数据层指知识中的实例数据。因此，模式层是对数据层实例数据的抽象概括，是对模式定义的抽象概念实例化。以教育知识图谱为例，模式层对教师、学校、任教关系等抽象实体及关系进行定义；数据层则管理这些概念对应的实体，如李老师、张老师、实验小学等。

知识图谱的构建包括三个步骤：图谱模式的定义、知识获取、知识融合（刘峤等，2016）。图谱模式定义知识的实体类型及关系类型。领域知识图谱因其实际的应用场景相对清晰，主要由专家依据实际需求进行的人工定义。知识获取的目的是从原始数据中识别图谱模式定义各类抽象实体及关系类型实例，包括命名实体识别和关系识别（ Sarawagi，2008）。对命名实体识别任务，主流方法是利用机器学习的序列标注算法，常用的有条件随机场模型（ Conditional Random Field，简称CRF）（ Sutton＆Mccallum，2012）、长短期记忆网络（ Long Short Term Memory，简称ISTM）（ Lample et al.，2016）等。关系识别任务同样可以利用命名实体识别的序列标注模型进行序列识别，但更多的是基于半监督学习和非监督学习的算法，常用的有远监督学习方法Mintz et al., 2009 ), Open IE (Banko et al.，2007），及基于注意力的神经网络（ Lin et al.，2016）。知识图谱构建的最后步骤是知识融合，主要是融合知识获取结果中相同或冲突的实体和关系，使用的算法是基于概率图模型的算法（ Herzog et al.，2007），以及基于机器学习分类的算法（ Wang et al.，2012）。知识图谱可以实现知识层面的计算，从而更好地支持各种智能应用。常见的知识计算分析包括本体推理、规则推理、路径计算、社区计算、相似子图计算、链接预测、不一致检测等。

（二）对话系统

对话系统指能够与人进行连贯对话的计算机系统，可以采用文本、语音、图形、触觉、手势及其他方式与人进行交互，常以语音交互为主。在人工智能领域，模仿人类交谈能力的尝试可追溯到人工智能的早期阶段。1950年，艾伦·图灵提出了通过对话测试机器智能水平的方法，被普遍称为图灵测试或模仿游戏。近年来，大数据与人工智能技术的发展，尤其是深度学习的发展，极大地带动了对话系统的研究。从应用场景角度分析，对话系统主要分为两类：任务导向型对话系统和非任务导向型对话系统（ Chen et al.，2017）。任务导向对话系统为实现特定任务而设计，它通过对话从用户端获取信息帮助其完成特定任务，常见的应用场景有机票预定、产品查询、在线客服等。与之相比，非任务导向型对话系统（又称闲聊机器人）没有清晰的任务，主要以模仿人与人之间非结构化会话或具有聊天特性的交互为目的（ Martin＆ Jurafsky，2009）。本研究主要是基干任务导向型对话系统设计研发智能育人助理，因此以下主要讨论任务导向型对话系统的相关工作。

针对任务导向型对话系统，传统研究主要基于管道（ Pipeline）模型（见图1），包括：1）语音自动识别模块（ Automatic Speech Recognition，简称ASR），负责识别用户的语音输入并转换成文本。传统的语音识别算法主要利用隐马尔可夫模型（ Rabiner，1989）。近年来，随着深度学习技术的发展，深度神经网络模型应用于语音识别并取得了较好的效果（ Amodei et al.，2016）。2）自然语言理解模块（Natural Language Understanding，简称NLU），主要负责对用户输入的文本进行语义理解，包括用户意图识别（ Intention Detection）和语义槽填充（ Slot Fitting）。意图识别通常转换为分类问题，近年来主要利用深度模型通过文本分类的方法判别（ Tur et al.，2012）。语义槽的填充通常转化为信息抽取问题，利用序列标注算法识别。传统方法主要是基于条件随机场模型，近年来逐渐采用深度神经网络模型标注（ Yao et al.，2013）。3）对话管理（ Dialogue Manager，简称DM），负责整体对话的管理，包括对话状态跟踪（ Dialogue State Tracking，简称DST）和对话策略学习（ Dialogue Policy Leaming，简称DPL）。对话状态跟踪负责对当前对话状态信息的表征，通常以语义槽形式表示，同时基于识别的用户意图和语义槽值，更新对话。对话状态跟踪研究历经人工规则阶段（ Goddeau et al.，1996）、统计概率模型阶段（ Williams，2013），以及深度学习模型阶段（ Mrksic et al.，2015）。4）对话策略学习解决如何根据当前的对话状态，生成系统的下一步操作可以利用基于规则与监督式学习相结合的方式（ Yan et al.，2017），或利用深度强化模型（ Cuayahuitl et al. 2015）。5）自然语言生成（ Natural Language Generaion，简称NLG）主要负责根据对话策略选择系统操作，依据模板或当前流行的深度生成模型生成用户可以理解的自然语言文本，（ Wen et al.，2015）。从文本到语音（ Text to Speech，简称TTS）主要负责把生成的自然语言文本转换成语音输出。近年来，随着端到端深度模型的发展，许多研究者提出基于端到端深度学习框架的任务导向型对话系统，可以从整体上对系统进行共同优化（ Wen et al.，2017）。

三、AI好老师的技术构架

AI好老师系统主要分数据采集层、育人知识图谱层、育人对话系统层（见图2）。数据采集层负责育人问题及理论数据的获取和管理。育人知识图谱层基于数据层收集的数据负责构建育人知识图谱。育人对话系统层主要基于知识图谱提供的结构化领域知识，利用对话系统的技术实现AI好老师的智能育人助理功能。

（一）育人知识图谱构建

育人知识图谱主要为AI好老师提供领域知识，并支持育人对话系统。育人知识图谱的构建主要包括三部分：图谱模式定义、知识获取和知识融合。

1．图谱模式定义

图谱模式是根据需求对领域知识的抽象总结和定义。本研究的目的是研发智能育人助理，自动诊断学生存在的问题，给出相应的解决对策。育人问题主要指学生成长过程中出现的，除学科外，在德智体美方面出现的影响学生健康发展的问题。根据育人问题的解决逻辑及理论支撑，我们发现向题行为、内部个体特征和外部环境因素可以成为定位和分析育人问题的三个核心因素。结合问题原因和育人对策，本研究定义了育人知识图谱的模式（见图3）。问题行为主要指阻碍学生个体身心健康发展的行为。内部个体特征指学生内部存在的独特性特征，包含学生的人格特征和气质类型。外部环境因素指影响个体成长的外部环境因素，包括学校、家庭、大众传媒与社会文化因素三个维度。问题原因代表行为产生的本质原因，指间接推理知道的内在心理历程，即学生出现问题行为背后的本质诉求和本质状况。育人对策指教师处理在育人问题时可以采取的方法或措施，包括对学生的育人方法和与家长合作的家校协作方法。根据问题行为、内部个体特征和外部环境三因素的信息，AI好老师总结育人问题出现的原因，并给出解决对策、相关理论知识及相关案例。

2．知识获取

知识获取指依据定义的图谱模式，从数据中识别实体及关系实例，以填充图谱的数据层。本研究的知识图谱主要关于育人问题、内外部因素及育人对策等知识，因此知识获取的主要任务是如何识别育人案例描述对应这些维度的分类。与其他知识图谱构建不同，本研究的育人知识图谱主要以案例和育人问题为中心，相互间的关系即为案例维度分类的对应，所以图谱的构建任务转换为如何确定案例描述对应的因素、问题及对策类型。比如，以某案例为例，针对“攻击行为”这一因素，需要判别该行为属于“直接身体攻击”还是“言语攻击”，或是其他；针对“问题原因”，需要判定属于“被尊重的需求”或是“安全需求”，或是其他；针对“育人对策”，需要判定案例采用的是“说服教育法”还是“榜样示范法”，或是其他。

因此，从人工智能和自然语言处理的角度，本研究将知识获取的任务建模为基于文本的多分类问题，即根据案例的文本描述，确定案例对应图谱模式定义的具体类别。关于文本分类问题，主流技术是利用深度学习模型对文本进行语义理解，在此基础上进行分类判定，本研究采用深度学习领域的循环神经网络对文本进行语义解析，然后进行分类判别。然而，本研究是对案例文本进行分类，其主要特点是文本较长，以往针对语句短文本的单层循环神经网络模型并不适用，所以本研究将基于层级的ISTM循环神经网络模型对案例文本进行分析。

LSTM模型（ Hochreiter＆ Schmidhuber，1997）是一种循环神经网络，可有效解决RNN模型由于梯度消失引起的长依赖问题，经常被用于序列数据的问题分析。LSTM模型主要通过“门”结构控制信息的增加与去除（见图4）。具体而言，LSTM由遗忘门（ Forget Gate）、输入门（ Input Gate）和输出门（ Output Cate）组成。遗忘门决定从之前状态舍弃哪些信息，即首先合并上一时刻LSTM的输出h和当前的输人，然后通过 Sigmoid函数转换，输出数值在0和1之间的向量，决定前一时刻状态向量中各个维度的遗忘与保留。输入门决定如何更新生成当前单元状态，即需要把哪些新的信息添加到单元状态。最终的计算是通过对两部登信息求和得出：部分由遗忘门计算得出的向量与前一单元的状态求积得出；另一部分是先对合成前一单元的输出和当前输入的数据分别进行 Sigmoid函数和Tanh函数转换，然后对结果求积。输出门决定LSTM的最终输出，即首先通过 Sigmoid函数对合成了前一单元输出和当前输入的变量进行转换，然后与经过Tamh函数的当前单元状态相乘计算出最终输出数值。

基于LSTM模型，本研究利用层级 LSTM模型对案例文本进行语义分析，构建育人知识图谱。该模型（见图5）包括三部分：输入层、LSTM层及分类层。

输入层利用当前人工智能领域的词嵌人算法，学习词组的语义向量表示，捕捉词组之间的语义关系作为LSTM模型的输入特征向量。流行的词嵌入学习主要基于公开文本库（如维基百科文本），利用Word2vec( Mikolov et al., 2013)或GloVe(Pennington et al.，2014）算法训练生成词组的语义向量。然而，这种方式通常不能捕捉词组的特殊领域语义。因此，本研究以育人案例数据集为文本库，利用Word2vec算法和学习词组的领域语义向量表示，构建模型的输入特征向量。

LSTM层描述如何利用层级LSTM模型对案例文本进行语义分析，识别案例描述对应的各类育人问题相关因素信息。此模型主要包括两层：词级LSTM和句级LSTM。针对案例中的每条语句，本研究首先利用词级ISTM模型对语句中的每个词组进行语义理解，生成一个隐藏向量，然后利用 Maxpooling的方法进行融合，作为语句的语义向量。本研究进而以此向量为输人，利用句级LSTM模型分析新的语义向量，然后针对所有语句，同样利用 Maxpooling方法，融合所有句子的语义，生成整个文档的语义向量。

分类层主要基于产生的文档语义向量，利用基于神经网络的多分类器，确定案例描述中的不同因素信息。具体而言，分类层包括一个全连接神经网络和一个 Softmax层。其中，全连接神经网络的输人层即为文档语义向量，输出层对应不同的育人问题相关因素。 Softmax层主要负责全连接网络输出到概率的转化，根据概率大小判定不同因素及信息。

3．知识融合

知识融合主要解决知识获取过程中出现的两类问题：一是相同实体在不同数据基础上被识别为不同结果，多表现在具体的文字描述上的差异。例如，教育知识图谱中针对实体“北京师范大学”，有的数据识别为“北师大”，有的识别为“北京师范大学另一类是实体冲突问题，多表现为不同实体识别为同一实体。例如，同名同姓的网球运动员“李娜”和跳水运动员“李娜”。产生这些问题的主要原因是名词多义，或是代指某些概念的名词非唯一，从而引起混淆。与其他知识图谱相比，本研究构建的育人知识图谱，采用自上而下的构建方式，由专家定义图谱模式，且知识获取的主要任务是对案例文本的分类，所以图谱中的概念名词定义清晰，相互间不存在混淆，不存在常见的知识融合问题。然而，本图谱同样存在需要融合处理的后期任务，主要体现在依据不同案例总结的因素、问题与对策的相应关系可能不一致。例如，同样是“缺乏教育引导”间题，有的案例使用“说服教育法”，有的案例采用“榜样示范法”。针对这些情况，本研究采用启发式规则进行后期融合。

（三）基于知识图语的智能推理

基于知识图谱的智能推理主要解决如何基于知识图谱数据判定学生的具体问题，核心是利用基于案例推理的方法，概括来讲，是将用知识图谱总结的育人问题信息与学生的相关信息比较，相似性高的一个或多个育人问题即为学生的实际育人问题。需要指出的是，这里知识图谱提供的并不是案例信息，而是基于案例信息融合总结而出的问题信息。因为学生信息和问题信息都是依据知识图谱定义的育人问题模型描述的，所以可以直接通过比较学生画像与育人问题信息的相似度来判定学生的实际育人问题。以图6为例，图6（a）表示的是学生的基本信息，图6（b）表示的是“缺乏引导教育问题”画像，我们通过比较可以发现两图相似度较大，所以判定学生的问题是“缺乏教育引导问题”。

因此，从本质上讲，基于知识图谱推理学生问题的过程是相似子图搜索问题，难点集中在两点：相似度的计算与子图的搜索。关于相似度的计算，AI好老师系统利用余弦相似度计算，即基于知识图谱模式定义的育人问题影响因素，构建学生信息向量Vs与育人问题向量Vp，然后通过公式（1）所示的余弦相似度公式计算学生信息与育人问题的相似度，得出它们的匹配程度。关于相似子图的搜索，AI好老师系统利用穷举法，把学生信息与所有育人间题子图比较，相似度最高的即为学生的育人问题，然后将依据图谱总结的针对此问题的解决对策推荐给用户。

（四）人机智能对话引擎

AI好老师通过应用于育人领域的任务导向型对话系统实现智能育人助理的智能性。基于传统的管道模型，本研究设计了AI好老师的对话系统。由于当前语音自动识别和从文本到语音的转换技术已相对成熟，因此A好老师的对话系统设计（见图7）主要有四个功能模块：自然语言理解模块、对话状态跟踪模块、对话策略学习模块及自然语言生成模块。

1．自然语言理解模块

自然语言理解模块主要是对用户的输入文本进行语义理解，包括两方面：一是对用户意图的理解，如用户是想提出问题，还是回答系统的问题；二是针对用户的输人依据图谱定义的知识结构进行语义槽填充，如用户回答学生的年级是三年级时，需要识别出语义槽“年级”对应的值是“三年级”。语义槽填充的本质问题其实是序列标注问题，即针对用户的输入语句识别哪些词表示相关语义槽数值。针对自然语言理解的模型设计，常用的方法是构建两个不同的模型分别识别用户的意图和进行语义槽填充。最近，有研究尝试利用模型对两项任务同时进行优化求解，提高自然语言理解的准确率（ Li et al.，2017）。因此，本研究采用类似的方法构建模型，先利用LSTM模型对输入文本进行语义解析，然后用分类模型和CRF模型对用户意图和语义槽识别标

注，对结果进行优化。

此模型（见图8）包括三层：输入层、LSTM层和标注分类层。输入层是用户输入文本的词向量表示，主要基于知识图谱构建过程中词嵌入训练生成的词组向量。LSTM层的ISIM模型基于用户的输入文本词向量生成词组的隐藏语义向量。标注分类层包括两方面：一是基于LSTM层产生的隐藏向量，利用CRF模型，对输入文本的词组进行标注，判定其是否属于某一维度分类；二是利用 Maxpooling函数对所有词组的输出隐藏向量进行融合，生成新的表示输入文本语义的向量，然后利用全连接网络和Softmax多分类器，识别用户的意图。全连接网络和Softmax分类器与图5描述的模型类似，不再详述。模型的目标函数定义为最小化序列标注的损失和意图分类的损失，基于共同优化的方式进行训练。

2．对话状态跟踪模块

对话状态是对话系统内部对当前整个对话所处阶段的表示，融合了对话过程的上下文信息。传统的对话系统基于自然语言理解模块产生的结果，直接更新状态结构中相对应的语义槽，从而生成新的对话状态。然而，这种方法的容错性低，当自然语言理解模块识别出现错误时，此对话状态跟踪模块必然出现错误且没有办法加以更正。针对此问题，相关研究人员提出了基于概率模型的对话状态跟踪，即自然语言理解模块产生的结果不再是唯一的确定性结果，而是用概率表示每个语义槽的可能性。因此，对话状态的表示不再是0或1的二元表示，而是用概率表示每个状态的可能性。在状态更新过程中，根据上一时刻的对话状态和系统决策，及对当前用户输入的理解识别，重新计算新的对话状态。基于类似的理念，本研究设计了基于LSTM的深度学习模型（见图9）更新对话状态。LSIM的输入包括三方面信息：上一时刻的系统操作、当前的用户意图以及相应的语义槽信息。基于这三方面输人信息，结合上一时刻的对话状态向量，LSTM模型可以生成当前时刻新的对话状态向量。基于新的对话状态向量，此模块将进一步与知识图谱相结合生成潜在的答案选项，即利用知识图谱嵌入模型 Transg（Xiao et al.，2016）对知识图谱进行学习训练，生成关于每个育人问题的向量表示；通过与对话状态向量比较，计算每个问题与对话状态向量的相似度，并根据阈值选取相似的问题集，作为潜在的答案。

3．对话策略学习模块

针对对话策略，本研究采用规则与多分类器结合的模型。对话状态跟踪模块的结果包含：对话状态向量，相关案例个数的变量n，以及所有相似案例向量的集合。基于此结果，定义规则为：1）如果n的数值为0，则系统的决策是“没有找到案例”；2）如果n的数值为1，则系统的决策是“找到案例并返回。中的唯一案例”；3）如果n的数据大于1，则
基于多层前馈神经网的多分类模型（见图10）判定系统的决策。此模型的输入包括两部分：对话状态向量．和相似案例信息向量V。，其中，。中间层是神经网络模型的隐藏层。本模型的输出单元表示知识图谐构建过程中定义的育人同题相关因素，通过 Softmax函数转换成每个因素的概率，从中选取概率最大的因素作为系统下一步操作寻问的对象。

4．自然语言生成模块

自然语言生成模块负责根据系统的操作生成自然语言文本，与用户交互。例如，当系统的操作是“请求（年级）”时，对应的自然语言输出文本可以是：“您的学生几年级了？”AI好老师采用基于模板的方式实现自然语言生成。与对话策略学习模块的结果相对应，本模块包括三类：一是当系统操作是“没有结果”时，系统直接生成自然语句：“不好意思，针对您当前提供的用户信息，我们尚不能找到相应的案例作为答案。”二是当系统操作是“回复案例”时，系统利用模板对学生信息进行总结性描述，并给出相应的问题解决办法。例如，“当学生是男生，年级是三年级，有违反课堂纪律的行为表现，并… ...，我们建议的解决办法是：1）说服教育法；2）榜样示范法；3）…”；三是当系统策略是“请求（XXX）”时，根据模板，它生成相应的问句。例如，面对“请求（性别）”时，生成的语句是“您的学生性别是什么呢？”。基于这三类模板，系统可以很好地把对话策略判定模块生成的结果转化成用户可以理解的自然语言，形成自然对话的交互。

四、未来发展方向

利用人工智能领域的前沿技术，尤其是知识图谱、对话系统、自然语言处理及深度学习算法，本研究针对育人问题设计研发了智能育人助理AI好老师。通过自然语音交互，AI好老师可以主动询问获取学生的相关信息，判定学生的问题，并给出解决问题的对策，从而实现育人的自动化与智能化。未来我们将在以下几方面做AI好老师的提升工作。

（一）应用于机器人形态

未来，AI好老师将应用于机器人形态。目前AI好老师的设计主要集中在智能手机等移动终端，感观和交互方式相对有限。相对于智能手机，智能机器人更能在感观上给人以亲近真实感，让用户感到是和人真实交流。同时，智能机器人在交互上也更有优势，其语音交互更自然，机器人额外的感应设备如动感应器和摄像头等也为育人过程提供更多的情感计算服务，比如通过感知学生的情绪波动可以作出相应的反馈调整。此外，相对于智能手机的小屏幕，智能机器人提供大屏或投影，可更好地展示视频等资源。

（二）智能问答功能

AI好老师的功能集中在如何通过主动交流多轮对话了解学生的相关信息，从而智能地解析学生的问题，给出解决问题的策略。然而，教师和家长也需要育人的相关理论解释。例如，当AI好老师给出的建议是“使用说服教育法”时，教师和家长也许对“说服教育法”的含义及实施步骤不了解，这就需要AI好老师提供关于理论知识的智能问答，推荐学习资源，帮助教师和家长更好地解决育人问题。

（三）系统模型提升

本研究主要利用管道模型设计研发对话系统。未来，我们将结合人工智能的前沿算法，如利用注意力模型和神经记忆网络对案例信息和用户输入文本进行语义分析，利用深度增强学习对话策略进行学习，或利用最新的序列到序列模型训练端到端系统，整体提升系统功能。

（四）学生信息的自动识别

AI好老师的主要用户是教师和家长，因此关于学生问题的诊断分析主要基于教师或家长对学生性别、年级、违纪行为等信息的描述。这种方式需要教师或家长对学生的了解全面且准确。然而，教师或家长对学生的了解实际上有局限性和片面性。教师往往需要面对多个学生，很难做到准确全面地了解每个学生的动态，而家长难以全面掌握学生的在校实际表现。因此，AI好老师在实际使用中会因为学生信息的不准确而产生错误判断。针对这种情况，

我们将进一步开发学生信息的自动识别功能，通过与学生的交互记录，结合他们的其他维度信息，更精准全面地了解学生，判别存在的问题，并把解决方案推荐给教师和家长，解决学生真正的问题。

（五）主动抓取案例

当前人工智能研究主要利用数据驱动的方法。在大数据的背景下，利用人工智能的前沿算法模型形成各种智能化解决方案是未来发展趋势。本研究的AI好老师正是利用此方法，基于大量的育人案例，构建育人知识图谱，支持智能对话咨询，解决育人问题。然而，当前的案例数据量相对来说仍有限，如何设计更好的方案，形成简便迅捷自动化的案例搜集方案，扩充AI好老师数据集，是未来A好老师系统提升改进的基础。针对此问题，我们将为AI好

老师设计案例自动采集功能，在汇聚育人案例的同时借助用户的智慧升级改进A好老师智能。

基金项目：教育部哲学社会科学研究重大课题“‘互展网＋’教育体系研究”＂（16JZD043）；教育部人文社会科学研究青年基金项目（17YJCZH16）。

作者简介：陈鹏鹤，博士，副研究员，北家师范大学未来教育高精尖创新中心，研究方向：人工智能教育应用；彭满，项士研究生，北京师范大学教育学部教育技术学院，研究方向：人工智能教育应用；余胜泉，博士，教授，北家师范大学未未教育高精尖创新中心，研究才向：人工智能教育应用、教育大数据、移动教育与泛在学习、区域性教育信息化等。

转载自：《开放教育研究》2019年4月第25卷第2期

排版、插图来自公众号：MOOC（微信号：openonline）

新维空间站相关业务联系：

刘老师 13901311878

孙老师 17316022016

邓老师 17801126118

微信公众号又双叒叕改版啦

快把“MOOC”设为星标

不错过每日好文☟

喜欢我们就多一次点赞多一次分享吧~

有缘的人终会相聚，慕客君想了想，要是不分享出来，怕我们会擦肩而过~

《预约、体验——新维空间站》

《【会员招募】“新维空间站”1年100场活动等你来加入》

《有缘的人总会相聚——MOOC公号招募长期合作者》

产权及免责声明本文系“MOOC”公号转载、编辑的文章，编辑后增加的插图均来自于互联网，对文中观点保持中立，对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证，不对文章观点负责，仅作分享之用，文章版权及插图属于原作者。如果分享内容侵犯您的版权或者非授权发布，请及时与我们联系，我们会及时内审核处理。

了解在线教育，
把握MOOC国际发展前沿，请关注：
微信公号：openonline
公号昵称：MOOC

登录查看更多

“AI好老师”智能育人助力系统关键技术

相关内容