给定为一节课堂录音切分出的片段序列,记为,其中表示这节课中的第 i 句对话,N 表示这节课的总对话数。令表示对应的标签序列,记为,其中表示每个音频片段的说话人是学生还是老师。对于每个片段,我们提取它的音频特征和文本特征。和分别表示两种特征的维度。令和表示片段序列的音频特征和文本特征,其中。结合上文提到的课堂活动检测任务的内容,我们现在可以将此任务定义为一个序列标注问题:给定一个课堂录音片段序列及其对应的音频特征和文本特征,我们的目标是找到最有可能的课堂活动类别序列:
其中 Y 为所有可能的标签序列。
2、相关工作
通过课堂音频或者视频对于老师和学生的课堂行为研究具有很长的历史,例如,Owens[1]等人提出了DART系统(Decibel Analysis for Research in Teaching),用来分析预测课堂中花费在单独说话(如:演讲),混合说话(如:讨论)或者无人说话(如:思考问题)等活动上的时间。Cosbey[2]等人通过使用RNN网络对DART系统的表现进行了提升。Mu[3]等人提出了ACODEA框架(Automatic Classification of Online Discussions with Extracted Attributes)用来对在线讨论进行全自动的切割和分类。与我们的研究最相似的,是Wang[4]等人提出的LENA系统,他们基于此系统对课堂中的三种活动进行了识别:教师讲课、课堂讨论以及学生小组活动。我们与Wang等人的研究的不同之处在于:我们提出了一种全新的多模态注意力机制,用于在真实课堂环境中进行课堂活动检测。而Wang等人的研究仍然需要教师全程佩戴LENA系统,从而可以通过音量与音色的差异来区分学生和老师的说话时间段。对于本文定义的目标任务,一种简单直观的方法是将说话人分离与说话人角色识别作为两个独立的模型,采用两阶段结合的方式进行连接。这也是在已有研究中被实践且证实有效的方法。然而,这种两阶段方法存在着一些明显的弊端:首先,不同阶段的模型所产生的误差会在整个预测流程中进行积累,导致最终结果的不准确;其次,两个独立任务分别优化是非常缺乏效率的,单一阶段的优化并不能完全保证最终结果的提升;最后也是最重要的,由于两个阶段的分离,多模态信息之间的交互被完全忽略了。 3
技术细节
1、数据描述
图1(a):课堂活动检测数据形式在正式开始介绍我们的方法之前,首先描述一下本文实验所基于的数据形式。首先,我们的音频数据均来源于教室内单一的麦克风,收录了整节课堂的完整录音。我们的文本数据来源于使用自动语音识别(ASR)系统对麦克风收录得到的课堂录音进行转录得来。图1(a)中展示了一段学生与老师的对话数据,图中文本框的颜色区分了不同的说话人,蓝色文本框表示老师说话内容,黄色文本框表示学生说话内容。从图中我们可以看出,对话的内容包含大量的信息,其中一些句子可以非常容易的分辨出说话人的角色。以第三个句子为例,该说话人说:“How is your day in school”,从句子的内容可以很容易的判断出该说话人应该是老师。然而,并不是所有的句子都像这样容易判断,比如图中对话的前两句问候语句,很难分辨出说话人是老师还是学生。图1(b):课堂活动检测数据形式为了解决这些通用对话内容造成的说话人角色难以分辨的问题,我们想到了使用同一说话人所说的其他具有角色特点的语句一同帮助进行判断,如图1(b)中所示。举例来说,图中展示的第一句对话很难分辨出说话人角色,但如果我们知道第一句话与第三句话属于同一个人说的,那我们可以很轻易的判断出第一句话也是老师所说。至于如何判断出第一句话与第三句话属于同一个说话人所说,则需要从音频信息入手,通过两句话的说话人音色的相似度进行判断。在这里,音频信息的作用像是一座桥梁,将同一说话人的对话信息连接整合到了一起使它们易于判断。
[1] Melinda T Owens, Shannon B Seidel, MikeWong, Travis E Bejines, Susanne Lietz, Joseph R Perez, Shangheng Sit,ZahurSaleh Subedar, Gigi N Acker, Susan F Akana, et al.,“Classroom sound can beused to classify teaching practices in college science courses,” Proceedings ofthe National Academy of Sciences, vol. 114, no. 12, pp. 3085–3090, 2017.[2] Robin Cosbey, Allison Wusterbarth, andBrian Hutchinson, “Deep learning for classroom activity detection from audio,”in ICASSP. IEEE, 2019, pp. 3727–3731.[3] Jin Mu, Karsten Stegmann, ElijahMayfield, Carolyn Rose, and ´ Frank Fischer, “The acodea framework: Developingsegmentation and classification schemes for fully automatic analysis of onlinediscussions,” International Journal of Computersupported CollaborativeLearning, vol. 7, no. 2, pp. 285–305, 2012.[4] Zuowei Wang, Xingyu Pan, Kevin FMiller, and Kai S Cortina, “Automatic classification of activities in classroomdiscourse,” Computers & Education, vol. 78, pp. 115–123, 2014.[5] Li Wan, Quan Wang, Alan Papir, andIgnacio Lopez Moreno, “Generalized end-to-end loss for speaker verification,”in ICASSP. IEEE, 2018, pp. 4879–4883.[6] Quan Wang, Carlton Downey, Li Wan,Philip Andrew Mansfield, and Ignacio Lopz Moreno, “Speaker diarization withlstm,” in ICASSP. IEEE, 2018, pp. 5239–5243.[7] Aonan Zhang, Quan Wang, Zhenyao Zhu,John Paisley, and Chong Wang, “Fully supervised speaker diarization,” inICASSP. IEEE, 2019, pp. 6301–6305.