一种基于序列标注的MOOC知识点抽取方法

2017 年 11 月 10 日 科技创新与创业 朱纪乐

DASFAA 2017 Workshop

原文连接：https://link.springer.com/chapter/10.1007/978-3-319-55705-2_24

作者：Zhuoxuan Jiang, Yan Zhang, and Xiaoming Li (Peking University)

一、研究背景

思路和研究意义：MOOC上的文本数据不完全是结构化的（例如视频字幕是有老师切分得到的，因此是结构化的，但论坛帖子是学生自发的，因此不是结构化的），所以需要用基于知识点的方式进行组织管理，进一步可以做concept map，跨领域知识分析以及个性化学习等工作。

研究内容：根据文本内容抽取知识点

难点挑战：1）需要一个普适的方法，不依赖于课程设计和老师授课方式；2）获取有label的训练集比较困难

解决方案：看成是一个NLP的序列标注问题，改进原来的CRF模型，变成一个半监督模型框架，减少标注任务量

二、相关工作

信息抽取方面：key phrase extraction, terminology extraction, and named entity recognition，MOOC知识点特别之处在于不仅仅是垂直领域下的，而且还是跨领域的

序列标注方面：有用规则的，有用机器学习方法的，区别是MOOC上不仅仅是要抽取领域相关的信息，而且要找普遍的knowledge concept

MOOC数据挖掘：介绍了一下MOOC上（尤其是论坛上）的Machine Learning研究

三、算法模型

主要算法就是用条件随机场CRF，根据给定的单词序列，去标注每个单词是否是一个知识点的组成部分（感觉比标注词性容易的task）

word的特征工程：5类

1）Text Style：是不是英文，周围的词是不是英文，第一个词，最后一个词，在引号中的词

2）Structure：（这个词/前一个词/后一个词）Part-of-Speech tag

3）Context：TF-IDF，BM25（以及bi-gram和前后词的variant）

4）Semantic：Word2Vec（与前后词的语义相似度）

5）Dictionary：是否在通用词典中出现

推断过程：极大似然+正则化，L-BFGS训练参数，维特比算法求解最优序列

半监督学习算法框架：借鉴了KNN和self learning的思路，先有一部分标注，可以训练得到一个CRF，每次选出未标注中与现有集合最相似的序列进行标注，重新训练CRF，循环标注所有其他的序列

四、实验

label set = {not a concept, the beginning word of a concept, the middle word of a concept}

Baselines：Term Frequency，Bootstraping，Stanford Chinese NER，Terminology Extraction，Supervised Concept-CRF，Semi-supervised Concept-CRF

实验：

1）模型对比，尤其是全监督和半监督；

2）语料内标注：subtitle训练，subtitle测试；

3）语料间标注：subtitle训练，PPT测试；

4）Feature Contribution。

五、可以借鉴的地方

1）抽取知识点的一种方式，转化成序列标注问题

2）从全监督到半监督学习框架的转换

登录查看更多

相关内容

序列标注

关注 0

【ICML2020】持续终身学习的神经主题建模

专知会员服务

39+阅读 · 2020年6月22日

【华南理工】最新《场景文本识别》2020综述论文，34页系统性阐述60+STR方法体系进展

专知会员服务

37+阅读 · 2020年5月9日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【ACL2019】基于学习注意力机制的知识图谱中关系预测的嵌入 Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs

专知会员服务

122+阅读 · 2020年3月29日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

38+阅读 · 2020年2月18日

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

学习自然语言处理路线图

专知会员服务

140+阅读 · 2019年9月24日

基于句子嵌入的无监督文本摘要（附代码实现）

PaperWeekly

23+阅读 · 2020年2月4日

NeurIPS 2019 | 一种对噪音标注鲁棒的基于信息论的损失函数

机器之心

7+阅读 · 2019年11月21日

论文浅尝 | 利用关系标签的主题语义知识为关系抽取提供监督 (IJCAI 2019)

开放知识图谱

16+阅读 · 2019年8月17日

CVPR2019 | （Oral）视频跟踪新思路，完全无需手工标注

极市平台

27+阅读 · 2019年4月22日

COLING 2018 最佳论文解读：序列标注经典模型复现

PaperWeekly

11+阅读 · 2018年7月2日

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

哈工大SCIR

22+阅读 · 2018年6月12日

春节充电系列：李宏毅2017机器学习课程学习笔记26之结构化学习-序列标注 Sequence Labeling（part 2）

专知

12+阅读 · 2018年3月13日

【知识图谱】基于神经网络的实体识别和关系抽取联合学习

产业智能官

25+阅读 · 2017年12月6日

基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54

PaperWeekly

13+阅读 · 2017年12月4日

基于新标注模式的实体和关系联合抽取方法 | 每周一起读

PaperWeekly

9+阅读 · 2017年6月29日

A Survey on Contextual Embeddings

Arxiv

29+阅读 · 2020年3月16日

BERT-Based Multi-Head Selection for Joint Entity-Relation Extraction

Arxiv

6+阅读 · 2019年9月26日

OmniNet: A unified architecture for multi-modal multi-task learning

Arxiv

6+阅读 · 2019年7月17日

Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs

Arxiv

40+阅读 · 2019年6月4日

Jointly Learning to Label Sentences and Tokens

Arxiv

3+阅读 · 2018年11月14日

Seq2Seq2Sentiment: Multimodal Sequence to Sequence Models for Sentiment Analysis

Arxiv

5+阅读 · 2018年8月6日

A Stochastic Decoder for Neural Machine Translation

Arxiv

5+阅读 · 2018年5月28日

A Study of Recent Contributions on Information Extraction

Arxiv

6+阅读 · 2018年3月15日

Joint Training for Neural Machine Translation Models with Monolingual Data

Arxiv

4+阅读 · 2018年3月1日

Convolutional Sequence to Sequence Learning

Arxiv

4+阅读 · 2017年7月25日

VIP会员