项目名称: 多标记文本数据流分类方法研究

项目编号: No.61503112

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 其他

项目作者: 李培培

作者单位: 合肥工业大学

项目金额: 22万元

中文摘要: 现实世界中的数据流尤其是文本数据流(例如:微博博文数据、网络购物评论数据等)数据含多个标记的现象,使得面向单标记数据流处理的分类算法难以直接使用。而数据流的海量、快速、多变等特点,又使得传统的多标记数据分类方法面临挑战。因此,本课题拟开展在线多标记文本数据流分类方法研究,重点研究基于实体语义上下文特征表示等策略的在线多标记数据分类方法。在文本数据流实体识别与语义上下文特征表示研究的基础上,开展标记间依赖关系、特征与标记映射关系的形式化表示方法与在线特征选择方法研究,进而开展在线多标记文本数据流分类模型的构建、更新与评估等方面的研究;再次,研究多标记数据流环境下的数据分布变化的检测与预测方法,探索特征与标记的映射关系变化和噪音对数据分布变化影响的定性与定量关系,构建相应的度量标准与评价体系。基于上述研究,以微博博文分类为例,设计并实现面向Web服务应用领域的多标记数据流分类的原型系统。

中文关键词: 多标记;数据流;分类;数据分布变化

英文摘要: Most existing works on data stream classification are only suitable for single-label data streams. It is a challenge to apply them in the real-world data streams specially the text data streams (including the Weibo articles and the online shopping reviews) where instances have multi-labels. Meanwhile, when performing classification on data streams, traditional techniques for multi-label data classification have a relatively poor efficiency in both time and space due to the characteristics of data streams. Therefore, in our proposal, we focus on the study of online learning methods for multi-label Web data streams, especially on the study of online methods based on the feature representation of the semantic contexts of terms etc. More specifically, we first design new techniques of term recognition and feature representation of the semantic contexts in multi-label text data streams, and then we study the label dependence and matching functions between features and labels, and the online feature selection-based formalization methods. Correspondingly, we design the effectively and efficiently online multi-label data stream classification models and the corresponding evaluation measures. Secondly, we focus on the detection and prediction of the data distribution changing using the above multi-label data stream learning models. Meanwhile, we analyze the qualitative and quantitative relationship between the data distribution changing and the changing of matching functions between features and labels and noisy data, and then propose the corresponding evaluation measures. Lastly, we apply our methods into labeling the contents of Weibo articles and design a prototype classification system for multi-label data streams.

英文关键词: Multi-label;Data Stream;Classification;Concept Changing

成为VIP会员查看完整内容
2

相关内容

【NeurIPS2021】由相似性迁移的弱样本细粒度分类
专知会员服务
20+阅读 · 2021年11月11日
专知会员服务
67+阅读 · 2021年8月20日
专知会员服务
29+阅读 · 2020年9月18日
【文本分类大综述:从浅层到深度学习,35页pdf】
专知会员服务
183+阅读 · 2020年8月6日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
零样本图像分类综述 : 十年进展
专知会员服务
122+阅读 · 2019年11月16日
微软、UIUC韩家炜组联合出品:少样本NER最新综述
别找了,送你 20 个文本数据集
机器学习算法与Python学习
66+阅读 · 2019年5月17日
基于深度迁移学习进行时间序列分类
PaperWeekly
14+阅读 · 2018年11月15日
就喜欢看综述论文:情感分析中的深度学习
机器之心
13+阅读 · 2018年1月26日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
13+阅读 · 2022年1月20日
A Survey on Data Augmentation for Text Classification
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
72+阅读 · 2018年12月22日
Arxiv
151+阅读 · 2017年8月1日
小贴士
相关VIP内容
【NeurIPS2021】由相似性迁移的弱样本细粒度分类
专知会员服务
20+阅读 · 2021年11月11日
专知会员服务
67+阅读 · 2021年8月20日
专知会员服务
29+阅读 · 2020年9月18日
【文本分类大综述:从浅层到深度学习,35页pdf】
专知会员服务
183+阅读 · 2020年8月6日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
零样本图像分类综述 : 十年进展
专知会员服务
122+阅读 · 2019年11月16日
相关资讯
微软、UIUC韩家炜组联合出品:少样本NER最新综述
别找了,送你 20 个文本数据集
机器学习算法与Python学习
66+阅读 · 2019年5月17日
基于深度迁移学习进行时间序列分类
PaperWeekly
14+阅读 · 2018年11月15日
就喜欢看综述论文:情感分析中的深度学习
机器之心
13+阅读 · 2018年1月26日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
相关论文
微信扫码咨询专知VIP会员