项目名称: 文本多粒度关系抽取半监督自适应学习的研究

项目编号: No.61202135

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 计算机科学学科

项目作者: 陈一飞

作者单位: 南京审计学院

项目金额: 24万元

中文摘要: 自动提取文本中的语义关系是文本挖掘和机器学习的重要研究内容。本项目旨在构建多粒度关系抽取的半监督自适应学习方法,可在拥有少量已标注样本和大量未标注样本的前提下,自动提取不同层次的多类别复杂相互关系,并将此学习方法应用于生物文本中的蛋白质相互关系抽取中。项目的主要研究内容包括:(1)构建一个改进的启发式快速半监督支持向量机学习方法,为高效、可规模化的多类分类半监督学习增加新的研究内容;(2)提出自适应分类模型,利用主动学习对半监督学习的优化,进一步提高半监督学习的性能和效率;(3)深入研究提取复杂文本中描述关系的全局和局部特征,融合多粒度的先验知识,提出统一的多粒度学习框架。同时,这个框架也可以应用于其他有大量未标注样本和多粒度信息抽取的领域。(4)将理论模型应用于蛋白质相互关系抽取的文本挖掘研究中,建立多粒度、多类别关系的自动提取系统,是解决生物学问题的新方法,具有很高理论和实用价值。

中文关键词: 文本挖掘;多粒度关系抽取;半监督学习;自适应学习;支持向量机

英文摘要: Automatic extraction of semantic relations in text is an important research content of the text mining and machine learning.This project aims to establish a new semi-supervised adaptive learning framework for multi-granularity relationship extraction, and applies to protein-protein interaction relation extraction in biomedical literature. The project's main research topics include: (1) To propose a theoretical framework of improved heuristic fast semi-supervised support vector machines,which adds new content for the efficient and large-scale semi-supervised learning; (2)To build a new multi-granularity adaptive classification model, which integrates active learning and semi-supervised learning and proposes a new adaptive learning theory framework; (3) To establish a multi-granularity multi-classifier to do relation extraction task. Moreover, this classifier can be applied to other application areas with a large number of unlabeled samples and high dimensional feature vectors; (4) To apply the proposed theoretical model in the protein-protein interaction relation extraction of text mining study. Make use of the integration of semi-supervised learning and active learning, extracting the rich, multi-granularity features based on natural language structure and biological domain information, a new machine learning f

英文关键词: text mining;multi-granularity relationship extraction;semi-supervised learning;adaptive learning;support vector machines

成为VIP会员查看完整内容
4

相关内容

【NeurIPS2021】由相似性迁移的弱样本细粒度分类
专知会员服务
20+阅读 · 2021年11月11日
专知会员服务
37+阅读 · 2021年9月15日
专知会员服务
34+阅读 · 2021年8月19日
专知会员服务
38+阅读 · 2021年6月13日
专知会员服务
44+阅读 · 2021年1月31日
专知会员服务
31+阅读 · 2020年9月2日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
论文浅尝 | 面向开放域的无监督实体对齐
开放知识图谱
1+阅读 · 2021年8月24日
远程监督在关系抽取中的应用
深度学习自然语言处理
12+阅读 · 2020年10月26日
【关系抽取】从文本中进行关系抽取的几种不同的方法
深度学习自然语言处理
29+阅读 · 2020年3月30日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
26+阅读 · 2020年3月1日
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
赛尔笔记 | 自然语言处理中的迁移学习(上)
哈工大SCIR
16+阅读 · 2019年10月17日
ACL 2019 | 面向远程监督关系抽取的模式诊断技术
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
10+阅读 · 2017年7月4日
小贴士
相关VIP内容
【NeurIPS2021】由相似性迁移的弱样本细粒度分类
专知会员服务
20+阅读 · 2021年11月11日
专知会员服务
37+阅读 · 2021年9月15日
专知会员服务
34+阅读 · 2021年8月19日
专知会员服务
38+阅读 · 2021年6月13日
专知会员服务
44+阅读 · 2021年1月31日
专知会员服务
31+阅读 · 2020年9月2日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
相关资讯
论文浅尝 | 面向开放域的无监督实体对齐
开放知识图谱
1+阅读 · 2021年8月24日
远程监督在关系抽取中的应用
深度学习自然语言处理
12+阅读 · 2020年10月26日
【关系抽取】从文本中进行关系抽取的几种不同的方法
深度学习自然语言处理
29+阅读 · 2020年3月30日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
26+阅读 · 2020年3月1日
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
赛尔笔记 | 自然语言处理中的迁移学习(上)
哈工大SCIR
16+阅读 · 2019年10月17日
ACL 2019 | 面向远程监督关系抽取的模式诊断技术
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员