项目名称: 基于弱监督学习的水果品种信息自动抽取方法研究

项目编号: No.61503386

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 自动化技术、计算机技术

项目作者: 陈瑛

作者单位: 中国农业大学

项目金额: 20万元

中文摘要: 中国水果种质资源信息服务需要完整的水果品种名称知识库,而人工构建和维护这种知识库费时费力。本项目拟采用信息抽取技术自动扩充已有的水果品种名称知识库。考虑到网络百科和电商广告提供了大量的水果品种信息,本项目选择对这两种文本展开深入研究,提出了一种基于弱监督学习的水果品种信息抽取方法。首先,针对面向农业领域的中文分词性能不足问题,提出了一种基于语言结构的词项对提取方法,其根据话题结构理论进行词项对的提取,避开了中文分词问题。其次,针对已有知识库覆盖率低的问题,提出了一个基于图的关系推理方法,其通过基于图的推理技术有效利用不同结构文本中的冗余信息进行关系识别。最后,针对远距离关系识别中的特征信息高噪音问题,提出了一种基于卷积神经网络的特征提取方法,其利用话题结构从篇章角度有效进行特征提取。本项目的深入研究将为农业信息化发展提供重要基础,同时能够促进基于弱监督学习机制的信息抽取技术理论研究的发展。

中文关键词: 信息抽取;;弱监督学习;话题结构;深度学习;图模型

英文摘要: The information services for fruit variety information need a complete set of fruit variety names. However, it is high-cost to construct and maintain a knowledge base of fruit variety names. Therefore, we determine to use the technology of information extraction to populate the current knowledge base of fruit variety names..There are two types of texts used in our project: online advertisements and an online encyclopedia. The two types of texts not only provide large-scale information about fruit varieties, but also reflect the real expressions of fruit varieties. Based on the two types of texts, we propose a weakly-supervised information extraction method. Firstly, because Chinese word segmentation cannot work well for agriculture-based texts, we propose a linguistic-structure-based word extraction method which uses topical structures to extract pairs of words. Secondly, because the coverage of current knowledge base of fruit variety names is low, we propose a relation induction method based on a graph-based model,which uses the redundant information in structured texts and free texts. Thirdly, because of the noisy features in a long-distance relation detection method, we propose a document-level feature extraction method which uses topical structures to extract position features and then uses convolutional deep neural network to aggregate features. .Overall, our project can not only can provide an important basis for the development of agricultural information, but also can promote the development of the theoretical research on information extraction technologies.

英文关键词: information extraction;weakly-supervised learning; topical structures;deep learning;graph-based models

成为VIP会员查看完整内容
1

相关内容

知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。
专知会员服务
87+阅读 · 2021年9月4日
专知会员服务
26+阅读 · 2021年8月24日
专知会员服务
34+阅读 · 2021年8月19日
专知会员服务
50+阅读 · 2021年8月13日
专知会员服务
20+阅读 · 2021年4月15日
专知会员服务
60+阅读 · 2021年3月25日
【博士论文】辨识性特征学习及在细粒度分析中的应用
专知会员服务
29+阅读 · 2020年12月10日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
面向司法案件的案情知识图谱自动构建
专知会员服务
125+阅读 · 2020年4月17日
基于深度学习的流行度预测研究综述
专知
0+阅读 · 2021年3月24日
远程监督在关系抽取中的应用
深度学习自然语言处理
12+阅读 · 2020年10月26日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月17日
Chinese Idiom Paraphrasing
Arxiv
0+阅读 · 2022年4月15日
Arxiv
13+阅读 · 2022年1月20日
小贴士
相关VIP内容
专知会员服务
87+阅读 · 2021年9月4日
专知会员服务
26+阅读 · 2021年8月24日
专知会员服务
34+阅读 · 2021年8月19日
专知会员服务
50+阅读 · 2021年8月13日
专知会员服务
20+阅读 · 2021年4月15日
专知会员服务
60+阅读 · 2021年3月25日
【博士论文】辨识性特征学习及在细粒度分析中的应用
专知会员服务
29+阅读 · 2020年12月10日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
面向司法案件的案情知识图谱自动构建
专知会员服务
125+阅读 · 2020年4月17日
相关资讯
基于深度学习的流行度预测研究综述
专知
0+阅读 · 2021年3月24日
远程监督在关系抽取中的应用
深度学习自然语言处理
12+阅读 · 2020年10月26日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员