项目名称: 问答式信息检索中信息抽取技术研究

项目编号: No.60803086

项目类型: 青年科学基金项目

立项/批准年度: 2009

项目学科: 金属学与金属工艺

项目作者: 杜永萍

作者单位: 北京工业大学

项目金额: 18万元

中文摘要: 问答式信息检索是新一代的搜索引擎,可接收自然语言描述的问题作为查询,在文档集中抽取问题的答案作为搜索引擎的返回结果,它更贴近用户的需求,是一具有广泛应用前景的研究领域。 本项目研究问答式信息检索中的核心技术,即智能化的信息抽取,包括通过模式学习与模式优化构建知识源;挖掘语义关联,基于机器学习方法建立蕴含关系识别模型;以及基于依存关系句法结构进行关联分析;最终,将不同的方法策略应用到Web问答式信息检索(海量信息问答式检索)与阅读理解任务(单文档问答式检索)中,实现答案信息抽取,检验其有效性。 本项目的研究建立了具备一定规模的模式知识库,共包含180种不同的问题类型,4261个答案模式;在语义蕴含关系识别研究中采用分类器Adaboost和SVM在TAC数据集中均取得了较优的性能,准确率可以达到60%以上,基于语义链的特征取得了较好的效果,进行t检验的结果表明系统性能得到显著的提高(p<0.05)。本项目的实施对发展新一代搜索具有一定的促进作用。

中文关键词: 问题回答;阅读理解;信息抽取;自然语言处理

英文摘要: Open Domain Question Answering (QA) represents an advanced application of natural language processing. The goal of QA is to retrieve answers to natural language questions rather than the documents as most information retrieval systems currently do. The technique of intelligent information extraction is studyed in the project and this is the kernal technology in question answering. The pattern knowledge resource has been constructed during the process of the pattern learning and optimization. Mining the semantic relation is important in QA and the model of entailment has been studied, which is based on the machine learning method. In addition, the relation analysis based on the syntactic structure also give the help for answer information extraction. Finally, different techniques are applied to both the field of multi-documents question answering and single document reading comprehension for information extraction. There are about 180 kinds of question type and 4261 answer patterns in the pattern knowledge resource. During the process of semantic entailment recognition, the classifier of Adaboost and SVM achieve the better performance on the TAC evaluation data set and the precision is above 60%. The t-test result shows that the lexical chain feature makes the system performance get the significant improvements(p&lt;0.05). The implementation of the project will promote the development of the information retrieval technology.

英文关键词: Question Answering; Reading Comprehension; Information Extraction; Natural Language Processing

成为VIP会员查看完整内容
3

相关内容

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务:让机器像人类一样阅读文本,进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
军事知识图谱构建技术
专知会员服务
125+阅读 · 2022年4月8日
开放领域知识图谱问答研究综述
专知会员服务
61+阅读 · 2021年10月30日
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
20+阅读 · 2021年7月19日
专知会员服务
35+阅读 · 2020年11月29日
专知会员服务
195+阅读 · 2020年10月14日
专知会员服务
31+阅读 · 2020年9月2日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
77+阅读 · 2020年5月24日
基于文档的对话技术研究
专知
2+阅读 · 2022年2月20日
【图谱构建】图谱构建之知识抽取
AINLP
20+阅读 · 2020年5月5日
哈工大SCIR八篇论文被EMNLP-IJCNLP 2019录用
哈工大SCIR
23+阅读 · 2019年8月14日
论文浅尝 | 基于知识库的自然语言理解 03#
开放知识图谱
14+阅读 · 2019年2月26日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
徐阿衡 | 知识抽取-实体及关系抽取(一)
开放知识图谱
41+阅读 · 2018年9月18日
知识计算组实体对齐工作在ICBK2017学术会议上获得最佳学生论文奖
中国科学院网络数据重点实验室
25+阅读 · 2017年8月22日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
24+阅读 · 2021年1月25日
小贴士
相关VIP内容
军事知识图谱构建技术
专知会员服务
125+阅读 · 2022年4月8日
开放领域知识图谱问答研究综述
专知会员服务
61+阅读 · 2021年10月30日
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
20+阅读 · 2021年7月19日
专知会员服务
35+阅读 · 2020年11月29日
专知会员服务
195+阅读 · 2020年10月14日
专知会员服务
31+阅读 · 2020年9月2日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
77+阅读 · 2020年5月24日
相关资讯
基于文档的对话技术研究
专知
2+阅读 · 2022年2月20日
【图谱构建】图谱构建之知识抽取
AINLP
20+阅读 · 2020年5月5日
哈工大SCIR八篇论文被EMNLP-IJCNLP 2019录用
哈工大SCIR
23+阅读 · 2019年8月14日
论文浅尝 | 基于知识库的自然语言理解 03#
开放知识图谱
14+阅读 · 2019年2月26日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
徐阿衡 | 知识抽取-实体及关系抽取(一)
开放知识图谱
41+阅读 · 2018年9月18日
知识计算组实体对齐工作在ICBK2017学术会议上获得最佳学生论文奖
中国科学院网络数据重点实验室
25+阅读 · 2017年8月22日
相关基金
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员