项目名称: 跨领域信息抽取方法及其在数字图书中的应用研究

项目编号: No.61303097

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 朱文浩

作者单位: 上海大学

项目金额: 23万元

中文摘要: 在信息爆炸的背景下,利用信息抽取从半结构化和非结构化文本中抽取结构化信息已经成为数据库、互联网、知识发现、语义网以及信息检索等多个领域的重要支撑技术之一。 根据国内外研究现状,信息抽取技术研究的核心问题之一是如何设计抽取方法,使其能快速适应知识主题和文本形式的变化,实现跨领域抽取。课题的研究将针对该问题,通过分解领域相关特征,构建多层次特征模型,实现一种跨领域信息抽取方法。基于该方法,实现一种以反馈方式迭代优化特征选择和组合的信息抽取系统。在此基础上,课题还将以数字图书为应用对象,结合图书元数据和多层次特征模型,通过领域相似度计算获取更多具有代表性的样本,提高抽取效果。 课题的研究有望在信息抽取特征模型理论研究方面取得突破,实现一种能快速适应领域变化的信息抽取方法以及一个有效的信息抽取系统。同时,研究应用面向数字图书,促进基于数字图书的知识服务的发展。在理论和应用两个方面均有显著的意义。

中文关键词: 信息抽取;跨领域;特征模型;;

英文摘要: With the movement of information explosion, information extraction, which can extract structured information out of semi-structured and unstructured text data, is becoming a significant technology of many research areas including database, World Wide Web, knowledge discovery, semantic web, information retrieval etc. The analysis on current research development shows that one of the key problems of information extraction is to design a cross domain extraction procedure that can adapt different domain topics and text formats. The research of this project is to give a corresponding solution to this problem by breaking down domain relevant features and establishing an extraction method based on multi-level feature model. Based on the feature model, the research of the project will also implement a system with a feedback mechanism to optimize the feature selection and combination. Additionally, by using book metadata and the feature model, the research will aim to improve the extraction performance by locating more representative samples through domain similarity calculation with respect to digital books. Hopefully, this research is going to form a theory on the feature modeling of cross domain information extraction, and to implement an information extraction method that can adapt domain variations and a effective e

英文关键词: information extraction;cross domain;feature model;;

成为VIP会员查看完整内容
1

相关内容

知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。
知识图谱研究现状及军事应用
专知会员服务
191+阅读 · 2022年4月8日
「实体对齐」最新2022综述
专知会员服务
132+阅读 · 2022年3月15日
迁移学习方法在医学图像领域的应用综述
专知会员服务
59+阅读 · 2022年1月6日
北航《深度学习事件抽取》文献综述和当前趋势
专知会员服务
83+阅读 · 2021年7月6日
知识图谱在智能制造领域的研究现状及其应用前景综述
专知会员服务
157+阅读 · 2021年2月25日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
194+阅读 · 2020年10月14日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【图谱构建】图谱构建之知识抽取
AINLP
20+阅读 · 2020年5月5日
【中科院】命名实体识别技术综述
专知
16+阅读 · 2020年4月21日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
连载 | 知识图谱发展报告 2018 -- 前言
开放知识图谱
18+阅读 · 2018年10月7日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
37+阅读 · 2017年9月12日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
13+阅读 · 2022年1月20日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
小贴士
相关VIP内容
知识图谱研究现状及军事应用
专知会员服务
191+阅读 · 2022年4月8日
「实体对齐」最新2022综述
专知会员服务
132+阅读 · 2022年3月15日
迁移学习方法在医学图像领域的应用综述
专知会员服务
59+阅读 · 2022年1月6日
北航《深度学习事件抽取》文献综述和当前趋势
专知会员服务
83+阅读 · 2021年7月6日
知识图谱在智能制造领域的研究现状及其应用前景综述
专知会员服务
157+阅读 · 2021年2月25日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
194+阅读 · 2020年10月14日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
相关资讯
【图谱构建】图谱构建之知识抽取
AINLP
20+阅读 · 2020年5月5日
【中科院】命名实体识别技术综述
专知
16+阅读 · 2020年4月21日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
连载 | 知识图谱发展报告 2018 -- 前言
开放知识图谱
18+阅读 · 2018年10月7日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
37+阅读 · 2017年9月12日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员