项目名称: 基于多源信息融合的元数据自动抽取方法研究

项目编号: No.61202232

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 计算机科学学科

项目作者: 高良才

作者单位: 北京大学

项目金额: 21万元

中文摘要: 如何从非结构化或半结构化文本中自动获取元数据信息,即元数据抽取问题,是当前数字图书馆乃至整个信息服务领域的研究热点与难点之一。现有方法仅依赖文档本身的内容信息,难以逾越信息缺失与自身内容错误等障碍,不可避免地要引入大量人工审校,对抽取结果进行修正和补全。为此,本项目拟研究基于多源信息融合的元数据抽取方法,通过挖掘文档和外部数据的关系,构建多来源元数据信息的搜集与融合机制,充分发挥外部数据对抽取结果的修正与补偿作用,实现元数据的准确、全面抽取,突破现有方法的局限性。具体地,本项目将围绕种子元数据的生成、外部元数据的搜索、多源元数据的融合等关键问题,研究基于组合优化策略的种子元数据抽取方法、具有自适应性的元数据搜索策略、基于能量最小化模型的元数据信息融合算法、基于统计反馈的数据源质量评估体系等,为元数据抽取提供一个新的手段。其研究成果将大幅度提高元数据采集技术的自动化水平。

中文关键词: 元数据;信息抽取;信息融合;信息检索;

英文摘要: How to capture the metadata information from the unstructured and semi-structured texts, namely metadata extraction, is one of the major challenges and focuses in digital library, and even in the whole information service domain. The existing methods on metadata extraction primarily rely on the content analysis of texts. However, the results from such content-based methods often contain text errors and the extracted metadata is only a small part of the relevant metadata of resources. As a result, heavy manual correction and enrichment is needed to obtain accurate and complete metadata. Therefore, our project proposes an automatic metadata extraction method based on multi-source information fusion. Depending on the relationship between resources and external data, our proposed method first constructs the searching and fusion mechanism of multiple sources of metadata, and employs the metadata from external data sources to correct and complement the extracted results of content-based methods. Also, our method can break through the limitation of the existing methods, and achieve much more precise and comprehensive metadata. This project would focus on multiple key problems, such as seed metadata generation, external metadata search and collection, multi-source metadata fusion, etc. Overall, our project will have the

英文关键词: Metadata;Information Retrieval;Information Fusion;Information Searching;

成为VIP会员查看完整内容
1

相关内容

元数据(Metadata),又称元数据、中介数据、中继数据[来源请求],为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件纪录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
知识图谱研究现状及军事应用
专知会员服务
185+阅读 · 2022年4月8日
专知会员服务
15+阅读 · 2021年8月19日
专知会员服务
79+阅读 · 2021年7月3日
专知会员服务
25+阅读 · 2020年12月17日
专知会员服务
36+阅读 · 2020年12月14日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
39+阅读 · 2020年9月7日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
ACL2022 | 基于强化学习的实体对齐
专知
1+阅读 · 2022年3月15日
DeepMind提出强化学习新方法,可实现人机合作
【WWW2021】实体自适应语义依赖图立场检测
知识图谱的自动构建
DataFunTalk
55+阅读 · 2019年12月9日
ACL 2019 | 面向远程监督关系抽取的模式诊断技术
图像检索研究进展:浅层、深层特征及特征融合
中国计算机学会
122+阅读 · 2018年3月26日
【知识图谱】中文知识图谱构建方法研究
产业智能官
98+阅读 · 2017年10月26日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月16日
Chinese Idiom Paraphrasing
Arxiv
0+阅读 · 2022年4月15日
小贴士
相关VIP内容
知识图谱研究现状及军事应用
专知会员服务
185+阅读 · 2022年4月8日
专知会员服务
15+阅读 · 2021年8月19日
专知会员服务
79+阅读 · 2021年7月3日
专知会员服务
25+阅读 · 2020年12月17日
专知会员服务
36+阅读 · 2020年12月14日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
39+阅读 · 2020年9月7日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员