项目名称: 大规模非结构化数据的智能存储管理与检索关键技术

项目编号: No.61070054

项目类型: 面上项目

立项/批准年度: 2011

项目学科: 金属学与金属工艺

项目作者: 张孝

作者单位: 中国人民大学

项目金额: 10万元

中文摘要: Web环境下网页、多媒体、电子文档等非结构化数据已经达到PB级并蕴含大量信息和巨大价值,比如视频监控数据还可以用来跟踪特定的对象,实施行为分析、模式挖掘等实时商务智能。同时大数据量和无结构使得存储管理和检索的难度日渐加大,迫切需要高效、有效的技术从长远角度来研究和解决相关的关键问题。本项目采用数据库方法来研究大规模非结构化数据的智能存储管理和检索的关键技术,建立了一个基于自由表技术的统一管理平台myBUD。myBUD具有高度可扩展性,能够支持数据规模的不断扩展和新型数据。通过深入研究与原型实现,我们提出的自由表方法能够对系统内的非结构化、半结构和结构化数据进行基于内容的统一自适应存储管理;提供针对特定查询清洗不确定数据的数据抽取能力;基于扩展簇特征树CFTree*索引的智能检索与知识挖掘等。通过课题研究,我们认为非结构数据管理仍然是目前数据管理中的一个热点领域。如何实现结构化数据和非结构化数据的一体化管理和使用则产生一系列需要未来深入研究的问题,包括模型完善、存储扩展能力、适应新的计算环境的架构/方法、大数据分析技术等等。

中文关键词: 非结构化数据管理;自由表;自适应存储;myBUD;智能检索

英文摘要: The volume of unstructured data, such as web pages, multimedia, electronic documents, keeps growing to peta-byte scale in the context of web. Meanwhile, there exists large amount of information and business value in those unstructured data. Surveillance video data can be applied to, for instance, track specific objects and then enforce the behavior analysis and pattern mining to enable the live business intelligence as the result. The very large data size and structurelessness make it more difficult to store and retrieve those unstructured data as well. In this project, we employed the database approach to research the key techniques on intelligent storage management and retrieval of large-scale unstructured data by implementing a universal platform, myBUD, based on Free-Table. myBUD, i.e.my Bank of Unstructured Data, is highly extensible to support various types of existing unstructured data or to-emerge data in the future. Furthermore, Free-Table enables the content-based universally adaptive storage management, cleaning uncertain data for data extrction, CFTree*-based intelligent search and knowledge mining, and etc. After carrying out this project, we believe that UDM is still one of hot research topics and there are many to-be-studied research issues including modeling, extensibility, new infrastructure adaptability, e.g. cloud environment, and analytics on big data and so on.

英文关键词: unstructured data management; free-table; adapative storage; myBUD; intelligent search

成为VIP会员查看完整内容
6

相关内容

军事知识图谱构建技术
专知会员服务
122+阅读 · 2022年4月8日
空间数据智能:概念、技术与挑战
专知会员服务
85+阅读 · 2022年2月3日
智能视频监控关键技术:行人再识别研究综述
专知会员服务
37+阅读 · 2021年12月30日
【博士论文】大数据相似查询关键技术研究
专知会员服务
23+阅读 · 2021年12月2日
知识图谱在智能制造领域的研究现状及其应用前景综述
专知会员服务
157+阅读 · 2021年2月25日
专知会员服务
35+阅读 · 2021年2月20日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
专知会员服务
33+阅读 · 2020年9月25日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
数据分片架构的下一次进化
InfoQ
0+阅读 · 2022年2月20日
空间数据智能:概念、技术与挑战
专知
8+阅读 · 2022年2月4日
【图谱构建】图谱构建之知识抽取
AINLP
20+阅读 · 2020年5月5日
【北大】知识图谱的关键技术及其智能应用
专知
112+阅读 · 2019年9月19日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
18+阅读 · 2018年11月27日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
28+阅读 · 2021年10月1日
小贴士
相关VIP内容
军事知识图谱构建技术
专知会员服务
122+阅读 · 2022年4月8日
空间数据智能:概念、技术与挑战
专知会员服务
85+阅读 · 2022年2月3日
智能视频监控关键技术:行人再识别研究综述
专知会员服务
37+阅读 · 2021年12月30日
【博士论文】大数据相似查询关键技术研究
专知会员服务
23+阅读 · 2021年12月2日
知识图谱在智能制造领域的研究现状及其应用前景综述
专知会员服务
157+阅读 · 2021年2月25日
专知会员服务
35+阅读 · 2021年2月20日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
专知会员服务
33+阅读 · 2020年9月25日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
相关资讯
数据分片架构的下一次进化
InfoQ
0+阅读 · 2022年2月20日
空间数据智能:概念、技术与挑战
专知
8+阅读 · 2022年2月4日
【图谱构建】图谱构建之知识抽取
AINLP
20+阅读 · 2020年5月5日
【北大】知识图谱的关键技术及其智能应用
专知
112+阅读 · 2019年9月19日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
18+阅读 · 2018年11月27日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员