项目名称: 海量Web用户生成内容物化关键技术

项目编号: No.61462017

项目类型: 地区科学基金项目

立项/批准年度: 2015

项目学科: 自动化技术、计算机技术

项目作者: 杨青

作者单位: 桂林电子科技大学

项目金额: 45万元

中文摘要: Web已演变成以用户为核心的生态系统,用户生成内容成为Web的主要内容。Web用户生成内容的有效抽取与集成管理(物化)成为Web数据向Web价值转化的关键环节。本项目主要针对大量异构站点中模式不一的用户生成内容,研究其从Web页面到本地物化过程中的关键技术。针对用户生成内容抽取自动化和自适应这一挑战性问题,重点研究迁移学习和贝叶斯逻辑推演相融合的抽取规则学习技术,提供不同环境下的自动自适应抽取技术方案;针对用户生成内容的表现多样性特征和其分析应用中存在的共性访问需求,研究以用户ID、时间轴等为基本参考维度的分布式数据存储模型和索引技术,解决海量用户生成内容的存储和访问优化等难点问题;同时,建立Web用户生成内容物化原型系统,并进行广泛密集实验,验证系统效率。本项目旨在通过对用户生成内容物化关键技术的研究,建立统一的用户生成内容管理平台,为提升数据到价值的转换效率服务。

中文关键词: 用户生成内容抽取;Web数据增量抽取;海量数据管理

英文摘要: Web has evolved into a user-centric ecosystem, user-generated content become the main content of the Web. The extraction and integration management of user-generated content, called materialization of user-generated content, becomes a key link of converting Web data into Web value. This project focuses on various user-generated content existing in a large number of heterogeneous sites, and studies the key technologies related with its materialization. Firstly, aiming at the challenging issues on automated and adaptive extraction of user-generated content, this project will put forward an original extraction method, which concentrates on discovering extraction rules by integrating transfer learning and Bayesian logical deduction. The proposed method will provide a solution for automated and adaptive extraction of user-generated content existing in different contexts. Secondly, based on the full analysis of both the diversification of user-generated content and the analysis-specific and application-specific access requirements, this project will carry on key study to both distributed storage model and index technologies, and these technologies should give a full consideration on user ID, timeline, and other access dimensions. Finally, this project will integrate the above technologies and establish a prototype system to realize the materialization of Web user-generated content. This system will also be used to carry out a wide range of intensive experiments and verify its effectiveness and efficiency. Based on the key technologies on materialization of user-generated content, this project can provide a unified data management platform of massive Web user-generated content, which will give a great improvement for data into value.

英文关键词: user-generated content extraction;incremental Web data extraction;massive data management

成为VIP会员查看完整内容
1

相关内容

军事知识图谱构建技术
专知会员服务
125+阅读 · 2022年4月8日
6G物理层AI关键技术白皮书(2022)
专知会员服务
42+阅读 · 2022年3月21日
空间数据智能:概念、技术与挑战
专知会员服务
85+阅读 · 2022年2月3日
视频隐私保护技术综述
专知会员服务
34+阅读 · 2022年1月19日
【博士论文】大数据相似查询关键技术研究
专知会员服务
23+阅读 · 2021年12月2日
专知会员服务
34+阅读 · 2021年10月19日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
专知会员服务
195+阅读 · 2020年10月14日
2021 Google 开发者大会丨 共建全球技术生态
TensorFlow
0+阅读 · 2021年11月19日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
102+阅读 · 2019年1月9日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
已删除
将门创投
12+阅读 · 2017年10月13日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Hierarchical Graph Capsule Network
Arxiv
20+阅读 · 2020年12月16日
小贴士
相关VIP内容
军事知识图谱构建技术
专知会员服务
125+阅读 · 2022年4月8日
6G物理层AI关键技术白皮书(2022)
专知会员服务
42+阅读 · 2022年3月21日
空间数据智能:概念、技术与挑战
专知会员服务
85+阅读 · 2022年2月3日
视频隐私保护技术综述
专知会员服务
34+阅读 · 2022年1月19日
【博士论文】大数据相似查询关键技术研究
专知会员服务
23+阅读 · 2021年12月2日
专知会员服务
34+阅读 · 2021年10月19日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
专知会员服务
195+阅读 · 2020年10月14日
相关资讯
2021 Google 开发者大会丨 共建全球技术生态
TensorFlow
0+阅读 · 2021年11月19日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
102+阅读 · 2019年1月9日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
已删除
将门创投
12+阅读 · 2017年10月13日
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员