项目名称: Web页面数据对象的感知理解与计算

项目编号: No.61462010

项目类型: 地区科学基金项目

立项/批准年度: 2015

项目学科: 其他

项目作者: 朱新华

作者单位: 广西师范大学

项目金额: 45万元

中文摘要: Web页面数据的复杂异构一直是其高效处理的瓶颈,页面分块及信息抽取在一定程度上缓解了这一问题,但未能从根本上解决语义结构化问题。针对这一挑战性的问题,本项目拟以Web页面为研究对象,基于Web页面编撰语言特点,依据页面中信息内容及分布特征,利用统计学和信息科学相关理论和技术,研究Web页面数据对象的语义感知模型与方法,探索语义对象的测度学习理论和技术,构建跨粒度加权语义对象树模型,揭示语义对象到粒对象的关联映射机制,建立多粒度视图的Web页面表示及关联模型。具体研究内容包括:基于LDA模型的Web文本主题感知;基于谱聚类的短文本分类;基于视觉信息和信息内容的语义分块;Web页面语义对象测度学习;跨粒度加权语义对象树构造;Web页面多粒度表示与关联建模等。本项目所建立的Web页面数据感知理解与计算模型和方法,对Web信息集成管理、智能检索与分析挖掘等多个领域具有重要的理论意义和实用前景。

中文关键词: 语义对象;概率主题模型;图谱理论;测度学习;多粒度视图

英文摘要: The complexity and the heterogeneity of Webpage data has always been a bottleneck in its efficient processing. The technique of page blocking and information extracting have been eased the problem in a certain extent, but failed to solve the problem of semantic structuralizing fundamentally . In response to this challenging problem,the project takes the Webpage as the research object, bases on the charcteristics of compilation language of Web page and the distribution characteristics of information in the page, takes use of the related theory and technology of statistics and information science to research the model and method of semantic perception of Webpage data object, explore the measure learning theory and technology of semantic object, build the across granularity weighted semantic object tree model, reveal the mapping mechanism from semantic object to the grain object, meanwhile establish a multi-granularity view of Webpage and its associated model. The mainly research contents include: the perception of the semantic theme of Webpage contents based on the LDA model; short text classification based on spectral clustering; the semantic blocking of Webpage based on visual information and formation content; The measure learning of semantic object in the Webpage; The construction of across the granularity weighted semantic object tree ; Multi-granularity review and its associated modeling, etc. The model and method of perception understanding and calculation established in the project for Webpage data object will have theoretical significance and practical prospects in the management of Web information integration, intelligent retrieval and analysis mining, as well as other fields.

英文关键词: The semantic object;probabilistic topic model;Graph theory;metric learning;Multiple granularity view

成为VIP会员查看完整内容
0

相关内容

浙江大学《知识图谱导论》课程
专知会员服务
193+阅读 · 2021年12月26日
【2021新书】面向对象的Python编程,418页pdf
专知会员服务
71+阅读 · 2021年12月15日
专知会员服务
51+阅读 · 2021年9月25日
专知会员服务
42+阅读 · 2021年6月22日
【经典书】计算理论导论,482页pdf
专知会员服务
85+阅读 · 2021年4月10日
【经典书】统计学,806页pdf,解锁数据的力量
专知会员服务
80+阅读 · 2020年8月12日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
143+阅读 · 2019年10月10日
“C不再是一种编程语言”
AI前线
1+阅读 · 2022年4月2日
Google Play 学院专属表情包来啦!
谷歌开发者
0+阅读 · 2021年9月10日
弱监督视觉理解笔记(VALSE2019)
极市平台
27+阅读 · 2019年4月23日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
机器学习(4)之线性判别式(附Python源码)
机器学习算法与Python学习
13+阅读 · 2017年7月11日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
SkiQL: A Unified Schema Query Language
Arxiv
0+阅读 · 2022年4月19日
Arxiv
29+阅读 · 2022年3月28日
Arxiv
13+阅读 · 2021年10月22日
Hierarchical Graph Capsule Network
Arxiv
20+阅读 · 2020年12月16日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
小贴士
相关VIP内容
浙江大学《知识图谱导论》课程
专知会员服务
193+阅读 · 2021年12月26日
【2021新书】面向对象的Python编程,418页pdf
专知会员服务
71+阅读 · 2021年12月15日
专知会员服务
51+阅读 · 2021年9月25日
专知会员服务
42+阅读 · 2021年6月22日
【经典书】计算理论导论,482页pdf
专知会员服务
85+阅读 · 2021年4月10日
【经典书】统计学,806页pdf,解锁数据的力量
专知会员服务
80+阅读 · 2020年8月12日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
143+阅读 · 2019年10月10日
相关资讯
“C不再是一种编程语言”
AI前线
1+阅读 · 2022年4月2日
Google Play 学院专属表情包来啦!
谷歌开发者
0+阅读 · 2021年9月10日
弱监督视觉理解笔记(VALSE2019)
极市平台
27+阅读 · 2019年4月23日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
机器学习(4)之线性判别式(附Python源码)
机器学习算法与Python学习
13+阅读 · 2017年7月11日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员