项目名称: 面向短文本数据流的信息检索与信息过滤协同学习研究
项目编号: No.61370170
项目类型: 面上项目
立项/批准年度: 2013
项目学科: 自动化技术、计算机技术
项目作者: 齐浩亮
作者单位: 黑龙江工程学院
项目金额: 73万元
中文摘要: 随着移动互联网的迅速发展,互联网上短信息的发布更加普遍,以微博为代表的短文本流的处理的重要性逐渐彰显。课题首先针对微博的短文本特性,提出了补偿文档模型,通过引入含有更丰富信息的补偿文档作为反馈源,利用反馈技术准确地估计出查询模型和微博模型,是短文本检索建模的一个新的尝试。从另一方面来说,微博不断更新,特别是在用户查询期间不断有新微博到来,需要根据用户的反馈及时更新模型,对此课题进一步尝试从信息过滤的角度对微博建模,提出了在线排序逻辑回归模型解决该问题,探索在线学习和排序学习结合的新机制。最后,课题选择能够在在线学习环境工作的协同学习算法,利用其协调来源不同、异构、具有互补性的在线排序逻辑回归模型和补偿文档模型,并采用主动学习策略,缓解单边反馈问题,达到大幅提高系统性能的目的。
中文关键词: 短文本流;文档模型;查询模型;排序学习;信息过滤
英文摘要: Short messages are prevailing with the development of mobile Internet, demanding proper technology to deal with the short text stream such as in microblog. This proposal first addresses the short text retrieval by the "reference document model", which int
英文关键词: short text stream;document model;query model;learning to rank;information filtering