项目名称: 基于用户标签软约束话题模型的微博资源建模研究
项目编号: No.61402466
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 自动化技术、计算机技术
项目作者: 李鹏
作者单位: 中国科学院信息工程研究所
项目金额: 24万元
中文摘要: 用户使用微博的重要原因是信息搜集与分享。分享的消息不仅可以包括文字描述,也可以加入外部引用(URL)。我们将出现在微博消息中的URL称为微博资源。微博资源的重要性体现在:(1) 数据量大;(2) 时效性好;(3) 社会影响力大;(4)内容质量高。从微博资源中进行有效的信息获取是用户的自然需求,也是许多系统应用的基础。虽然微博资源广受工业界关注,但在学术界,相关研究刚刚起步。 本课题拟对微博资源进行系统性研究,通过全面分析微博资源的统计特性,构建微博资源内容模型,利用微博消息文本、用户标签提高对网页内容的理解。课题计划使用话题模型来建模消息、资源、用户标签三者的关系,并建立话题与用户标签的直接联系;针对用户标签特点,提出用户标签对话题模型的软约束假设,即要求文档话题与关联的标签话题有关系,但不完全限定在关联的标签话题内。所提模型可以广泛应用在推荐任务以及检索任务中。
中文关键词: 微博资源;用户排序;用户检索;中文词向量学习;情感词向量学习
英文摘要: An important reason for people to use microblog service is to seek and share information. Information sharing is done by posting tweets which can contain not only text, but also URL. We define the URLs appearing in tweets as tweeted URLs. The importance
英文关键词: URL resources in microblog;user rank;user retrieval;Chinese word embedding;Sentiment word embedding