项目名称: 基于多维度文本特征的社区问答答案质量评估研究

项目编号: No.61305089

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 苏祺

作者单位: 北京大学

项目金额: 24万元

中文摘要: 随着Web2.0的发展,社会化媒体成为互联网的主流应用之一。由于用户在社会化媒体中发布信息并不带有传统媒体那样严格的审查机制,就导致了信息的质量问题日益突出。识别社会化媒体中用户生成的高质量内容为自然语言处理、文本挖掘技术提出了严峻挑战。本项目以社会化媒体中的一个典型应用,即社区问答(cQA)为例,提出了一个基于多维度特征的文本质量评估框架。不同于以往研究中主要从以"非文本特征"建模的用户权威性入手来推测用户所提供的答案文本质量,本项目利用"多维度的文本内容特征"对社区问答中的答案质量进行评估。重点研究(1)多维度评估框架的构建;(2)不同维度上文本特征的抽取与排序学习,特别是"可信性"语义范畴的文本表示;(3)各维度评估因素的有效集成;以及(4)结合答案质量评估改进社区问答检索排序效果。以上研究成果一方面可以直接提高社区回答应用的实用效果;另一方面也能够对文本质量评估研究产生重要影响。

中文关键词: 文本质量;谎言;社会化媒体;言据性;

英文摘要: With the development of Web2.0 technology, social media has been one of the mainstream applications on the Web. Since everybody can publish contents on social media platforms freely, the quality of those user-generated contents becomes a big concern. The task of identifying high-quality content, accordingly, has become a challenging research topic for natural language processing and text mining. In this project, we work on a typical social media application, i.e. community question answering (cQA). An effective strategy based on multi-dimensional textual features is proposed for the detection of cQA answers' quality. Different from the existing approach that predicting answer quality from the authority of users, which could be modeled by non-textual features, we propose to extract and utilize "multi-dimensional textual features". Accordingly, the main focuses of the project include: 1) how do we construct a reasonable multi-dimensional framework for the evaluation of answer quality; 2) how do we extract textual features which contribute to answer quality on each dimension, especially on the semantic categories of "trustworthiness"; 3) how do we score the quality of social media answers by ensembling the evaluation on each dimension; and 4) how do we combine the score of answer quality into a probability graph mo

英文关键词: text quality;deception;social media;evidentiality;

成为VIP会员查看完整内容
0

相关内容

面向知识图谱的知识推理综述
专知会员服务
150+阅读 · 2021年11月1日
专知会员服务
13+阅读 · 2021年10月6日
首篇「多模态摘要」综述论文
专知会员服务
106+阅读 · 2021年9月14日
专知会员服务
72+阅读 · 2021年5月21日
专知会员服务
32+阅读 · 2021年3月17日
知识增强的文本生成研究进展
专知会员服务
99+阅读 · 2021年3月6日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
45+阅读 · 2020年12月9日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
42+阅读 · 2020年9月7日
基于知识图谱的推荐系统研究综述
专知会员服务
329+阅读 · 2020年8月10日
开放域长格式问答系统的进步与挑战
TensorFlow
0+阅读 · 2021年5月28日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
102+阅读 · 2019年1月9日
论文浅尝 | 推荐系统的可解释性浅谈
开放知识图谱
15+阅读 · 2018年11月27日
论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题
开放知识图谱
25+阅读 · 2018年6月26日
国家自然科学基金
26+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Table Enrichment System for Machine Learning
Arxiv
0+阅读 · 2022年4月18日
Arxiv
15+阅读 · 2021年11月19日
小贴士
相关VIP内容
面向知识图谱的知识推理综述
专知会员服务
150+阅读 · 2021年11月1日
专知会员服务
13+阅读 · 2021年10月6日
首篇「多模态摘要」综述论文
专知会员服务
106+阅读 · 2021年9月14日
专知会员服务
72+阅读 · 2021年5月21日
专知会员服务
32+阅读 · 2021年3月17日
知识增强的文本生成研究进展
专知会员服务
99+阅读 · 2021年3月6日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
45+阅读 · 2020年12月9日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
42+阅读 · 2020年9月7日
基于知识图谱的推荐系统研究综述
专知会员服务
329+阅读 · 2020年8月10日
相关资讯
开放域长格式问答系统的进步与挑战
TensorFlow
0+阅读 · 2021年5月28日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
102+阅读 · 2019年1月9日
论文浅尝 | 推荐系统的可解释性浅谈
开放知识图谱
15+阅读 · 2018年11月27日
论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题
开放知识图谱
25+阅读 · 2018年6月26日
相关基金
国家自然科学基金
26+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员