项目名称: 基于语言特性分析的互联网伪信息的自动识别与评估研究
项目编号: No.61170114
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 自动化技术、计算机技术
项目作者: 赵海
作者单位: 上海交通大学
项目金额: 55万元
中文摘要: 本项目研究探讨使用语言特性分析来自动评估互联网文本信息的可靠性问题。为此,定义可靠性和真实性不足的信息为伪信息。包含伪信息的网络文本和主要企图欺骗搜索引擎的传统网页垃圾不同,其主要针对对象是互联网用户本身,即,试图欺骗或者误导它的阅读者。当今互联网上的伪信息分布泛滥及其严重的危害性迫切要求适当的技术手段加以应对。本项目通过明确定义可计算的伪信息(在此主要指文本伪信息),以及应用和发展基于语言特性分析的方法,使用两种新型的机器学习模型集成多重知识源来有效地自动鉴别这类信息。其中,多种基础性的自然语言处理技术,包括相似文本检索、语言风格识别、连贯性检测、命名实体分布统计、表达强度词典构建等针对性地用于实现伪信息特征表示。本项目有望最终发展出一整套系统化的技术框架来有效应对已日益严重的伪信息现象并针对性发展出一系列相关的基础自然语言处理技术。
中文关键词: 伪信息;分布式特性;语言特性分析;信息可靠性;认知科学
英文摘要:
英文关键词: pseudo-information;distributional characteristics;linguistic property analysis;information reliability;cognition