项目名称: 跨语言文本复制检测研究
项目编号: No.60903123
项目类型: 青年科学基金项目
立项/批准年度: 2010
项目学科: 数理科学和化学
项目作者: 鲍军鹏
作者单位: 西安交通大学
项目金额: 19万元
中文摘要: 在网络环境下保护电子文本知识产权,打击非法复制、剽窃论文等不端学术行为,是当前亟待解决的一个热点问题。现有文本复制检测方法不能有效检测从英文翻译到中文这种翻译型的文本剽窃。项目将要研究在网络条件下多语言文本混杂、无结构文本和半结构文本混杂的情况下,如何高效、快速检测各种类型雷同文本。包括:基于双语本体的翻译型无结构自然语言文本复制检测方法,基于小波变换提取结构特征的半结构文本复制检测,面向网络服务的主动式文本复制检测体系模型。研究方案的特色在于:(1)不需要对文本进行机器翻译,而是根据双语本体把中英文字词转变为概念,然后依据概念集序列检测文本复制。(2)提出比较全面、主动、快速的文本复制检测策略和体系模型。本项目的研究对于文本挖掘、文本相似性度量和自然语言处理具有很大理论意义,对于保护电子文本知识产权,打击论文造假,端正学术风气具有重要的应用价值和社会意义。
中文关键词: 文本复制检测;半结构化文本;跨语言;知识产权保护;软件即服务
英文摘要:
英文关键词: Text Copy Detection;Semi-structural Text;Cross Language;Intellectual Property Protect;Software as a Service