项目名称: 跨语言文本复制检测研究

项目编号: No.60903123

项目类型: 青年科学基金项目

立项/批准年度: 2010

项目学科: 数理科学和化学

项目作者: 鲍军鹏

作者单位: 西安交通大学

项目金额: 19万元

中文摘要: 在网络环境下保护电子文本知识产权,打击非法复制、剽窃论文等不端学术行为,是当前亟待解决的一个热点问题。现有文本复制检测方法不能有效检测从英文翻译到中文这种翻译型的文本剽窃。项目将要研究在网络条件下多语言文本混杂、无结构文本和半结构文本混杂的情况下,如何高效、快速检测各种类型雷同文本。包括:基于双语本体的翻译型无结构自然语言文本复制检测方法,基于小波变换提取结构特征的半结构文本复制检测,面向网络服务的主动式文本复制检测体系模型。研究方案的特色在于:(1)不需要对文本进行机器翻译,而是根据双语本体把中英文字词转变为概念,然后依据概念集序列检测文本复制。(2)提出比较全面、主动、快速的文本复制检测策略和体系模型。本项目的研究对于文本挖掘、文本相似性度量和自然语言处理具有很大理论意义,对于保护电子文本知识产权,打击论文造假,端正学术风气具有重要的应用价值和社会意义。

中文关键词: 文本复制检测;半结构化文本;跨语言;知识产权保护;软件即服务

英文摘要:

英文关键词: Text Copy Detection;Semi-structural Text;Cross Language;Intellectual Property Protect;Software as a Service

成为VIP会员查看完整内容
0

相关内容

中科院自动化所徐波团队最新《视觉-语言预训练》综述
专知会员服务
66+阅读 · 2022年2月23日
专知会员服务
50+阅读 · 2021年8月13日
专知会员服务
69+阅读 · 2021年5月21日
知识增强的文本生成研究进展
专知会员服务
98+阅读 · 2021年3月6日
虚假评论识别研究综述
专知会员服务
23+阅读 · 2021年3月2日
专知会员服务
193+阅读 · 2020年10月14日
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
73+阅读 · 2020年9月25日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
一文读懂文本处理中的对抗训练
PaperWeekly
22+阅读 · 2019年6月5日
已删除
将门创投
14+阅读 · 2019年5月29日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
OCR开源库(文本区域定位和文本识别):github
数据挖掘入门与实战
28+阅读 · 2017年11月26日
刘挺 | 从知识图谱到事理图谱
开放知识图谱
48+阅读 · 2017年11月16日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
SkiQL: A Unified Schema Query Language
Arxiv
0+阅读 · 2022年4月19日
小贴士
相关VIP内容
中科院自动化所徐波团队最新《视觉-语言预训练》综述
专知会员服务
66+阅读 · 2022年2月23日
专知会员服务
50+阅读 · 2021年8月13日
专知会员服务
69+阅读 · 2021年5月21日
知识增强的文本生成研究进展
专知会员服务
98+阅读 · 2021年3月6日
虚假评论识别研究综述
专知会员服务
23+阅读 · 2021年3月2日
专知会员服务
193+阅读 · 2020年10月14日
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
73+阅读 · 2020年9月25日
相关资讯
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
一文读懂文本处理中的对抗训练
PaperWeekly
22+阅读 · 2019年6月5日
已删除
将门创投
14+阅读 · 2019年5月29日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
OCR开源库(文本区域定位和文本识别):github
数据挖掘入门与实战
28+阅读 · 2017年11月26日
刘挺 | 从知识图谱到事理图谱
开放知识图谱
48+阅读 · 2017年11月16日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员