Text content created by humans or language models is often stolen or misused by adversaries. Tracing text provenance can help claim the ownership of text content or identify the malicious users who distribute misleading content like machine-generated fake news. There have been some attempts to achieve this, mainly based on watermarking techniques. Specifically, traditional text watermarking methods embed watermarks by slightly altering text format like line spacing and font, which, however, are fragile to cross-media transmissions like OCR. Considering this, natural language watermarking methods represent watermarks by replacing words in original sentences with synonyms from handcrafted lexical resources (e.g., WordNet), but they do not consider the substitution's impact on the overall sentence's meaning. Recently, a transformer-based network was proposed to embed watermarks by modifying the unobtrusive words (e.g., function words), which also impair the sentence's logical and semantic coherence. Besides, one well-trained network fails on other different types of text content. To address the limitations mentioned above, we propose a natural language watermarking scheme based on context-aware lexical substitution (LS). Specifically, we employ BERT to suggest LS candidates by inferring the semantic relatedness between the candidates and the original sentence. Based on this, a selection strategy in terms of synchronicity and substitutability is further designed to test whether a word is exactly suitable for carrying the watermark signal. Extensive experiments demonstrate that, under both objective and subjective metrics, our watermarking scheme can well preserve the semantic integrity of original sentences and has a better transferability than existing methods. Besides, the proposed LS approach outperforms the state-of-the-art approach on the Stanford Word Substitution Benchmark.


翻译:由人类或语言模型创造的文字内容往往被对手盗用或滥用。 追踪文本源代码可以帮助声称文本内容的所有权, 或识别传播误导内容的恶意用户, 如机器生成的假新闻 。 已经尝试过实现这一点的一些尝试, 主要是基于水标记技术。 具体地说, 传统的文本水标记方法通过略微改变的文字格式将水标记嵌入, 如行距和字体, 但是对于像OCR这样的跨媒体传输来说是脆弱的。 考虑到这一点, 自然语言的水标记方法代表了水印, 将原句中的单词替换为手造的词汇, 手造的词汇( 例如, WordNetNet, 但他们并不考虑替代替代版本内容的内容) 。 最近, 一个基于变式水标记的网络, 通过修改不引起注意的词( 例如, 功能字节词), 一个经过良好训练的网络在其它类型的文本内容上, 解决上述限制, 我们提议用自然语言的水上标记计划对总体句的含义的影响。 以直立地- strealtialalalalalalalal

5
下载
关闭预览

相关内容

【脑机接口教程】Machine Learning for BCI,NeurotechEDU
专知会员服务
34+阅读 · 2022年2月14日
专知会员服务
123+阅读 · 2020年9月8日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机 | 中低难度国际会议信息8条
Call4Papers
9+阅读 · 2019年6月19日
计算机 | IUI 2020等国际会议信息4条
Call4Papers
6+阅读 · 2019年6月17日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
人工智能 | SCI期刊专刊/国际会议信息7条
Call4Papers
7+阅读 · 2019年3月12日
医学 | 顶级SCI期刊专刊/国际会议信息4条
Call4Papers
5+阅读 · 2018年12月28日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
人工智能 | NAACL-HLT 2019等国际会议信息6条
Call4Papers
4+阅读 · 2018年10月30日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Arxiv
5+阅读 · 2021年6月3日
SwapText: Image Based Texts Transfer in Scenes
Arxiv
4+阅读 · 2020年3月18日
Arxiv
3+阅读 · 2018年3月21日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关资讯
计算机 | 中低难度国际会议信息8条
Call4Papers
9+阅读 · 2019年6月19日
计算机 | IUI 2020等国际会议信息4条
Call4Papers
6+阅读 · 2019年6月17日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
人工智能 | SCI期刊专刊/国际会议信息7条
Call4Papers
7+阅读 · 2019年3月12日
医学 | 顶级SCI期刊专刊/国际会议信息4条
Call4Papers
5+阅读 · 2018年12月28日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
人工智能 | NAACL-HLT 2019等国际会议信息6条
Call4Papers
4+阅读 · 2018年10月30日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Top
微信扫码咨询专知VIP会员