Misuse of LLM-generated text can be curbed by watermarking techniques that embed implicit signals into the output. We propose a watermark that partitions the vocabulary at each decoding step into three sets (Green/Yellow/Red) with fixed ratios and restricts sampling to the Green and Yellow sets. At detection time, we replay the same partitions, compute Green-enrichment and Red-depletion statistics, convert them to one-sided z-scores, and aggregate their p-values via Fisher's method to decide whether a passage is watermarked. We implement generation, detection, and testing on Llama 2 7B, and evaluate true-positive rate, false-positive rate, and text quality. Results show that the triple-partition scheme achieves high detection accuracy at fixed FPR while preserving readability.


翻译:通过将隐式信号嵌入输出,水印技术可有效遏制大语言模型生成文本的滥用。本文提出一种水印方案,该方案在每个解码步骤将词表按固定比例划分为三个集合(绿/黄/红),并将采样范围限制在绿色与黄色集合内。在检测阶段,我们复现相同的划分方式,计算绿色富集度与红色稀缺度统计量,将其转换为单侧z分数,并通过费希尔方法聚合其p值,从而判定文本是否包含水印。我们在Llama 2 7B模型上实现了生成、检测与测试流程,并评估了真阳性率、假阳性率及文本质量。结果表明,在保持文本可读性的前提下,三集合划分方案能够在固定假阳性率条件下实现高检测精度。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年7月27日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员