Watermarking aims to embed hidden signals in generated text that can be reliably detected when given access to a secret key. Open-weight language models pose acute challenges for such watermarking schemes because the inference-time interventions that dominate contemporary approaches cannot be enforced once model weights are public. Existing watermaking techniques for open-weight models, such as the recently proposed GaussMark, typically rely on small modifications to model weights, which can yield signals detectable to those equipped with a secret key, but achieving detection power comparable to inference-time watermarks generally requires weight perturbations that noticeably reduce generation quality. We introduce MarkTune, a theoretically principled, on-policy fine-tuning framework that treats the GaussMark signal as a reward while simultaneously regularizing against degradation in text quality. We derive MarkTune as an improvement on GaussMark and demonstrate that MarkTune consistently improves the quality-detectability trade-off over GaussMark by steering finer-grained, watermark-aware weight updates within the model's representation space while preserving generation quality. Empirically, we show that MarkTune pushes the quality-detectability frontier of GaussMark close to that of inference-time watermarking, remains robust to paraphrasing and fine-tuning attacks, and exhibits strong generalization: a model fine-tuned on one dataset retains substantial watermark detection power on unseen datasets. Together, these results establish MarkTune as a general strategy for embedding robust, high-quality watermarks into open-weight LMs.


翻译:水印技术旨在将隐藏信号嵌入生成的文本中,使得在拥有密钥时可被可靠检测。开放权重语言模型对此类水印方案提出了严峻挑战,因为一旦模型权重公开,当前主流方法所依赖的推理阶段干预便无法强制执行。现有针对开放权重模型的水印技术(如近期提出的GaussMark)通常依赖于对模型权重进行微小修改,这能为拥有密钥者提供可检测的信号,但要达到与推理阶段水印相当的检测能力,通常需要引入明显降低生成质量的权重扰动。我们提出MarkTune,一种基于理论原则、采用同策略微调的框架,它将GaussMark信号视为奖励,同时通过正则化防止文本质量下降。我们将MarkTune推导为GaussMark的改进版本,并证明其通过在模型表示空间内引导更细粒度、水印感知的权重更新,在保持生成质量的同时,持续优化了质量与可检测性之间的权衡。实验表明,MarkTune将GaussMark的质量-可检测性边界推近至接近推理阶段水印的水平,对重述和微调攻击保持鲁棒性,并展现出强大的泛化能力:在一个数据集上微调的模型在未见数据集上仍保持显著的水印检测能力。综上,这些结果确立了MarkTune作为一种通用策略,可用于为开放权重语言模型嵌入鲁棒且高质量的水印。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员