题目:聚焦大语言模型水印的伪造攻击检测

出处:ICML'25

时间:2025.05

作者:Thibaud Gloaguen, Nikola Jovanovi´c, Robin Staab, Martin Vechev

代码:Github Link

Arxiv:Arxiv Link


摘要

语言模型水印是一种在生成文本中嵌入隐藏信号的技术,用于在事后判断文本是否由某个特定模型生成。虽然已有方法可以伪造“看似带水印”的文本,从而欺骗检测器,但我们提出:即使伪造成功,这些文本中仍可能存在可被检测到的“伪造痕迹”。

我们发现,攻击者在模仿水印时会对训练集中频繁出现的上下文更容易复现绿色 token,从而导致token 颜色与上下文频率之间存在统计相关性。我们据此提出两种检测方法,能有效识别伪造文本,并在多个模型与攻击设置下验证其准确性。

结论

我们提出了一种新颖的检测角度:即使文本骗过了水印检测器,我们仍能通过统计方法检测它是否是伪造的。这为语言模型水印系统提供了一种新的防伪机制。我们的方法简单、适用于现有的 Red-Green 水印系统,并且能在保持低误报率的前提下成功检测出强伪造攻击。

未来的研究方向包括:是否能检测未使用 Red-Green 水印的模型伪造行为,以及是否能在密钥未知的情况下进行检测(黑盒场景)。


研究背景

随着 LLM 普及,我们需区分人类 vs 机器生成文本

LLM 生成的文本可能被滥用,水印技术通过在文本中嵌入不可感知的信号,可用于追溯文本来源,增强内容可信度。

Red-Green Watermark:目前主流嵌入归属信号的方法

Red-Green 水印通过私有密钥将词汇分为 “绿色” 和 “红色” 标记,增加绿色标记的采样概率,检测器通过绿色标记比例判断文本是否被水印化。(如下图)

pic-52-1.png

然而:攻击者可以伪造“看似有水印”的文本!

未经授权的第三方可通过伪造水印,将任意文本归因于特定 LLM,导致声誉损害或责任规避。现有研究表明,Red-Green 等主流水印方案易受基于学习的伪造攻击(如 Stealing、Distillation 方法),但缺乏事后检测伪造尝试的方法。(详见下一节)

常见水印攻击方法

pic-52-2.png

方法一:Stealing(反向推断绿色词)【Jovanović et al. 2024】

利用统计方法比较带水印文本与人类文本的 token 分布;
反推出哪些词在上下文下更可能是绿色;
再通过一个辅助语言模型(例如Mistral)模仿采样。

方法二:Distillation(蒸馏)【Gu et al. 2024】

使用大量带水印数据 fine-tune 一个语言模型;
让它内化“绿色 token 分布”,直接生成“有水印特征”的文本;
通常能伪造更多种类型的水印(不仅限Red-Green)。

论文方法

pic-52-3.png

核心 Idea

伪造攻击依赖有限训练数据,导致生成文本存在可检测的上下文 - 颜色依赖,而真实水印文本无此缺陷,颜色序列具有上下文无关性。

伪造者通过查询目标模型获取真实水印文本数据集 D,从中学习水印模式(如绿色标记的分布规律)。

关键限制:

伪造者仅能在 D 覆盖的上下文范围内准确生成绿色标记,超出范围时只能随机选择。

真实水印的独立性:

真实水印文本由私有密钥决定绿色标记,与 D 或任何公开语料库无关,颜色序列具有上下文无关性。

符号定义

Ωt-h:t:当前标记 Ωt 与前 h 个标记组成的上下文窗口(长度为 (h+1)的 n-gram)。
ID(Ωt-h:t):指示函数,若 Ωt-h:t出现在训练数据 D 中,取值为 1,否则为 0(可扩展为频率统计)。
xt:标记颜色(1 = 绿色,0 = 红色)。

pic-52-5.png

分数序列(Y)

(1) (h+1)-gram score(依赖上下文分布)
定义:
基于公开语料库 D(如 C4)的(h+1)-gram 频率统计量,近似伪造者训练数据 D 的分布。Ωt-h:t:当前标记与前h个标记组成的上下文窗口。

(2) Unigram score(降低上下文依赖)
定义:
人类文本的单字频率(如 C4 语料库的单字概率)。选取窗口中最远的单字Ωt-h,弱化与当前标记的直接关联。

相关系数检验

xt:标记颜色(1 = 绿色,0 = 红色)。yt:分数序列((h+1)-gram 或单字分数)

计算统计量

$$ \rho^{Spearman}_{XY}=Pearson(R_X,R_Y)=\frac{Cov(R_X,R_Y)}{\sigma_{R_X}\dot\sigma_{R_Y}} $$

$$ S(\omega)=\frac{1}{2}\log(\frac{1+\rho}{1-\rho}) $$

· S(ω) 近似服从正态分布;
· 可以对它构造 Z-score;
· 进而计算 p-value、控制 Type I error、构建假设检验。

Influence of the LM

pic-52-6.png

即使是真正的 ξ-watermarked 文本,颜色和上下文频率也可能不是完全独立!

· 如果上下文非常确定(低熵),模型可能总是生成某一个token;

· 那么该token的颜色几乎是随机的,而这样的上下文也更可能出现在D中;

· 所以会产生一个“伪相关”:高频上下文对应随机颜色,从而颜色和频率看起来“不独立”了。

2025-06-16T11:46:11.png

解决方法

解决思路:设计合适的统计量 S(ω) 并估计其在 H₀ 下的分布

为了应对上述挑战,作者接下来(第4章)提出了两种统计检验方法:

1. Standard method

当颜色序列 X 与分数序列 Y 独立时(如单字分数场景),相关系数 S(ω) 服从正态分布,可直接通过标准正态检验(Z 检验)判断是否拒绝原假设。

2025-06-16T11:50:03.png

2. Reprompting method

当颜色与分数可能存在依赖时(如 (h+1)-gram 分数场景),通过模型生成新文本 Ω,估计真实分布的均值,消除上下文依赖的影响。

2025-06-16T11:50:11.png

实验

1. 核心目标与范围

明确实验旨在验证检测方法(标准方法 / 重提示方法)对Stealing和Distillation两种伪造攻击的有效性,以及在不同水印方案、模型和文本长度下的泛化性。

2. 水印模型与参数

主用水印模型:LLaMA2-7B(指令微调版和完成版),用于生成真实水印文本。
上下文长度(h):1、2、3(影响水印嵌入的上下文依赖程度)。
绿色标记比例(γ):0.25(Red-Green 方案中绿色标记的目标比例)。
对数几率调整(δ):h=1/2 时 δ=2,h=3 时 δ=4(控制绿色标记的采样偏好强度)。

3. 文本生成与数据处理

从C4 数据集(新闻类文本)采样 prompt,由 LLaMA2-7B 生成 50-400 tokens 的续接文本。

4. 评估指标与统计方法

假阳性率(FPR):真实水印文本被误判为伪造的概率(控制一类错误)。
真阳性率(TPR):伪造文本被正确识别的概率(评估检测效力)。

实验结果

2025-06-16T11:51:34.png
Figure 3: Experimental rejection rate of ξ -watermarked text on LLAMA2 7B.

Figure 3 展示的是不同条件下实验假阳性率(FPR, False Positive Rate)与设定的拒绝率 α 之间的关系 ,用于评估检测方法控制一类错误(弃真错误,即将真实水印文本错误判定为伪造文本 )的能力。

各曲线总体呈现上升趋势,表明随着 α 的增大,实验 FPR 也随之增大 。并且,曲线与 y = x 这条线(代表理想的一类错误控制情况 ,即实际 FPR 等于设定的 α )较为接近,说明在不同条件下,检测方法能较好地控制一类错误率,实际 FPR 接近设定的 α 。这意味着该检测方法在控制将真实水印文本误判为伪造文本的概率方面表现良好,增强了方法的可靠性。

2025-06-16T11:51:59.png
Figure 4: Experimental True Positive Rate of spoofed text.

Figure 4 展示的是不同条件下真阳性率(TPR, True Positive Rate)与设定的拒绝率 α 之间的关系,用于评估检测方法区分伪造文本和真实水印文本的效力(即正确识别伪造文本的能力 )。

各曲线总体呈现上升趋势,表明随着 α 的增大,TPR 也随之增大 。同时可以看出,不同文本长度 T 下曲线位置不同,文本长度越长,TPR 在相同 α 下越高,说明长文本更有利于检测伪造文本;重提示方法和标准方法在不同条件下区分伪造文本的能力有差异,重提示方法在一些情况下表现更优。 这表明该检测方法在识别伪造文本方面,随着文本长度增加和合理选择检测方法,能够更有效地将伪造文本检测出来,体现了方法在实际应用中对于不同场景的适应性和有效性。

2025-06-16T11:52:16.png
Table1: Experimental FPR and TPR for both spoofers at α∈{1%,5%}, for different h and T

Table 1: 对于不同的 h 和 T ,两种伪造方法在 α∈{0, 1} 时的实验假阳性率(FPR)和真阳性率(TPR) 。h=3(R)表示使用 (h + 1) -gram 分数的重提示方法,而 h = 3(S)表示使用单字分数的标准方法。所有其他条目均为使用 (h + 1) -gram 分数的重提示方法。

Contribution

理论贡献

总结首次深入分析伪造痕迹及揭示现有伪造攻击普遍局限的成果。

方法贡献:

强调提出有效检测工具及在多种水印方案上的适用性。

实际应用价值:

说明为模型提供商保障水印可信度及为水印方案改进提供方向的意义。

最后修改:2025 年 06 月 16 日
如果觉得我的文章对你有用,请随意赞赏