泡泡资讯网

[LG]《Asking Back: Interaction-Layer Anti

[LG]《Asking Back: Interaction-Layer Antidistillation Watermarks》G Yang, A Ghasemian, F Liu, Z Wang… [University of California, Los Angeles & Lawrence Berkeley National Laboratory] (2026)

在大模型 API 防护中,蒸馏溯源是一个悬而未决的难题。过去方法受困于词元水印易被改写,本质原因是痕迹绑在表层文本上。

本文的核心洞见是:把水印重新看作交互习惯。由此,让教师偶尔反问或重述需求这一操作,使学生在蒸馏中继承可审计行为。

这项工作真正留下的遗产是把防线移到对话层。它打开的新门是黑盒行为审计,但尚未跨过的门槛是自适应改写攻击。

arxiv.org/abs/2605.16462 机器学习 人工智能 论文 AI创造营