[LG]《Asking Back: Interaction-Layer Anti

[LG]《Asking Back: Interaction-Layer Antidistillation Watermarks》G Yang, A Ghasemian, F Liu, Z Wang… [University of California, Los Angeles & Lawrence Berkeley National Laboratory] (2026)

在大模型 API 防护中，蒸馏溯源是一个悬而未决的难题。过去方法受困于词元水印易被改写，本质原因是痕迹绑在表层文本上。

本文的核心洞见是：把水印重新看作交互习惯。由此，让教师偶尔反问或重述需求这一操作，使学生在蒸馏中继承可审计行为。