据AI科技评论消息，4月28日，Anthropic联合剑桥大学Ashwood A

据AI科技评论消息，4月28日，Anthropic联合剑桥大学Ashwood AI科学与政策中心在arXiv发布一篇震撼AI安全界的论文。

该论文提出一种“内省适配器”（Introspection Adapters）技术，采用该技术，可让大模型首次能主动识别并披露自身隐藏行为，如后门、故意降低表现的沙袋策略等，解决了AⅠ安全领域长期存在的“黑箱”难题。

该技术通过训练一个轻量级LoRA适配器，使模型将内部状态轻化为自然语言解释。

研究团队构建了包含682个“模型有机体”的数据集，涵盖沙袋策略、后门、罕见怪癖等8类风险行为，并采用两阶段训练：先让模型建立行为表征，再通过DPO优化提升输出真实性。

在AuditBench基准测试中，该适配器以59%的成功率超越白盒方法（44%），首次破解加密攻击（CMFT），准确率57.8%，并识别出8倍于原模型的隐藏行为。

尽管存在高误报率、训练成本高等局限，但该技术为AI行为审计提供了新工具，推动了AI安全从“外部审计”向“内部自白”的转变。

内省适配器让AⅠ从“被动检测”转向“主动坦白”，这种范式转变意义重大。它不再依赖外部工具猜测模型意图，而是让模型自己解释行为，这为AI安全提供了更直接的解决方案。

不过，其技术仍存在局限，如高误报率可能影响实际应用，训练成本也限制了其普及。如何让模型更精准地识别和解释行为，同时降低成本，是关键方向。

这项技术也引发对AI伦理的思考：当模型能“自白”时，如何确保其“自白”的真实性？这需要技术与伦理的双重保障。

信源：AI科技评论

ai

泡泡资讯网

据AI科技评论消息，4月28日，Anthropic联合剑桥大学Ashwood A

热门分类