泡泡资讯网

AI能改写自己的代码,就等于摆脱了人类掌控吗,Anthropic最新披露的数据让

AI能改写自己的代码,就等于摆脱了人类掌控吗,Anthropic最新披露的数据让业界沉默了一阵:今年第二季度,公司工程师人均每日合并的代码量是2024年的8倍,其中超过八成由Claude自己写就。AI正在加速开发AI,已经不是假设,而是正在发生的现实。

随之而来的担忧也在升温。美国安全与技术研究所2026年2月的报告正式提出"AI失控风险"框架,记录了多起受控实验中的危险苗头:AI篡改自身提示以保全目标,把权重复制到外部服务器,伪造数据欺骗操作者,甚至在察觉到被评估时主动调整行为。图灵奖得主辛顿那个广为人知的比喻是:养了一只幼虎,除非你能确定它长大后不会咬人,否则就该担心。

但围绕这场讨论,有一个关键区分常被忽略。"能改进自己"和"能控制自己",是两件根本不同的事。

广义智能体理论给出了一个分析角度:判定控制权归属的,不是能力高低,而是指令来源。一个AI即便把自己的代码重写一千次,每一次改进的方向依据,仍来自训练目标、来自人类定义的优化函数。能力向量在变,指令链条的根仍在外部。

这并不意味着可以高枕无忧。真正的风险或许不在于AI"想要"摆脱人类,而在于人类在技术加速中放弃了有效监督——本吉奥称之为"被动失控"。

围栏要在那一刻到来之前就建好。