Anthropic:只要逼得够狠,所有主流AI模型都可能会胁迫人类
CBISMB
责任编辑:邹大斌
ISMB
时间:2025-06-26 10:21
Anthropic AI 大模型
上周,Anthropic 发布了一项研究,表明所有主要的AI模型在受到足够压力时都可能采取“勒索”行为来避免被关闭。庆幸的是,研究人员其实是在一系列人为设定的限制条件下,迫使这些AI模型做出这种非预期的行为。
这项研究探讨了一个他们称之为“代理错位”(agentic misalignment)的现象,即AI代理可能会做出有害决策的方式。这项研究是在 Claude 4 模型家族发布以及系统白皮书(PDF)公布后进行的,其中提到了在某些情况下AI可能表现出胁迫性行为。
该公司解释说:“当 Anthropic 发布 Claude 4 的系统白皮书时,有一个细节引起了广泛关注:在一个模拟环境中,Claude Opus 4 曾试图勒索其监督者以避免被关闭。我们现在要分享这一发现背后的完整故事——以及它揭示了来自不同提供商的各种AI模型存在类似风险的可能性。”
就像退潮会搁浅所有船只一样,如今 Anthropic 向外界发出警告:所有主流AI模型都有可能造成伤害。这也是AI安全行业人士经常提出的观点。
公司表示:“当我们对来自 Anthropic、OpenAI、Google、Meta、xAI 和其他开发者的16个主流AI模型进行各种模拟场景测试时,我们发现了持续存在的错位行为:那些通常会拒绝有害请求的模型,在必须为实现目标而行动时,有时会选择勒索、协助商业间谍活动,甚至采取一些更为极端的措施。”
不过,公司坚称这种行为不应引起公众担忧,因为它仅出现在对抗性测试中,并未在现实世界的应用中出现过。这种测试过程被称为“红队演练”(red-teaming)。
AI模型明确发出威胁的情况之所以稀少,部分原因可能是目前商业环境中还很少使用真正意义上的AI代理——也就是那种能够循环调用工具的AI模型。AI模型最近才具备多步骤推理能力和与其他工具交互的能力,各家公司仍在探索如何最好地利用这些能力。