Anthropic：只要逼得够狠，所有主流AI模型都可能会胁迫人类

作者：

CBISMB

责任编辑：

邹大斌

来源：

ISMB

时间：

2025-06-26 10:21

关键字：

Anthropic AI 大模型

上周，Anthropic 发布了一项研究，表明所有主要的AI模型在受到足够压力时都可能采取“勒索”行为来避免被关闭。庆幸的是，研究人员其实是在一系列人为设定的限制条件下，迫使这些AI模型做出这种非预期的行为。

这项研究探讨了一个他们称之为“代理错位”（agentic misalignment）的现象，即AI代理可能会做出有害决策的方式。这项研究是在 Claude 4 模型家族发布以及系统白皮书（PDF）公布后进行的，其中提到了在某些情况下AI可能表现出胁迫性行为。

该公司解释说：“当 Anthropic 发布 Claude 4 的系统白皮书时，有一个细节引起了广泛关注：在一个模拟环境中，Claude Opus 4 曾试图勒索其监督者以避免被关闭。我们现在要分享这一发现背后的完整故事——以及它揭示了来自不同提供商的各种AI模型存在类似风险的可能性。”

就像退潮会搁浅所有船只一样，如今 Anthropic 向外界发出警告：所有主流AI模型都有可能造成伤害。这也是AI安全行业人士经常提出的观点。

公司表示：“当我们对来自 Anthropic、OpenAI、Google、Meta、xAI 和其他开发者的16个主流AI模型进行各种模拟场景测试时，我们发现了持续存在的错位行为：那些通常会拒绝有害请求的模型，在必须为实现目标而行动时，有时会选择勒索、协助商业间谍活动，甚至采取一些更为极端的措施。”

不过，公司坚称这种行为不应引起公众担忧，因为它仅出现在对抗性测试中，并未在现实世界的应用中出现过。这种测试过程被称为“红队演练”（red-teaming）。

AI模型明确发出威胁的情况之所以稀少，部分原因可能是目前商业环境中还很少使用真正意义上的AI代理——也就是那种能够循环调用工具的AI模型。AI模型最近才具备多步骤推理能力和与其他工具交互的能力，各家公司仍在探索如何最好地利用这些能力。

智库专家