OpenAI训练AI模型o1与o3以评估安全策略
作者: CBISMB
责任编辑: 张金祥
来源: ISMB
时间: 2024-12-23 16:56
关键字: OpenAI
浏览: 3
点赞: 0
收藏: 0
在人工智能领域,OpenAI再次迈出了重要的一步,于周五宣布了一系列新的AI推理模型——o3。OpenAI声称o3模型相较于其先前的版本o1以及其他发布的模型,实现了更为显著的进步。这些进步不仅体现在模型性能的提升上,更在于OpenAI引入了一种全新的安全范例,旨在使AI推理模型更加符合人类的价值观。

深思熟虑的一致性:AI与人类价值观的桥梁
OpenAI最新发布的研究聚焦于“深思熟虑的一致性”,这是一种确保AI推理模型在推理过程中与人类开发人员的价值观保持一致的方法。该方法的核心在于,让o1和o3模型在推理阶段“思考”OpenAI的安全政策,从而确保模型的输出与公司的安全原则相契合。
具体而言,当用户在ChatGPT中按下Enter键后,OpenAI的推理模型会花费5秒到几分钟的时间,通过后续问题重新提示自己,将问题分解为更小的步骤,这一过程被称为“思路链”。在思路链阶段,o系列模型会引用OpenAI的安全政策,并在内部“审议”如何安全地回答问题。这种机制使得模型在面对可能引发不安全行为的提示时,能够拒绝协助请求,从而确保输出的安全性。
合成数据:训练后阶段的新方法
审慎对齐不仅发生在推理阶段,还涉及训练后阶段的一些新方法。传统上,训练后阶段需要大量的人工标记和生成答案,但OpenAI此次并未使用任何人工编写的答案或思路。相反,他们采用了合成数据的方法,即由另一个AI模型创建的示例来供AI模型学习。
为了生成高质量的合成数据,OpenAI指示内部推理模型创建思路链式答案的示例,这些答案参考了公司安全政策的不同部分。为了评估这些示例的好坏,OpenAI还使用了另一个内部AI推理模型,称之为“判断”。这种方法不仅提高了数据的质量,还实现了高精度,为模型的对齐提供了有力支持。
安全与争议的平衡
随着人工智能模型的影响力日益增大,人工智能安全研究的重要性也日益凸显。然而,这一领域也充满了争议。一些人认为,一些人工智能安全措施实际上是“审查”,凸显了这些决策的主观性。OpenAI在努力平衡安全与争议的过程中,采取了审慎对齐的方法,旨在确保模型在回答敏感话题时能够遵守公司的安全政策。
然而,协调人工智能模型并非易事。例如,对于如何制造炸弹这样的敏感话题,OpenAI必须考虑到用户可能采用的各种提问方式,并防止模型提供有害信息。同时,OpenAI也不能屏蔽所有包含敏感词汇的提示,以免过度拒绝用户提出的实际问题。因此,如何在安全与开放之间找到平衡点,是OpenAI和大多数其他AI模型开发人员面临的一大挑战。
o3的未来展望
虽然o3模型尚未公开发布,但OpenAI已经对其寄予厚望。预计o3将于2025年推出,届时我们将有机会评估其先进性和安全性。总体而言,OpenAI的审慎对齐方法可能是确保AI推理模型在未来遵守人类价值观的一种方式。随着推理模型变得越来越强大,并被赋予更多的自主权,这些安全措施对公司来说可能变得越来越重要。
通过引入深思熟虑的一致性和合成数据等创新方法,OpenAI正在为AI推理模型的安全性和对齐性开辟新的道路。这些方法不仅有助于提升模型的性能,更有助于确保模型在面对复杂和敏感话题时能够做出正确的决策。