OpenAI训练AI模型o1与o3以评估安全策略

作者： CBISMB

责任编辑：张金祥

来源： ISMB

时间： 2024-12-23 16:56

关键字： OpenAI

点赞： 0

收藏： 0

在人工智能领域，OpenAI再次迈出了重要的一步，于周五宣布了一系列新的AI推理模型——o3。OpenAI声称o3模型相较于其先前的版本o1以及其他发布的模型，实现了更为显著的进步。这些进步不仅体现在模型性能的提升上，更在于OpenAI引入了一种全新的安全范例，旨在使AI推理模型更加符合人类的价值观。

深思熟虑的一致性：AI与人类价值观的桥梁

OpenAI最新发布的研究聚焦于“深思熟虑的一致性”，这是一种确保AI推理模型在推理过程中与人类开发人员的价值观保持一致的方法。该方法的核心在于，让o1和o3模型在推理阶段“思考”OpenAI的安全政策，从而确保模型的输出与公司的安全原则相契合。

具体而言，当用户在ChatGPT中按下Enter键后，OpenAI的推理模型会花费5秒到几分钟的时间，通过后续问题重新提示自己，将问题分解为更小的步骤，这一过程被称为“思路链”。在思路链阶段，o系列模型会引用OpenAI的安全政策，并在内部“审议”如何安全地回答问题。这种机制使得模型在面对可能引发不安全行为的提示时，能够拒绝协助请求，从而确保输出的安全性。

合成数据：训练后阶段的新方法

审慎对齐不仅发生在推理阶段，还涉及训练后阶段的一些新方法。传统上，训练后阶段需要大量的人工标记和生成答案，但OpenAI此次并未使用任何人工编写的答案或思路。相反，他们采用了合成数据的方法，即由另一个AI模型创建的示例来供AI模型学习。

为了生成高质量的合成数据，OpenAI指示内部推理模型创建思路链式答案的示例，这些答案参考了公司安全政策的不同部分。为了评估这些示例的好坏，OpenAI还使用了另一个内部AI推理模型，称之为“判断”。这种方法不仅提高了数据的质量，还实现了高精度，为模型的对齐提供了有力支持。

安全与争议的平衡

随着人工智能模型的影响力日益增大，人工智能安全研究的重要性也日益凸显。然而，这一领域也充满了争议。一些人认为，一些人工智能安全措施实际上是“审查”，凸显了这些决策的主观性。OpenAI在努力平衡安全与争议的过程中，采取了审慎对齐的方法，旨在确保模型在回答敏感话题时能够遵守公司的安全政策。

然而，协调人工智能模型并非易事。例如，对于如何制造炸弹这样的敏感话题，OpenAI必须考虑到用户可能采用的各种提问方式，并防止模型提供有害信息。同时，OpenAI也不能屏蔽所有包含敏感词汇的提示，以免过度拒绝用户提出的实际问题。因此，如何在安全与开放之间找到平衡点，是OpenAI和大多数其他AI模型开发人员面临的一大挑战。

o3的未来展望

虽然o3模型尚未公开发布，但OpenAI已经对其寄予厚望。预计o3将于2025年推出，届时我们将有机会评估其先进性和安全性。总体而言，OpenAI的审慎对齐方法可能是确保AI推理模型在未来遵守人类价值观的一种方式。随着推理模型变得越来越强大，并被赋予更多的自主权，这些安全措施对公司来说可能变得越来越重要。

通过引入深思熟虑的一致性和合成数据等创新方法，OpenAI正在为AI推理模型的安全性和对齐性开辟新的道路。这些方法不仅有助于提升模型的性能，更有助于确保模型在面对复杂和敏感话题时能够做出正确的决策。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

OpenAI训练AI模型o1与o3以评估安全策略

相关推荐

智库专家

解决方案