OpenAI 发布语音模型 GPT-realtim,可用于开发语音智能体
头像 Song老师不是AI 2025-09-02 12:02:04    发布
319 浏览 3 点赞 2 收藏

据OpenAI官方消息,OpenAI正式发布语音模型GPT-Realtime,并对Realtime API进行全面升级,将其从测试阶段推进至正式生产环境。此次更新旨在助力企业和开发者打造更可靠、适用于实际生产的语音智能体。

GPT-Realtime是OpenAI迄今最先进的语音转语音模型,采用端到端Speech-to-Speech架构,无需文本转换步骤,可直接处理和生成语音。相比前代版本,它在处理复杂指令时更加精准,生成的语音更自然、富有表现力,能捕捉如笑声等非语言信号,支持对话中途语言切换,还可根据需求调整语音语气,如模拟“带法国口音的友好语调”。此外,模型新增“Cedar”和“Marin”两种语音,并优化了现有的8种语音效果。在性能基准测试中,GPT-Realtime表现卓越,在Big Bench Audio基准测试中准确率从65.6%跃升至82.8%,MultiChallenge基准测试从20.6%提升至30.5%,ComplexFuncBench基准测试从49.7%提高到66.5%。

Realtime API此次更新支持远程MCP服务器、图像输入以及通过会话发起协议(SIP)进行电话呼叫,开发者可通过SIP与远程媒体控制协议(MCP)服务器连接外部工具与服务。同时,API新增可复用提示词功能,开发者能保存不同场景下的配置与工具设置,提升开发效率。并且,API具备检测问题内容的能力,可自动终止违反平台政策的会话。针对欧盟用户,提供数据本地化存储选项,并制定特殊隐私规则以符合当地数据保护法规。价格方面,GPT-Realtime使用成本降低20%,音频输入token每百万个32美元,音频输出token每百万个64美元,缓存输入token每百万个0.40美元 。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。
分类
业界新闻
头像

Song老师不是AI

我还没有写个人简介......

117

帖子

0

提问

102

粉丝

关注
热门推荐
地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除

京ICP备:2022009079号-2

京公网安备:11010502051901号

ICP证:京B2-20230255