OpenAI 表示,开辟者可以经由过程 Playground 直接测试这些新的及时语音模型。 若已安装 Codex,只需在指定提示上点击提交,即可将 GPT‑Realtime‑2 添加到现有应用,或基于该模型快速创建一款新应用。 官方也在其网站长进一步介绍了这三款语音模型的技巧细节,以及部分合作企业已经如安在实际产品中加以应用。

根据 OpenAI 颁布的信息,新系列包含 GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 三个模型。 个中,GPT‑Realtime‑2 被定位为首款具备 GPT‑5 级推理才能的语音模型,可以或许更好地处理复杂请求,并以更天然的方法持续推动对话。 官方介绍称,该模型专为及时语音交互打造,在用户提问或发出指令时,一边进行推理、一边保持对话连贯,同时还能调用对象、处理用户打断和更正,并根据当下情境作出更贴切的回应。

第二款模型 GPT‑Realtime‑Translate 主打及时翻译才能,可支撑“70 多种输入说话和 13 种输出说话”,并在翻译过程中尽量跟上措辞者的语速。 这一特点意味着,跨说话通话、会议或直播等场景,有望经由过程该模型获得更接近“同声传译”的体验。

第三款 GPT‑Realtime‑Whisper 则是一款及时流式语音转写模型,聚焦低延迟语音转文本才能。 OpenAI 表示,该模型可以在措辞者讲话的同时即时完成转录,使得各类及时产品显得更快速、更灵敏、更天然。 从直播字幕“边说边出”,到能跟上评论辩论节拍的会议记录,这类应用处景都被视为 GPT‑Realtime‑Whisper 的重要发力偏向。

在接入方法与价格方面,OpenAI 称三款新语音模型均已纳入其 Realtime API 体系。 GPT‑Realtime‑2 的订价为每 100 万音频输入 Token 收费 32 美元(缓存输入 Token 为 0.40 美元),每 100 万音频输出 Token 收费 64 美元。 GPT‑Realtime‑Translate 的价格为每分钟 0.034 美元,而 GPT‑Realtime‑Whisper 的价格为每分钟 0.017 美元。

在生成式 AI 持续向多模态与及时交互演进的背景下,OpenAI 此次宣布的三款语音模型,被视为其在“语音智能”偏向上的又一重要构造。 跟着推理、翻译与转录才能的同一整合,开辟者将可以或许更轻松地为用户供给“开口就能用”的语音 AI 体验,从助手对象到临盆力应用,再到内容创作与无障碍办事,都有望迎来新一轮摸索与立异。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部