OpenAI开辟双向语音模型：被打断也能秒回让通话更天然顺畅

355 阅读 0 评论 0 点赞

为解决这一问题，OpenAI正在开辟的BiDi（双向语音模型）可以或许持续处理措辞者的语音输入，是以在被打断时可以急速调剂回应。比拟之下，现有的语音模型一旦开端生成答复，输出内容就根本固定，无法再根据新的输入进行变更。

这项技巧今朝仍处于开辟阶段。据知恋人士泄漏，原型模型在持续对话几分钟后轻易出现故障，有时甚至会发出不天然的声音。OpenAI研究人员本来欲望本年第一季度宣布BiDi，但今朝最新的宣布时光可能推迟到第二季度或更晚。

今朝ChatGPT的高等语音模式采取的是回合式对话机制，用户必须先说完话，AI才会处理语音并生成答复。假如用户在AI谈话时插入"okay"或"mm-hm"等简短回应，体系平日会直接停止，无法像正常对话那样持续推动交换。

OpenAI认为，假如语音模型可以或许在机能上接近文本模型，AI的应用范围将进一步扩大年夜，因为大年夜多半人更习惯与AI进行语音交换，而不是输入文字。BiDi模型在客服场景中可能尤其有价值。

例如，当顾客与零售商的AI客服通话时，假如顾客在对话过程中临时决定选择换货而非退货，BiDi模型理论上可以让AI客服顺畅调剂对话，而不会忽然停止或出现纷乱。

知恋人士还泄漏，BiDi模型在调用外部对象和应用方面也更灵活。OpenAI此前表示，公司筹划为将来一款重要经由过程语音交互的AI设备改进语音模型，并推敲开辟一款智能音箱，经由过程语音指令即可查看邮件或预订办事。

点赞(0) 打赏

暂无评论

OpenAI开辟双向语音模型：被打断也能秒回 让通话更天然顺畅