为解决这一问题,OpenAI正在开辟的BiDi(双向语音模型)可以或许持续处理措辞者的语音输入,是以在被打断时可以急速调剂回应。比拟之下,现有的语音模型一旦开端生成答复,输出内容就根本固定,无法再根据新的输入进行变更。

这项技巧今朝仍处于开辟阶段。据知恋人士泄漏,原型模型在持续对话几分钟后轻易出现故障,有时甚至会发出不天然的声音。OpenAI研究人员本来欲望本年第一季度宣布BiDi,但今朝最新的宣布时光可能推迟到第二季度或更晚。

今朝ChatGPT的高等语音模式采取的是回合式对话机制,用户必须先说完话,AI才会处理语音并生成答复。假如用户在AI谈话时插入"okay"或"mm-hm"等简短回应,体系平日会直接停止,无法像正常对话那样持续推动交换。

OpenAI认为,假如语音模型可以或许在机能上接近文本模型,AI的应用范围将进一步扩大年夜,因为大年夜多半人更习惯与AI进行语音交换,而不是输入文字。BiDi模型在客服场景中可能尤其有价值。

例如,当顾客与零售商的AI客服通话时,假如顾客在对话过程中临时决定选择换货而非退货,BiDi模型理论上可以让AI客服顺畅调剂对话,而不会忽然停止或出现纷乱。

知恋人士还泄漏,BiDi模型在调用外部对象和应用方面也更灵活。OpenAI此前表示,公司筹划为将来一款重要经由过程语音交互的AI设备改进语音模型,并推敲开辟一款智能音箱,经由过程语音指令即可查看邮件或预订办事。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部