此外,经由过程“语音+文本”的双重引导,用户不仅能定义 AI 的角色背景,还能精确控制其音色和语调。

英伟达研究团队近日正式宣布了名为 PersonaPlex-7B-v1 的全双工语音对语音对话模型。打破传统 AI 语音助手“听一句、回一句”的逝世板模式,旨在实现更接近真人的天然对话体验。

与以前须要经由过程 ASR(语音转文本)、LLM(大年夜说话模型)、TTS(文本转语音)多个环节串联的架构不合,PersonaPlex采取了一个单一的 Transformer 架构,直接完成语音懂得与生成的全过程。

这种“端到端”的设计极大年夜降低了响应延迟,并付与了 AI 处理天然中断、语音重叠以及即时反馈的才能。简单来说,就像真人聊天一样,AI 在措辞的同时也在持续倾听,即便用户忽然打断,它也能敏捷做出反响。

英伟达在练习中结合了海量真实通话数据与合成场景,使模型既具备天然的说话习惯,又能严格遵守特定行业的营业规矩。今朝的评估成果显示,PersonaPlex-7B-v1在对话流畅度和义务杀青率上均优于多半开源及闭源体系。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部