
ElevenLabs 正式宣布 Scribe v2 Realtime,据称这是当前市场上最先辈的低延迟及时语音辨认模型,专为及时场景设计,可以或许将语音即时转换为文字,为语音智能、会议笔记、及时字幕等应用供给基本才能。

Scribe v2 Realtime 采取流式优先架构,支撑 PCM 与 μ-law 等多种音频格局,并具备猜测转写、语音活动检测(VAD)、高低文记忆及复杂术语辨认等核心才能。在 FLEURS 多说话基准测试中,其精确率达 93.5%,明显优于 Google Gemini Flash 2.5、OpenAI GPT-4o Mini 等竞品。
核心亮点:及时、精确、智能
- 超低延迟:Scribe v2 Realtime 支撑及时流式转写,语音到文字的延迟低至 150 毫秒级,几乎实现“边说边写”。这种延迟表示对于交互式 AI 代理和直播客服等场景尤为关键。
- 多说话支撑:模型覆盖 90 多种说话,包含英语、法语、西班牙语等主流说话,同时可在同一对话中主动辨认并切换说话,合适跨国和多语种应用处景。
- 更强的及时懂得才能:经由过程“负延迟猜测”(猜测下一个词和标点)、主动说话检测以及文本前提推理等技巧,晋升了模型的及时连贯性和天然对话体验。
- 噪音与真实场景适应性强:内部基准测试显示,在包含背景噪音和复杂信息的 500 多条样本中,该模型在噪音情况下仍能保持卓越机能,明显优于现有及时 ASR 筹划。

ElevenLabs 经由过程 Scribe v2 Realtime 出力在及时智能语音辨认范畴打造一套低延迟、高精确、多说话覆盖的解决筹划。该模型不仅实用于 AI 语音代理和会议助手等及时场景,也为开辟者供给了强大年夜的开辟对象与企业级安排支撑。

发表评论 取消回复