ElevenLabs 推出 Scribe v2 Realtime：低延迟及时语音辨认模型

383 阅读 0 评论 0 点赞

ElevenLabs 正式宣布 Scribe v2 Realtime，据称这是当前市场上最先辈的低延迟及时语音辨认模型，专为及时场景设计，可以或许将语音即时转换为文字，为语音智能、会议笔记、及时字幕等应用供给基本才能。

Scribe v2 Realtime 采取流式优先架构，支撑 PCM 与 μ-law 等多种音频格局，并具备猜测转写、语音活动检测（VAD）、高低文记忆及复杂术语辨认等核心才能。在 FLEURS 多说话基准测试中，其精确率达 93.5%，明显优于 Google Gemini Flash 2.5、OpenAI GPT-4o Mini 等竞品。

核心亮点：及时、精确、智能

超低延迟：Scribe v2 Realtime 支撑及时流式转写，语音到文字的延迟低至 150 毫秒级，几乎实现“边说边写”。这种延迟表示对于交互式 AI 代理和直播客服等场景尤为关键。
多说话支撑：模型覆盖 90 多种说话，包含英语、法语、西班牙语等主流说话，同时可在同一对话中主动辨认并切换说话，合适跨国和多语种应用处景。
更强的及时懂得才能：经由过程“负延迟猜测”（猜测下一个词和标点）、主动说话检测以及文本前提推理等技巧，晋升了模型的及时连贯性和天然对话体验。
噪音与真实场景适应性强：内部基准测试显示，在包含背景噪音和复杂信息的 500 多条样本中，该模型在噪音情况下仍能保持卓越机能，明显优于现有及时 ASR 筹划。

ElevenLabs 经由过程 Scribe v2 Realtime 出力在及时智能语音辨认范畴打造一套低延迟、高精确、多说话覆盖的解决筹划。该模型不仅实用于 AI 语音代理和会议助手等及时场景，也为开辟者供给了强大年夜的开辟对象与企业级安排支撑。

点赞(0) 打赏

本文分类：互联网
本文标签：ElevenLabs 推出 Scribe v2 Realtime：低延迟实时语音识别模型
浏览次数：383 次浏览
发布日期：2026-01-16 09:57:29
本文链接：https://www.fqpy.com/internet/6563

评论列表共有 0 条评论

暂无评论

ElevenLabs 推出 Scribe v2 Realtime：低延迟及时语音辨认模型

ElevenLabs 推出 Scribe v2 Realtime：低延迟及时语音辨认模型

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复