VueBuds 的原型基于索尼 WF-1000XM3 无线降噪耳机改革,在耳机外壳中嵌入米粒大年夜小的诟谇摄像头,经由过程内置的视觉说话模型进行本地或低带宽处理,用户只需开口提问,就可以获得对面前场景的语音描述、物体名称或文字内容的解释与翻译。研究团队在人机交互范畴重要会议 CHI 2026 上揭橥论文,具体介绍了这一体系的设计和实验成果。

从硬件层面看,VueBuds 借助低分辨率诟谇摄像头和低带宽传输,将功耗控制在 5 mW 以下,并在不应用时主动封闭以节俭电量。研究人员称,在一项包含 90 名用户、17 个视觉问答义务的测试中,VueBuds 的答复质量可与内嵌摄像头和大年夜模型的 Ray-Ban Meta 智能眼镜相媲美,显示出将快速成长的视觉说话模型才能带中听机这一大年夜众设备形态的潜力。

演示视频中,一名佩带 VueBuds 的须眉站在公寓厨房内,提出“请描述我面前的场景”这一请求,大年夜约一秒后,耳机中传来一位语气轻松、模仿人类女声的 AI 答复:“我看到一个厨房区域,有一扇窗户带来大年夜量光线。台面上有一些瓶子和一本书。窗户有百叶帘,左侧有一个水槽。”随后,当他注目一张唱片封面并询问专辑名称时,体系很快辨认出这是披头士乐队的《Abbey Road》专辑封面。

项目负责人之一、华盛顿大年夜学保罗·G·艾伦计算机科学与工程学院传授 Shyam Gollakota 表示,团队在设计时充分汲取了Google眼镜的教训——后者因外形突兀、隐私争议巨大年夜,被"大众,"嘲讽为“Glassholes”,最终折戟。Gollakota 指出,比拟眼镜,很多人并不爱好在脸上增长可见设备,而耳机在当下已经是高度普及、社会接收度极高的穿戴形态,是以将视觉功能“藏”进耳机,有望在可用性与隐私感触感染之间取得更好的均衡。

针对常见疑问“耳机摄像头位于脸部两侧,是否会被佩带者本身的头部遮挡视野”,研究人员解释称,VueBuds 借鉴了人类双眼视差的道理,经由过程两枚摄像头的不合视角进行“立体视觉”融合,从而获得对前方场景的懂得才能。不过,受限于今朝仅支撑诟谇画面,VueBuds 无法答复与色彩相干的问题;导航和复杂场景下的高精度翻译仍然须要更高分辨率的彩色摄像头与更强算力支撑。

根据论文中披露的实验数据,在 16 名介入者的测试中,VueBuds 在物体辨认和翻译义务上的精确率约为 83%,在辨认书本标题和作者等义务上精确率约为 93%。研究团队举例称,将来用户有望借助该体系浏览尚未翻译的韩国漫画,或者在中餐馆点“只有中文菜单上才有”的隐蔽菜品,而不再受限于自身的说话才能。

电源和算力限制同样意味着 VueBuds 今朝无法持续、高带宽地进行视频流采集与处理,只合适以“摄影+问答”的间断方法应用。尽管如斯,研究团队认为,其在能耗、体积和响应速度之间的均衡,已经足以证实这一形态作为“视觉智能平台”的可行性,为将来耳机类设备的功能扩大供给了新偏向。

与此同时,隐私与安然风险也成为绕不开的话题。文章指出,几年前曾有公司提出“拍一张照就能辨认陌生人姓名”的应用假想,当时收集优势行的反讽回应是:“那样的话,女性会是以而逝世亡。”VueBuds 在现阶段仅供给有限的安然办法,例如耳机上小小的“工作指导灯”,但不雅察者往往不会心识到一副耳机正在抓拍图像,而结合音频采集、蓝牙连接和第三方人脸辨认办事,这类设备一旦滥用,可能构成“低清仍致命”的严重隐私威逼。

文章指出,若监管部分可以或许制订并履行有效规矩,确保公共安然与小我隐私不受伤害,这类“会看”的耳机设备则有望为视障人士等群体带来明显的便利,极大年夜晋升其生活质量与出行、进修、娱乐等方面的自由度。华盛顿大年夜学在官方消息稿中强调,VueBuds 当前仍处于科研原型阶段,但已展示出将视觉说话模型融入日常穿戴设备的前景,将来可能催生新一代“听得见又看得见”的智能耳机产品形态。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部