
为了让 EMO 学会若何用“神情肌肉”控制嘴型,研究人员起首将它放在镜子前,让其在无人干涉的情况下随机做出成千上万种面部神情,并及时不雅察镜中反馈。在这一过程中,体系慢慢建立起电机组合与视觉神情变更之间的对应关系,这种进修框架被称为“视觉到动作”(Vision-to-Action,VLA)说话模型。
这款机械人由机械人学博士生胡宇航(Yuhang Hu)、传授霍德·利普森(Hod Lipson)及其团队开辟,本质上是一个覆盖柔性硅胶“皮肤”的机械人头部构造。在硅胶面手下方安排了 26 个微型电机,不合组合驱动时可以拉动面部产生各类神情,同时塑造不合外形的嘴唇。
在控制“神情—电机”映射后,机械人开端进入“模仿人类措辞”的阶段。研究团队为 EMO 输入了大年夜量人类措辞和唱歌的 YouTube 视频,用于分析不合语音在发出时嘴部应出现的活动模式,进而进修各类声音对应的口形特点。厥后,体系将这部分常识与先前获得的 VLA 模型融合,使机械人在经由过程合成语音模块发声时,可以或许同步生成与语音内容相匹配的唇部动作。
今朝,这一技巧仍然不算完美,EMO 在发出诸如“B”“W”等辅音时仍存在明显艰苦,整体口型调和剂还有晋升空间。研究人员表示,跟着机械人赓续演习措辞,其口型控制精度和与人天然对话的流畅度都有望进一步改良。
胡宇航指出,当这种对口型才能与 ChatGPT、Gemini 等对话式人工智能体系结应时,人类与机械人的互动将产生加倍“有温度”的连接后果。他认为,机械人不雅看人类对话的次数越多,就越能逼真地模仿那些带有情感色彩的细微面部动作,而跟着对话“高低文窗口”的延长,这些神情和动作也会变得加倍贴合语境。
相干研究论文已揭橥于《Science Robotics》期刊,更多技巧细节由哥伦比亚大年夜学工程学院对外宣布。这项工作被视为推动将来社交机械人、虚拟主持与人形办事机械人天然交互才能的一项关键进展。

发表评论 取消回复