Google在官方解释中强调,WAXAL 是与多家非洲机构合作的成果,包含乌干达的马凯雷雷大年夜学、加纳大年夜学、卢旺达的 AI 与开源数据公司 Digital Umuganda 以及非洲数学科学研究院等。 Google表示,这一合作框架确保本地伙伴对其采集的数据保存所有权,同时又能将这些资本向全球研究社区开放,用以推动相干技巧成长。

在当前主流人工智能体系中,非洲说话往往难以被精确辨认和懂得,即便生成回应也缺点频出,这已成为非洲科技界广泛存眷的“生计性问题”。 Google于 2 月 3 日正式宣布 WAXAL 数据集,名称来自沃洛夫语中“措辞”一词,项目历时三年开辟,目标是为非洲的研究者和企业供给更具包涵性的技巧基本举措措施。

WAXAL 数据集本身范围宏大年夜,包含跨越 1.1 万小时的语音数据和近 200 万条自力灌音,个中约 1250 小时为为主动语音辨认预备的转写语音,另有 20 多小时的灌音室级音频可用于文本转语音合成。 项目团队有意以宽松许可方法开放数据,许可贸易应用,欲望经由过程开源策略赞助非洲创业者绕开硅谷中介,直接在本地开展立异。

经久以来,美国和中国的科技公司掌控着来自全球的大年夜范围数据集,部分数据在收集过程中缺乏明白告诉与补偿,被用于练习各类 AI 模型。 跟着数据驱动型贸易每年被估计可创造逾 2 万亿美元产值,数据所有权及收益分派问题成为全球争议的核心,很多国度尤其是新兴经济体开端制订框架,将数据留在本国并强化监管。

Google AI 研究项目经理阿卜杜拉耶·贾克指出,经久以来缺乏高质量、宽松授权的语音语料,长短洲语音技巧成长的重要瓶颈,而“成功的关键在于本地对立异周期的所有权”。 他泄漏,已有多家本地机构开端基于 WAXAL 进行应用摸索,例如加纳大年夜学正在应用这些数据推动孕产妇健康研究,并慢慢构建本地 AI 基本举措措施中间,而不仅仅扮演数据采集方。

尼日利亚说话学家与说话专家科拉·图博孙认为,由非洲机构掌控、同时又对外开源的数据,是将来构建非洲说话技巧生态的重要基石。 他同时指出,数据质量仍需当心隐患——例如有学者发明,WAXAL 中的约鲁巴语数据缺乏声调符号,而在约鲁巴语中,变音符号对语音与意义都至关重要,其缺掉可能严重影响文本转语音体系的表示。

在项目推动过程中,技巧与说话学挑衅并存。贾克表示,非洲诸多说话构造复杂、语境层次丰富,方言差别明显,使得转写工作尤为艰苦,团队不得不高度依附各大年夜学说话学系来同一方言和正字法标准。 在硬件层面,要在千差万其余情况中录制接近灌音室水准的音频,也迫使合作方“发挥真正的非洲式创造力”,包含克己便携灌音箱、应用降噪技巧,以知足高保真文本转语音模型的需求。

尽管 WAXAL 已覆盖大年夜量语种和场景,贾克承认非洲大年夜陆内部方言变更巨大年夜,仍有很多社群须要被进一步纳入,避免在新一轮 AI 海潮中再次被边沿化。 他泄漏,今朝还有 6 种说话正在预备中,估计将数据集扩大到 27 种说话,而经久计谋将持续环绕“经由过程伙伴关系实现可持续性”这一核心展开。

在非洲 AI 基本举措措施竞争中,Google并非独一行动者。微软近期推出了名为 Paza 的新对象与基准体系,支撑 39 种非洲说话的主动语音辨认,标记住全球科技公司在向“社区主导型” AI 基建模式转向。 跟着更多开源数据集出现,非洲各国在争夺数据主权、推动本地科技立异和家当收益再分派方面,有望获得更大年夜话语权。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部