腾讯混元正式开源翻译模型 1.5 版本,共包含两个模型:Tencent-HY-MT1.5-1.8B和Tencent-HY-MT1.5-7B,支撑33个语种互译以及5种平易近汉/方言,除了中文、英语、日语等常见语种,也包含捷克语、马拉地语、爱沙尼亚语、冰岛语等小语种。
根据介绍,HY-MT1.5-1.8B重要面向手机等花费级设备场景,经由量化,支撑端侧直接安排和离线及时翻译,仅需1GB内存即可流畅运行,并且在参数量极小的前提下,后果跨越了大年夜部分商用翻译API。同时,模型也表现出了极致的效力和性价比,与主流商用翻译模型API比较,HY-MT1.5-1.8B 推理速度更快,处理50个tokens的平均耗时只有0.18秒,其他模型的时光在0.4秒阁下。
在部分用户实际应用处景下,混元翻译1.8B和7B两个尺寸模型同时应用,可以实现端侧和云侧模型的协同安排,晋升模型的后果的一致性和稳定性。
在常用的中外互译和英外互译测试集Flores200、WMT25以及平易近汉说话的测试集中,Tencent-HY-MT1.5-1.8B周全超出中等尺寸开源模型和主流商用翻译API,达到Gemini-3.0-Pro这种超大年夜尺寸闭源模型的90分位程度。在WMT25和平易近汉翻译测试集上,其后果仅略微差于Gemini-3.0-Pro,远超其他模型。


HY-MT1.5-7B模型后果比拟前一版本后果有较大年夜晋升,是此前获得WMT25比赛30个语种翻译冠军模型的进级版,重点晋升了翻译精确率,大年夜幅削减了译文中夹带注释和语种混淆的情况,实用性进一步增长。
HY-MT1.5系列模型在翻译质量与响应效力之间达到了出色的均衡。具体而言,HY-MT1.5-1.8B模型在FLORES-200质量评估中取得了约78%的分数,同时平均响应时光仅为0.18秒,超出主流商用翻译API。
针对各类场景,两个模型均实现了对术语库、长对话、带格局文本(例如网页)的翻译支撑,加倍周全。
以下为混元 Tencent-HY-MT1.5-1.8B 与苹果手机自带离线翻译的成果比较:
技巧方面,HY-MT1.5-1.8B可以或许用小尺寸实现大年夜尺寸模型的后果,得益于On-Policy Distillation(大年夜尺寸模型蒸馏)策略的引入,让 HY-MT1.5-7B 作为 Teacher,及时引导 1.8B 的 Student 模型,让其避免逝世记硬背标准谜底,经由过程改正在猜测序列分布时的偏移,让小模型从缺点中进修,切实晋升才能。



发表评论 取消回复