基于枢轴优化自训练的汉缅机器翻译语料构建

2025-06-27 40 1.07M 0

  摘要:近年来,语言模型的迅速发展极大地促进了有监督机器翻译的模型效果。然而,有监督机器翻译的性能高度依赖于平行语料库的质量。针对汉-缅高质量平行语料库资源匮乏的问题,本文提出了一种基于枢轴优化自训练的语料构建方法。首先,利用小规模高质量的汉-缅平行语料训练初始机器翻译模型。然后,基于该模型生成缅甸语到汉语的伪平行语料。同时,引入以英语为枢轴语言的英-缅平行语料,利用现有高质量的英-汉翻译工具将枢轴英语翻译为中文,构建第二组汉-缅伪平行语料。为进一步提高伪平行语料的质量,我们设计了一种跨语言表征的打分机制,基于语义相似度从两组伪平行语料中筛选出质量更高的句对。最终,利用筛选出的高质量伪平行语料对初始翻译模型进行迭代优化训练。实验结果表明,本文方法在汉-缅机器翻译任务中实现了平均8.32 BLEU值的提升。详细的分析实验证明枢轴语言优化方法在初始模型性能较弱时,能够有效增强模型自训练效果,逐步提高伪平行语料质量。此外,本研究构建了70万条高质量汉-缅平行语料,并在https://github.com/clemenze76/ZH-MY-70Wcorpus.git上公开,用于进一步促进汉-缅机器翻译的发展。

  文章目录

  1 引言

  2 相关工作

  2.1 缅甸语相关平行语料现状

  2.2 基于枢轴语言的机器翻译

  2.3 基于枢轴语言的机器翻译

  3 基于枢轴优化自训练的汉缅机器翻译语料构建方法

  3.1 汉-缅伪平行语料生成

  3.2 基于双语表征的语料筛选方法

  4 实验设置

  4.1 数据集

  4.2 实验配置

  4.3 实验结果

  4.4 扩展实验

  4.5 人工评测

  结束语



您还没有登录,请登录后查看详情



 
举报收藏 0打赏 0评论 0
本类推荐
下载排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  蜀ICP备2024057410号-1