摘要:近年来,语言模型的迅速发展极大地促进了有监督机器翻译的模型效果。然而,有监督机器翻译的性能高度依赖于平行语料库的质量。针对汉-缅高质量平行语料库资源匮乏的问题,本文提出了一种基于枢轴优化自训练的语料构建方法。首先,利用小规模高质量的汉-缅平行语料训练初始机器翻译模型。然后,基于该模型生成缅甸语到汉语的伪平行语料。同时,引入以英语为枢轴语言的英-缅平行语料,利用现有高质量的英-汉翻译工具将枢轴英语翻译为中文,构建第二组汉-缅伪平行语料。为进一步提高伪平行语料的质量,我们设计了一种跨语言表征的打分机制,基于语义相似度从两组伪平行语料中筛选出质量更高的句对。最终,利用筛选出的高质量伪平行语料对初始翻译模型进行迭代优化训练。实验结果表明,本文方法在汉-缅机器翻译任务中实现了平均8.32 BLEU值的提升。详细的分析实验证明枢轴语言优化方法在初始模型性能较弱时,能够有效增强模型自训练效果,逐步提高伪平行语料质量。此外,本研究构建了70万条高质量汉-缅平行语料,并在https://github.com/clemenze76/ZH-MY-70Wcorpus.git上公开,用于进一步促进汉-缅机器翻译的发展。
文章目录
1 引言
2 相关工作
2.1 缅甸语相关平行语料现状
2.2 基于枢轴语言的机器翻译
2.3 基于枢轴语言的机器翻译
3 基于枢轴优化自训练的汉缅机器翻译语料构建方法
3.1 汉-缅伪平行语料生成
3.2 基于双语表征的语料筛选方法
4 实验设置
4.1 数据集
4.2 实验配置
4.3 实验结果
4.4 扩展实验
4.5 人工评测
结束语