首页 > 文档 > 学术/知识/论文 > IT/计算机/信息技术 > 计算机软件及计算机应用

基于枢轴优化自训练的汉缅机器翻译语料构建

2025-06-27 1910 1.07M 0

　　摘要：近年来，语言模型的迅速发展极大地促进了有监督机器翻译的模型效果。然而，有监督机器翻译的性能高度依赖于平行语料库的质量。针对汉-缅高质量平行语料库资源匮乏的问题，本文提出了一种基于枢轴优化自训练的语料构建方法。首先，利用小规模高质量的汉-缅平行语料训练初始机器翻译模型。然后，基于该模型生成缅甸语到汉语的伪平行语料。同时，引入以英语为枢轴语言的英-缅平行语料，利用现有高质量的英-汉翻译工具将枢轴英语翻译为中文，构建第二组汉-缅伪平行语料。为进一步提高伪平行语料的质量，我们设计了一种跨语言表征的打分机制，基于语义相似度从两组伪平行语料中筛选出质量更高的句对。最终，利用筛选出的高质量伪平行语料对初始翻译模型进行迭代优化训练。实验结果表明，本文方法在汉-缅机器翻译任务中实现了平均8.32 BLEU值的提升。详细的分析实验证明枢轴语言优化方法在初始模型性能较弱时，能够有效增强模型自训练效果，逐步提高伪平行语料质量。此外，本研究构建了70万条高质量汉-缅平行语料，并在https://github.com/clemenze76/ZH-MY-70Wcorpus.git上公开，用于进一步促进汉-缅机器翻译的发展。

　　文章目录

　　1 引言

　　2 相关工作

　　2.1 缅甸语相关平行语料现状

　　2.2 基于枢轴语言的机器翻译

　　2.3 基于枢轴语言的机器翻译

　　3 基于枢轴优化自训练的汉缅机器翻译语料构建方法

　　3.1 汉-缅伪平行语料生成

　　3.2 基于双语表征的语料筛选方法

　　4 实验设置

　　4.1 数据集

　　4.2 实验配置

　　4.3 实验结果

　　4.4 扩展实验

　　4.5 人工评测

　　结束语

您还没有登录，请登录后查看详情

平行语料构建机器翻译自训练枢轴语言中文缅甸语

下一篇：多目标优化的杀伤网建模与构建方法
上一篇：L2C可信编译器中的时钟分析/检查及其验证框架探讨

点赞 0举报收藏 0打赏 0评论 0

久存网超级..
加关注4
~~没有留下签名~~~~

本类推荐

	基于Delphi+AHP+FCE的公立医院智慧药房绩效考核指标体系的构建及评价
	面向知识图谱补全的大模型方法综述
	基于多尺度特征融合与矫正的渐进式深度图超分辨率重建
	RC-PBFT: 一种基于信誉分组的改进PBFT算法
	基于细节增强与多尺度特征融合的水下目标检测
	大语言模型与知识图谱协同增强知识组织理论架构研究
	基于注意力的双学生知识蒸馏异常检测方法
	第一类投毒攻击及其特征分析
	道路环境感知的联合特征学习框架
	基于深度学习的壁湍流近壁区域粒子图像测速算法

下载排行