摘要:机器学习技术凭借其强大的非线性建模能力,在基因组预测中展现出显著优势,然而基因组数据的高维度与高稀疏性特征导致模型面临计算资源消耗大、收敛速度慢等挑战。本研究以515头荣昌猪的基因组芯片数据为基础,系统比较了全基因组关联研究(Genome-wide Association Study,GWAS)先验位点筛选、SHAP值特征贡献度分析、主成分分析(PCA)及基因组关系分析(G矩阵)构建4种降维策略,并集成梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、核岭回归(Kernel Ridge Regression,KRR)和轻量梯度提升机(Light Gradient Boosting Machine,LightGBM)3类机器学习算法,对背膘厚和眼肌面积性状进行预测建模。结果表明:GBDT模型综合表现最优,背膘厚和眼肌面积的预测准确率分别达0.24~0.27和0.22~0.31,其中基于G矩阵降维的方法在维持预测精度的同时将计算效率提升5~10倍。因此,基于G矩阵降维法可有效突破机器学习在基因组选择中的计算瓶颈。本研究系统评估了不同降维策略与机器学习算法的组合效能,为优化基因组选择模型的计算效率与预测精度提供了重要理论依据,对推进畜禽基因组育种技术的智能化发展具有实践指导意义。
文章目录
1 材料与方法
1.1 试验动物
1.2 表型数据采集与分析
1.3 基因组DNA提取与质检
1.4 基因芯片分型检测
1.5 机器学习模型检验方法
1.6 数据降维
1.6.1 全基因组关联分析
1.6.2 特征值贡献度分析
1.6.3 主成分分析
1.6.4 构建G矩阵
1.7 机器学习模型构建
1.8 机器学习模型优化
2 结果与分析
2.1 表型数据统计结果
2.2 GWAS
2.3 特征值贡献度分析
2.4 交叉检验
2.5 独立检验
2.6 计算效