摘要:黔西北拥有丰富的铅锌矿资源,但由于矿体埋藏较深,找矿难度大。利用机器学习进行的数据驱动的成矿预测正在成为深部隐伏铅锌矿找矿勘探的有力工具。然而,基于机器学习的找矿预测面临着一些普遍的问题,特别是成矿样本少导致训练样本不足和训练样本不平衡等问题。为此,本文提出了一种K均值聚类(K-means Clustering)改进条件表格生成对抗网络(Conditional Tabular Generative Adversarial Network,CTGAN)的见矿样本扩充方法来解决这些问题。具体来说,首先根据K均值聚类后各簇集样本间欧氏距离判断其疏密情况,在稀疏簇集扩充更多的样本以增加其密度实现见矿样本集的扩充。然后,对抗网络生成具有高度抽象的新类别标签,并将新类别标签用于条件生成,从而提高扩充样本的质量。最后,利用扩充后的正样本和随机欠采样的负样本建立数据量充足且平衡的有标签样本集,训练和验证Category Boosting(CatBoost)分类器,建立基于KC-CTGAN-CatBoost成矿预测模型。实验结果表明,相比于未经过KC-CTG AN见矿样本扩充的数据集构建的成矿预测模型,在准确度、召回率、精度和F1-score上分别提高了8.7%、7.4%、10.2%和8.8%,证明KC-CTGAN见矿样本扩充方法的有效性,并提高了成矿预测模型的性能。预测结果将更好地为深部隐伏铅锌矿体的找矿勘探提供更精确的靶区。