摘要:煤矸分选机器人对煤矿智能化发展意义重大,煤矸识别是煤矸分选机器人的核心技术,针对传统识别技术面对高噪声、运动模糊等复杂工况时,存在识别效率低、准确性不足的问题。提出一种基于SegFormer-CG的煤矸石识别技术,以提升识别的实时性和准确率。该模型的编码器采用SegFormer 的Transformer架构提取多尺度特征,采用轻量级的MiT-B0作为编码器,解码器设计融合模块增强语义分割性能。在解码器的C1,C2,C3特征图后引入瓶颈模块(Bottleneck)增强模型特征提取能力,并采用深度可分离卷积(Depthwise Separable Convolution, DSConv)与全维度动态卷积(Omni-Dimensional Dynamic Convolution, ODConv)改进瓶颈模块,降低参数量与计算量;同时在C4特征图引入空洞空间金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)模块,并采用深度可分离卷积和5×5卷积对ASPP改进,提升模型多尺度融合能力;在C3,C4特征图后加入交叉注意力机制(Criss-Cross Attention, CCA)使模型聚焦于关键信息,加强模型关键特征提取能力。训练采用两阶段迁移学习策略,先冻结主干网络进行50轮特征适配训练,再解冻全局参数优化,有效增强模型对煤矸图像的泛化能力。实验结果表明SegFormer-CG模型的精确率(Precision)达到96.39%,召回率(Recall)达到96.29%,平均交并比(mean Intersection over Union,mIoU)达到93.03%,相较原模型精确率提升1.32%,召回率提升0.59%,平均交并比提升1.73%。参数量(parameters,Params)为5.14M,浮点计算量(Floating Point Operations,FLOPS)为5.9G,每秒帧数(Frames Per Second,FPS)为50.92 f·s-1。与其他常见模型如PSPNet、DeepLabV3+和Unet对比,SegFormer-CG模型均取得更优秀的识别效果,且在参数量,浮点计算量都有明显优势。在加噪、运动模糊和低光照的复杂工况下仍保持稳定识别效果,且对新疆、陕西矿区样本具有泛化能力。为选矸机器人高效识别提供了可靠技术支持。
文章目录
1 SegFormer-CG模型概述
1.1 SegFormer模型结构
1.2 瓶颈模块
1.3 空洞空间金字塔池化
1.4 交叉注意力
1.5 SegFormer-CG模型
2 数据采集与处理
3 实验结果与分析
3.1模型训练
3.2性能评价指标
3.3添加不同瓶颈模块实验结果
3.4添加不同注意力机制实验结果
3.5添加不同空间池化结构实验结果
3.6 消融实验
3.7不同煤矸语义分割模型对比分析
3.8识别效果对比
3.9鲁棒性测试
3.10泛化性测试
4结论