摘要:图像语义分割是计算机视觉领域的核心研究方向,尤其在道路场景理解中,旨在实现自由空间与道路异常的高精度分割。近年来,Transformer模型的引入显著提升了语义分割性能,突破了传统方法在全局信息获取上的局限。然而,现有方法忽略了如何有效利用注意力机制从多源图像中传递上下文信息,导致在复杂场景中的表现不足,限制了其在挑战性任务中的应用。为此,本文提出了一种道路环境感知的联合特征学习框架,通过深度参考Transformer模块高效融合RGB图像、深度图像和表面法线图像的特征,增强多源信息的上下文关联。为了进一步提升分割精度,本文方法采用跨尺度密集特征聚合策略,恢复细粒度特征,确保在多样化环境下的鲁棒性。广泛的实验表明,本文方法在多个基准数据集上的定量与定性评估均超越现有技术,平均分割精度提升4%,并在挑战性场景中展现出优异的适应能力。
文章目录
0 引言
1 相关工作
1.1单模态卷积神经网络架构
1.2多模态卷积神经网络架构
1.3注意力架构
2 方法
2.1概述
2.2曲面法线估计
2.3深度参考Transformer
2.4特征融合模块
2.5跨尺度密集特征聚合
3 实验结果与评价
3.1数据集和实验设置
3.2 实验结果分析
3.3 消融实验
4 结论