分享好友 文档首页 文档分类 切换分类

基于对比学习的声源定位引导视听分割模型

2025-05-20 16:2840下载
文件类型:PDF文档
文件大小:1.82M

  针对视听分割任务中背景噪声阻碍有效信息交互和物体辨别的问题,提出基于对比学习的声源定位引导视听分割模型(SSL2AVS).采用从定位到分割的两阶段策略,通过声源定位引导视觉特征优化,从而减少背景噪声干扰,使模型适用于复杂场景中的视听分割.在分割前引入目标定位模块,利用对比学习方法对齐视听模态并生成声源热力图,实现发声物体粗定位;引入特征增强模块,构建多尺度特征金字塔网络,利用定位结果动态地加权融合浅层空间细节特征与深层语义特征,在引导增强目标物体视觉特征的同时抑制背景噪声. 2个模块协同作用,增强物体的视觉表示,使模型专注于物体辨识.为了优化定位结果,提出辅助定位损失函数,促使模型关注与音频特征匹配的图像区域.实验结果表明,模型在MS3数据集上的mIoU为62.15,高于基线AVSegFormer模型.



登录 后下载文档


举报
收藏 0
打赏 0
评论 0