基于对比学习的声源定位引导视听分割模型

2025-05-20 40 1.82M 0

  针对视听分割任务中背景噪声阻碍有效信息交互和物体辨别的问题,提出基于对比学习的声源定位引导视听分割模型(SSL2AVS).采用从定位到分割的两阶段策略,通过声源定位引导视觉特征优化,从而减少背景噪声干扰,使模型适用于复杂场景中的视听分割.在分割前引入目标定位模块,利用对比学习方法对齐视听模态并生成声源热力图,实现发声物体粗定位;引入特征增强模块,构建多尺度特征金字塔网络,利用定位结果动态地加权融合浅层空间细节特征与深层语义特征,在引导增强目标物体视觉特征的同时抑制背景噪声. 2个模块协同作用,增强物体的视觉表示,使模型专注于物体辨识.为了优化定位结果,提出辅助定位损失函数,促使模型关注与音频特征匹配的图像区域.实验结果表明,模型在MS3数据集上的mIoU为62.15,高于基线AVSegFormer模型.



您还没有登录,请登录后查看详情



 
举报收藏 0打赏 0评论 0
本类推荐
下载排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  蜀ICP备2024057410号-1