基于对比学习的声源定位引导视听分割模型

2025-05-20 1590 1.82M 0

　　针对视听分割任务中背景噪声阻碍有效信息交互和物体辨别的问题，提出基于对比学习的声源定位引导视听分割模型（SSL2AVS）.采用从定位到分割的两阶段策略，通过声源定位引导视觉特征优化，从而减少背景噪声干扰，使模型适用于复杂场景中的视听分割.在分割前引入目标定位模块，利用对比学习方法对齐视听模态并生成声源热力图，实现发声物体粗定位；引入特征增强模块，构建多尺度特征金字塔网络，利用定位结果动态地加权融合浅层空间细节特征与深层语义特征，在引导增强目标物体视觉特征的同时抑制背景噪声. 2个模块协同作用，增强物体的视觉表示，使模型专注于物体辨识.为了优化定位结果，提出辅助定位损失函数，促使模型关注与音频特征匹配的图像区域.实验结果表明，模型在MS3数据集上的mIoU为62.15，高于基线AVSegFormer模型.

您还没有登录，请登录后查看详情

视听分割跨模态交互声源定位对比学习特征增强

下一篇：航天装备保障链概念特点与模型构建研究
上一篇：新型温控型镍钛合金尿道支架系统联合药物治疗良性前列腺增生的临床效果观察

点赞 0举报收藏 0打赏 0评论 0

久存网超级..
加关注4
~~没有留下签名~~~~

本类推荐

	基于DRL的多服务器接入边缘计算卸载与资源调度
	基于混合深度学习架构的WiFi指纹室内定位方法
	基于专利分析的6G天地一体化网络调制技术发展研究
	基于改进Real-ESRGAN的毫米波雷达图像增强算法
	基于可见光通信的光互连关键技术研究
	车载和船载测控设备馈源校相研究
	基于TS-OMP的IRS辅助毫米波大规模MIMO信道估计方案
	标签稀缺及低信噪比条件下的辐射源驱动频谱状态感知
	基于MLFFNN的相控阵馈源波束合成方法
	基于近场聚焦原理的双层全金属惠更斯超表面透镜天线

下载排行