基于对比学习的声源定位引导视听分割模型_电信技术_IT/计算机/信息技术_学术/知识/论文_文档

文件类型：PDF文档
文件大小：1.82M

　　针对视听分割任务中背景噪声阻碍有效信息交互和物体辨别的问题，提出基于对比学习的声源定位引导视听分割模型（SSL2AVS）.采用从定位到分割的两阶段策略，通过声源定位引导视觉特征优化，从而减少背景噪声干扰，使模型适用于复杂场景中的视听分割.在分割前引入目标定位模块，利用对比学习方法对齐视听模态并生成声源热力图，实现发声物体粗定位；引入特征增强模块，构建多尺度特征金字塔网络，利用定位结果动态地加权融合浅层空间细节特征与深层语义特征，在引导增强目标物体视觉特征的同时抑制背景噪声. 2个模块协同作用，增强物体的视觉表示，使模型专注于物体辨识.为了优化定位结果，提出辅助定位损失函数，促使模型关注与音频特征匹配的图像区域.实验结果表明，模型在MS3数据集上的mIoU为62.15，高于基线AVSegFormer模型.