文件大小:1.09M
摘要:在三维声音事件定位与检测任务中,多声音事件的重叠导致无法从复杂信号当中有效地提取出每个声源的特征,此外为满足实际需求,在声音事件定位与检测任务当中引入距离估计任务,这增加了任务处理难度。针对上述问题,该文提出基于融合编码策略与通道增强的声音事件定位与检测算法,利用融合编码策略让模型能够将不同编码策略的特征进行自适应融合,增强对复杂信号中关键特征的提取能力;且根据声学信号在频域上表现出不同的频率分布和能量集中度的特性,结合离散余弦变换从通道维度出发,对信号的重要频率进行加权,学习每个通道不同频率的重要性,加强模型在频域上的建模,提升模型对关键信号的捕捉能力。实验结果表明,该文提出的模型性能要优于基线模型,当引入距离估计任务时,提出算法综合性能优于部分现有模型,为三维声音事件定位与检测任务提供了新的思路。
文章目录
0 引言
1 基于FCS与CE的模型
1.1 FCS模块
1.2 基于DCT的CE模块
2 实验分析
2.1 数据集
2.2 数据增强
2.3 评价指标
2.4 实验分析与讨论
3 结论