分享好友 文档首页 文档分类 切换分类

声景识音:数字化时代声学场景分类的探索与前沿

2024-05-25 21:25870下载
文件类型:PDF文档
文件大小:1.27M

  摘要:声学场景分类旨在让计算机模拟人类听觉识别不同的声学环境,是计算机听觉领域中具有挑战性的任务之一。随着智能音频处理技术以及神经网络学习算法快速进步,近年来声学场景分类任务也涌现出一系列新算法和新技术。为了全面展示该领域的技术发展脉络和演进过程,本篇文章梳理了该领域的早期工作和近期发展,提供对声学场景分类的全面介绍。文章首先描述了声学场景分类的应用场景和面临的挑战;其次详细介绍声学场景分类主流框架,重点阐述应用于此领域的深度学习算法,然后系统性总结声学场景分类前沿探索与延伸任务以及公开数据集;最后对声学场景分类的发展趋势进行探讨与展望。

  文章目录

  0 概述

  1 传统声学场景分类算法

  1.1 特征提取

  1.2 传统分类方法

  2 基于深度学习的声学场景分类算法

  2.1 特征融合

  2.2 多声道信息融合

  2.3 数据增强

  2.4 网络拓扑结构及模型优化

  2.4.1 基于卷积神经网络的声学场景分类优化算法

  2.4.2 基于Attention的声学场景分类算法

  2.4.3 基于预训练模型的声学场景分类算法

  3 声学场景分类的前沿探索

  3.1 深度学习下DCASE2023声学场景分类概述

  3.2 基于大模型的计算机听觉领域应用

  4 声学场景分类数据集

  4.1 DCASE挑战赛数据集

  4.2 ESC环境声音分类数据集

  4.3 UrbanSound城市声音分类数据集

  4.4 AudioSet数据集

  4.5 FSD50K数据集

  5 声学场景分类延伸任务

  5.1 闭集/开集分类任务

  5.2 低复杂度分类任务

  5.3 不匹配设备分类任务

  6 总结与展望



登录 后下载文档


1/26专辑:论文下载

举报
收藏 0
打赏 0
评论 0