摘要:为研究神经网络在面对安全威胁时的鲁棒性与可信性问题,聚焦于其在投毒攻击下的脆弱性,在系统分析第一类对抗攻击与第二类对抗攻击特征的基础上,结合神经网络在特征学习中的结构性缺陷,提出第一类投毒攻击的概念。通过理论分析建模,明确第一类投毒攻击与现有的“干净标签”、特征碰撞等投毒攻击在特征层面的本质差异。基于监督变分自编码器构建第一类投毒样本生成框架,并在ResNet50、VGG16、MobileNetV2等常用深度神经网络模型上开展实验。结果表明,第一类投毒攻击方法在不破坏标签一致性的前提下,有效干扰模型的分类决策,能够在典型神经网络构架上诱导模型产生分类错误。此外,防御实验表明,第一类投毒攻击可绕过现有主流防御机制,使现有主要防御机制失效。第一类投毒攻击具有较强的隐蔽性和破坏性,是一种值得深入研究的新型安全威胁形式,该攻击方法的提出对于未来构建更安全、鲁棒性更强的神经网络系统具有重要意义。
文章目录
1 投毒攻击主要相关研究
2 两类投毒方法理论分析
2.1 投毒攻击分类
2.2 问题描述
2.3 第一类投毒攻击
2.4 基于特征空间的两类投毒攻击本质解析
3 实验与分析
3.1 数据集
3.2 实验环境及参数设置
3.3 不同网络模型下第一类投毒攻击的有效性验证
3.4 基于第二类投毒防御方法的第一类投毒攻击鲁棒性分析
4 结 论