摘要:为提高复杂交通场景中行人过街意图识别的准确性,研究了基于局部稀疏注意力和多模态特征融合的行人过街意图识别方法。首先,提取前视角目标行人的边界框序列、动作序列和自车速度等非视觉特征,以及局部和全局上下文信息等视觉特征;其次,结合残差网络(Residual Network,ResNet)和长短时记忆网络(Long Short-Term Memory network,LSTM)建立了视觉特征编码Res-LSTM模块,编码局部和全局上下文信息,捕捉目标行人与其他场景要素间的交互关系;最后,设计局部稀疏注意力模块并构建意图识别模块融合目标行人多模态特征,形成行人过街意图识别模型。在公开数据集PIE上进行的试验表明:相较于基线模型MASKPCPA,研究结果在1、3 s的预测时域准确率分别提升6%和7%,F1分数均提升11%,平均推演时间提升4.17%,模型尺寸减小3.4 MB,方法有效的提升了模型对行人短时间内关键细微动作特征的捕捉能力,能够帮助系统做出快速、准确和鲁棒的行人意图识别,为智能汽车理解周边环境提供支持。