【摘 要】在信息化时代背景下,人工智能等数字化技术在行人检测领域得到了广泛的应用,为计算机视觉技术的发展带来了新的突破。在智能驾驶、智能监控等领域的行人检测功能中,视觉注意力机制发挥着重要作用,提供了良好的技术支持,更好地提升了行人识别效率,科学落实行人跟踪等任务。文章将视觉注意力机制应用到行人检测算法领域中,借助深度卷积神经网络特征实现行人检测任务。相较于经典的行人检测算法,该方法能够高效估计目标对象的大致位置,形成目标检测的显著性区域,达到快速定位目标的目的。
【关键词】行人检测;注意力机制;显著性区域;计算机视觉
引言
目前,注意力机制已发展成独立的注意网络[1]。在自动驾驶、智能监控等领域,行人检测都是一项十分重要的任务,通过对行人的识别与准确检测,能够更好地促进各项功能的实现,提高检测效果。从现有的行人检测系统来看,检测算法等还有待完善,如在智能监控系统中,部分行人检测不够精准,尤其是在光线较差的环境下,很难实现对行人的准确检测。因此,在数字化时代背景下,应当积极强化人工智能等技术在行人检测领域的应用。通过应用视觉注意力机制,对行人视觉系统进行模仿,从而实现行人检测的任务[2]。本文将围绕视觉注意力机制展开深入分析,优化行人检测算法,确保能够提高行人检测的效率以及精准度。
一、相关工作
(一)注意力机制
视觉注意力的循环模型是一种将深度神经网络与注意力机制进行融合的工作机制,不仅可以实现对重要区域的预测,同时能够进行网络更新,进而提升检测的准确性。Wang等[3]将注意力机制引入计算机视觉技术中,借助注意力机制建立了全新的非局部网络。
硬注意力机制是一个随机模型,根据注意力分布选择一个输入向量作为输出。软注意力机制使之在对输入信息进行处理时,给每个输入项分配0~1的权重,代表模型对该输入项的关注度。
空间注意力机制是一种自适应的空间区域选择机制。通道注意力机制中的不同通道能够代表不同的目标对象,通过不同权重分配突出通道的贡献度,以抑制没有关系的通道,从而提升模型的性能,优化区域检测效果。其中,SE注意力模块(SqueezeandExcitation,SE)属于通道注意力机制,通过显式建模通道间的依赖关系,使网络能够自适应地增强重要特征,抑制冗余信息。
时间注意力机制主要是对时间序列数据进行加权处理,以提高模型对时间序列数据的理解能力。
(二)Transformer模型
Transformer模型主要由编码器-解码器组成。编码器由自注意力层和前馈网络组成,通过对输入源图像块序列进行编码,提取高级语义特征,包含了多个堆叠的自注意力层和前馈神经网络(Feedforward Neural Network,FNN)。解码器比编码器多了一个编码器解码器注意力层,在某些任务中可以根据编码器的输出来生成目标。
位置编码(Positional Encoding,PE)由正弦波进行表示,该正弦波在线性层之前将流逝的时间作为输入,有助于识别未学习过的序列,并对相对位置进行编码而不是对绝对特征表示进行编码[4]。Transformer不具有对位置信息的感知能力,需要添加位置编码来捕捉图像各块的空间位置信息。
自注意力是Transformer的核心,是一种对所有输入实体之间的关系进行编码的注意力机制。通过计算每个位置与其他位置之间的关联度,得到一个加权求和结果,衡量长距离依赖关系。自注意力机制方法通常使用通道来计算注意力得分。
多头注意力通过多个头的注意力机制并行计算,捕捉不同方面的信息,每个头关注不同的特征或关系,从而更全面地提取图像的特征。
(三)行人检测
行人检测功能的目的在于准确检测行人的位置特征,科学落实检测结果分类。当前,在智能监控、智能驾驶等领域,行人检测都发挥着十分重要的作用。然而,从智能驾驶与智能监控的行人检测工作分析来看,在开放式场景中,行人检测面临着光照变化、遮挡、形变和尺度变化等的挑战,是当前需要重点关注的问题。因此,随着数字化技术的不断发展与成熟,行人检测技术在人工智能等技术的支持下,将实现算法与系统功能的突破,进而实现精准检测行人的目的,有效提升功能的应用价值。


