首页 > 心得体会 > 学习材料 / 正文

红外交通场景下遮挡行人目标检测算法研究

2023-02-24 19:30:05 ℃

李明益,贺敬良,2,陈勇,2,赵理,2,龙震海

(1.北京信息科技大学机电工程学院,北京100192；
2.北京电动车辆协同创新中心,北京100192；
3.北京理工大学机械与车辆学院,北京 100081)

随着智能化交通系统的逐渐发展,交通出行更加人性化。但是行人在复杂的交通场景中仍然存在着较多的安全隐患,近年来非机动外卖车辆、行人在交通高锋路口由于行人与车辆之间存在遮挡、视野盲区情况不能及时相互避让,导致交通事故时有发生。夜晚交通场景下对人流密集交汇路段的行人识别感知逐渐成为交通安全关注的重点,针对上述问题,本文提出基于帧间长程范围特征融合的行人目标检测方法,将不同区域特征进行融合,实现夜间交通场景下遮挡行人的准确检测。

基于深度学习的行人检测算法逐渐应用在交通等安全领域,文献[1]系统分析了交通行人检测对不同网络模型性能比较,其中Fater R-cnn Resnet50在处理速度和准确性的总体性能上更适应场景检测需求,通过跳跃连接可有效避免了梯度消失等问题,为工业应用提供了参考模型。文献[2]提出一种夜间多任务行人检测和距离估计的Faster R-cnn模型通过NIR相机与激光雷达配合检测以满足夜间真实场景下PD精度80 %,平均绝对距离误差小于5 %的精度需求,但模型推理时间有一定损耗。

文献[3]对红外图像进一步处理,使用强显著图提取红外图像中的行人特征,作为行人检测器的注意力机制,并使用PiCA-Net和R3-Net方法验证显著图网络比基准原图提升了7.7 %,但是在复杂重叠场景中存在漏检情况。

综上所述,夜间红外交通场景下的行人检测存在目标区域识别划分、复杂场景下人物形状与运动特征无法精确检测等问题,相较于已有研究,本文主要创新如下:

1)针对红外行人检测场景中存在行人形状轮廓与行人实时运动检测特点,针对行人在马路中的步态,使用non-local模块和EPS模块,可以有效提取图像前后帧周期性信息来判定行人目标,以提高了模型在行人密集场景检测的鲁棒性,并加快了模型推理速度。

2)针对红外真实交通路口中行人、自行车灯密集交错的穿行场景,其行人穿行中纹理信息与特征轮廓不稳定的情况,侧重对行人运动形状特征检测,增加YOLOv5中的Head检测头,将上采样特取的特征与浅层特征进一步融合,提高行人检测特征轮廓,并使用160×160检测层和自适应Anchor对远距离行人目标进行预判,增强远距离行人检测的判别精度。

3)本文使用FLIR、Daimler红外图像数据集,针对交通道路场景中的行人穿行场景进行红外图像行人纹理信息、轮廓特征进行数据预处理和标签预处理,并使用Mosaic数据增强提高模型检测的泛化性。

YOLOv5算法相比较YOLO系列算法[4-7],主要对主干网络及Anthor进行了进一步修改。YOLOv5在Backbone中添加改进了Focus模块和BottlenneckCSP模块。根据模型卷积个数及BottleneckCSP模块堆叠,实现不同场景检测需求。以YOLOv5l 3.0版本为例,具体网络结构如图1所示。CBL、SPP、Concat和Upsample模块是YOLO v3和YOLO v4中的原始模块,而YOLO v5s网络模型中增添了Focus特征图切片操作、自适应Anchor、两种不同功能的bottleneckCSP模块和GIOU Loss损失函数,以增强基础层网络特征融合,自适应匹配和模型多样性进一步提升基于回归问题的快速检测能力。

受到Focus的启发,在Concat拼接成在集中下采样的通道空间,如何高效的提取通道空间中不同尺度的特征图信息,并建立跨通道长范围的特征依赖关系,我们引入PSA模块。

YOLOv5参考CSPNet的模型思想[8],设计两种不同的BottleneckCSP结构,分别记作CSP1_X和CSP2_X,其区别在于是否在Bottleneck中添加shortcut连接,添加后即为 ResNet残差组模块。图2(a)为BottleneckCSP结构,YOLOv5代码中将BottleneckCSP看成由标准bottleneck块与标准卷积层的叠加而成,其中CSP1_X用于快速卷积提取特征,CSP2_X用于不同层次特征融合,X为Bottleneck中X个残差组件。图2(b)为Bottleneck瓶颈层的残差卷积模块,虚线为shortcut操作执行恒等映射,保证卷积层与输入通道数映射一致,通过element-wise叠加,得到最终的输出特征,将X个ResNet模块串联成更深层模型,可有效解决错误率退化问题。

(a)

通过上述对YOLOv5的分析,引入ResNet残差可获得更有效学习,并在Head中多尺度信息进行有效传递融合,保证特征的丰富性。尽管YOLOv5有着快速识别和自适应锚框等优点,但是其对小目标特征提取,遮挡物体之间的联系仍有不足,并且特征融合网络更加关注高层语义信息。因此,在此基础上提出改进方法,增加模型对夜间交通道路场景行人的检测能力。

2.1 改进的YOLOv5l模型

针对夜间交通场景中纹理信息和特征轮廓不明显,道路中穿行的行人存遮挡检测效果不理想的情况,其网络在提取特征时存在特征遮挡,对夜间行人识别正确率上存在缺陷。基于上述情况为保证多尺度目标检测精度及提取细粒度特征不失真的情况下,能够精确的检测到夜间不同尺寸的行人,设计增添特征层的上采样,在上采样的过程中再添加一组提取特征模块,并与浅层Backbone网络的特征进行融合,获得输出为160×160×256小目标检测层。并采用Non-local和PSA模块,通过实验发现增加提取特征模块,一方面可对长程远距离特征产生更好的关联性,另一方面在夜间情况下能够改善夜间远距离行人目标的特征映射以及存在遮挡的检测情况,在模型参数得到优化压缩的情况下,验证提升夜间远距离行人检测精度的可行性。改进后的YOLOv5l网络结构如3所示。

图3 改进的YOLOv5l网络结构

2.2 PSA注意力机制

针对夜间交通道路上远近不同尺度的特征信息不易识别存在遮挡的情况,如何通过丰富训练的特征空间进行高效捕获,同时目前的空间或通道注意力机制只能捕获局部信息,没有建立有效的长范围通道依赖。针对如何建立长程范围通道依赖关系,我们借助EPSANet[9]思想使用一种高性能,有效的金字塔式PSA注意力模块,嵌入到CSPbottleneck模型中在不增加模型参数量的情况下丰富模型表征。

通过将预输入通道数为C的特征图X,使用SPC压缩合并模块,压缩输出张量通道维数,对每个通道的的特征图信息进行分组卷积提取不同尺度的有效空间信息,通过信道的多尺度权重建立跨维度交互,从而建立长程信道依赖性。如图4所示为PSA模块结构。

图4 PSA 模块结构

图5 SPC 算子结构图

提出一种根据Kernel Size自适应选取分组数的策略,第i个卷积核尺寸Ki与组数G之间关系如下:

(1)

Ki=2×(i+1)+1

(2)

根据不同卷积尺寸大小与组数,可以得出多尺度特征图组函数Fi和整体拼接后多尺度通道特征图F:

Fi=Conv(ki×ki,Gi)(X)i=0,1,2,…,S

(3)

F=Cat([F0,F1,…,FS-1]

(4)

其次为提高提取特征效率,使用SE Weightmodule对多尺度通道特征图提取通道注意力权重向量信息用Zi表示,其中Zi∈RC′×1×1,有:

Zi=SEWeight(Fi),i=0,1,2,…,S-1

(5)

为了融合通道间不同尺度的特征信息,建立长范围通道依赖关系,可以在通道向量不变的情况下,串联concat算子用⊕表示,以融合拼接跨维向量。

Z=Z0⊕Z1⊕…⊕ZS-1

(6)

(7)

att=att0⊕att1⊕…⊕attS-1

(8)

最后通过Softmax归一化重新校准通道的向量,获得校准权重att与相应尺度特征图Fi的乘积得到丰富细化的特征图输出Yi:

Yi=Fi⊙attii=1,2,3,…S-1

(9)

如图6所示,PSA模块可以将多尺度空间信息和跨通道注意力整合到每个特征组的块中,更好的实现局部通道注意力和全局通道注意力之间的信息交互,我们将PSA模块添加到YOLOv5的Bottleneck CSP中将3×3卷积替换为 PSA模块减少参数量并自适应校准跨纬度通道权重,能够细化提取多尺度空间信息,形成长程范围通道依赖。

图6 改进后的PSA-Bottleneck结构

2.3 Non-local 非局部邻域

本文借鉴non-local的核心思想[10],为增加在卷积操作过程中局部领域构造块的操作,在PSA长程范围通道依赖的基础上,通过非局部域操作对两个位置之间的交互信息建立起空间、时间依赖关系,并通过前馈方式捕捉位置依赖信息。

Non-local采用逐步图片所有位置的每个像素点计算前后帧像素的位置相关性,而不只针对邻域计算局部特征区域。计算每个像素点生成的block与周围位置block计算相关联性,针对相似位置给予更大权重,记录特征区域。针对前后帧图片特征信息,对嵌入的空间中对位置区域取加权平均值计算特征序列,关联响应前后帧图片相似位置特征,通过图像特征区域平移,对穿行的行人遮挡有对比判定,从而通道长程范围的特征信息依赖关系得到加强,捕捉丰富像素的图片中更有效地细节。将non-local模块化,嵌入关注位置的响应空间中取加权平均值计算自适应相关矩阵,得到图片在空间位置信息上的相互联系。结合SPP层收敛特征,运用到YOLOv5的Bottleneck网络模型中,进行非局部运算。如图7所示。

图7 Non-local流程结构图

其中,针对non-local模块表达形式定义为:

(10)

式中，f(xi,xj)是位置关系的高斯函数,通过Xi输入特征包含空间、序列计算第i位置上的信息索引与预测j位置相关索引之间的标量关系,得到x,j位置相关度。使用g(xj)一元线性函数,计算j处像素变换矩阵,使用响应因子C(x)归一化,定义像素个数为N为X中的位数,对全局信息进行归一化处理,简化梯度计算,保证图像特征信息一致。

g(xj)=Wgxj

(11)

函数g(xj)采用1×1卷积或使用1×1×1空间卷积,用于初步提取线性特征,在不改变特征图尺寸情况下,实现通道间的线性组合,跨通道信息交互,并为f(xi,xj)构造的relu激活函数增加非线性特性。Wg是训练学习的权重矩阵。f(xi,xj)使用高斯函数中计算权值的方法,计算像素点间的指数映射,相似度与高斯权值关系,在此基础上计算非局部域位置标量关系:

f(xi,xj)=eθ(xi)Tφ(xj)

(11)

其中,θ(xi)=Wθxi,φ(xj)=Wφxj。这里Wθ,Wφ是权值,根据xi,xj像素点之间相似程度计算。像素点之间的相似度不能仅仅是求像素位置差值进行匹配,而是度量以xi为中心点的block周围xj邻域块之间的欧式距离,如果约束距离越小,其高斯权值越大,像素位特征越相似。添加ReLU激活函数非线性特征,可以有效串联网络,进行特征推理,f(xi,xj)可表示为:

(12)

将公式(10)的非局部操作封装到non-localblock块中,可以合并到YOLOv5主干网络结构中,得到block块定义:

zi=Wzyi+xi

(13)

将整个block模块运算转化成矩阵乘法与卷积运算的组合,其中yi为公式10中的non-local 输出特征,通过残差拼接求和,得到最终的输出模型。其好处是在不改变前向模型结构下,可以将非局部域block块迁移到Bottleneck的Conv层中,元素输出位置的值就是其他位置的加权平均值,以提高计算效率。

3.1 数据集处理

使用FLIR热红外成像数据集,通过行车采集不同时段交通道路中行人、车辆视频帧信息。FLIR数据图像一共14452张,针对路口街道场景需求,选择出7600张包含交通行人数据的图片,并对图片标签进行清洗筛选。

Daimler行人检测数据集[11],其中训练集包含15560个行人样本和6744个负样本,包含56492个标注有完全可见与部分遮挡的行人标签。

本文筛选Flir与Daimler交通场景下红外行人数据集共13000张,daimler数据集标签已经为txt格式,对Flir数据集进行格式转换,将json文件转成xml格式,对json文件中的annotation的bbox和category进行解析,针对People行人类别标签,提取候选框坐标,并按照VOC数据集格式解析为(xmin,ymin,xmax,ymax)的写入xml文件,然后再按照COCO数据集格式(x,y,w,h),将对角线坐标转换为相应位置宽高,生成txt文件。

使用Mosaic数据增强,其主要思想是将训练集中四张图片进行图像缩放、旋转、色域变换后裁剪拼接成为一张图像使每张图片特征更加丰富,正负样本更加均衡,在训练阶段可有效调整每个epoch抓取数据的样本数量,缓解并行训练GPU显存的压力。正负样本关系如表1所示。如图8所示,使用Mosaic数据增强进行训练。

表1 正负样本关系

图8 Mosaic数据增强的数据集

在检测目标有存在行人间遮挡情况,一般按照标签取点,会导致选取的特征点被多次训练到重复取点,所以针对密集小目标需要根据获得的160×160检测层选取更合适的anchor。通过宽高标准差函数,使用k-means重新计算anchor,验证自适应选取更切合的anchor为[4,5,8,15,17,11],以完善远距离行人的每个GT都有对应的Anthor。

3.2 实验及结果评估

本文基于Flir数据集和Daimler红外交通行人数据集的数据筛选标签预处理,并将数据集按照8∶2的比例分为训练集与测试集。通过对比实验对改进的YOLOv5算法进行验证。采用mAP_0.5,mAP_0.5:0.95,LOSS,Precision,Recall作为评估模型性能的指标,通过计算模型的Precision和Recall,其中TP是准确预测标签的个数；
FP是不存在目标的误检测,或已存在目标的误检测；
FN是目标的漏检测,公式如下:

(14)

(15)

使用上述预处理红外数据集在服务器上进行迭代实验,本文使用的服务器采用Intel XeonGold 5218 CPU,配备显存11G 4块NVIDIA Geforce RTX 2080Ti图像显卡,选用兼容性GPU环境版本CUDA10.2,cudnn7.6.5,Pytorch1.7,叠加数据集进行500次迭代并行训练。如图9、10所示为通过训练改进的lmproved YOLOv5l算法和原有YOLOv5l算法在相同框架下的网络模型。在实验中可以发现改进后的lmproved YOLOv5l模型参数得到压缩,召回率进一步提升,mAP_0.5精度提升14.2 %,mAP_0.5:0.95精度提升12.7 %。模型试验对比如表2所示,随着训练迭代,观察模型精度及召回率可以发现,改进后的网络模型收敛效果更好。

图9 YOLOv5 mAP_0.5精度结果对比

图10 YOLOv5 mAP_0.5精度结果对比

表2 YOLOl模型实验对比

训练后的模型载入测试集进行行人检测对比实验,如图11所示,图11(a)为原YOLOv5l测试情况,图11(b)为改进后lmproved YOLOv5l的测试情况,通过验证发现在相同测试场景中改进后的YOLOv5模型在行人交通穿行场景能够更准确的识别不同运动形状的行人同时在远距离检测下的精度更好,模型具有更好的推理速度,说明在夜间行人检测场景下模型具有较好的泛化性。

(a) (b)

3.3 网络定量评估实验

对改进后的YOLOv5模型定量评估测试,所有测试模型均在相同红外行人数据集上进行训练测试,训练设置参数为每批次处理32张图像,初始学习率为0.01,epoch设置为800,使用4块RTX2080Ti并行训练,得到表3实验结果。

表3 不同算法的mAP值比较

通过实验可以进一步验证在不同网络模型训练下。针对夜间交通场景检测发现,改进后的YOLOv5网络模型的检测精度更高,对夜间遮挡场景下检测性能更好。

本文针对夜间交通路口人流穿行场景,设计并实现lmproved YOLOv5l行人目标检测网络模型,该模型改善了针对夜间行人运动和形状的特征检测,能够提升夜间行人遮挡,视野盲区的行人检测情况,相比原YOLOv5l检测模型在夜间行人检测效果更好。在不同算法间的对比结果表明:本文的行人检测算法模型平均准确率精度高,行人漏检率小,验证的网络模型具有较强的鲁棒性。

猜你喜欢行人卷积交通基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02毒舌出没，行人避让意林(2021年5期)2021-04-18繁忙的交通童话世界(2020年32期)2020-12-25卷积神经网络的分析与设计电子制作(2019年13期)2020-01-14从滤波器理解卷积电子制作(2019年11期)2019-07-04路不为寻找者而设扬子江(2019年1期)2019-03-08小小交通劝导员小学生导刊(2018年16期)2018-07-02基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20我是行人小天使·一年级语数英综合(2017年6期)2017-06-07曝光闯红灯行人值得借鉴汽车与安全(2016年5期)2016-12-01

Tags：遮挡算法行人

上一篇：深度学习框架下的红外与可见光图像融合算法综述
下一篇：合成气制烯烃合成单元热交换方案优化与热交换器选型设计