职场文秘网

首页 > 心得体会 > 学习材料 / 正文

深度学习框架下的红外与可见光图像融合算法综述

2023-02-24 19:30:05

张冬冬,王春平,付 强

(陆军工程大学石家庄校区电子与光学工程系,河北 石家庄 050003)

随着信息技术的发展,人们对信息的需求量日益剧增,单一传感器所获取的图像信息已经不能满足人们的需求,因此需要将不同类型传感器获取的图像信息进行融合,以获取更加全面的信息。图像融合的目的是将不同传感器所获取的源图像融合成一幅信息更加丰富的图像,该图像更利于图像处理及人的视觉感知。相对于单一源图像而言,融合图像的图像质量和清晰度更高,并且可以更加清晰的反映出图像中所包含的场景信息。基于融合图像的显著优势,图像融合被广泛应用于目标识别、军事监视、医学观察、损伤监控等领域[1-2]。

红外与可见光图像融合是图像融合领域的重要分支。红外图像主要是利用红外传感器接收物体的热辐射信息进行成像,受天气影响小,抗干扰能力强,并且能够克服部分障碍物的遮蔽,实现对隐藏目标的探测,但图像的对比度和分辨率较低。可见光图像利用物体反射的可见光进行成像,其细节和边缘信息[3]丰富,清晰度和分辨率较高,但易受天气、光照条件、距离等因素的影响。红外图像与可见光图像之间具有一定的互补性,将二者进行融合处理可以充分利用他们的优势。融合后的图像既具备可见光图像丰富的背景和细节信息,又具备红外图像良好的目标信息,并且融合图像的鲁棒性较好。

近年来,随着深度学习被广泛的应用于图像融合领域,学者们基于深度学习框架提出了多种红外与可见光图像融合算法。目前的图像融合综述中,大多数文献是对整个图像融合领域的相关算法进行综述[4-6],只有小部分文献是针对红外与可见光图像的融合算法;
在红外与可见光图像融合的综述中[7-8],缺乏对基于深度学习框架融合算法的详细阐述。本文对基于深度学习框架的红外与可见光图像融合算法进行综述,着重介绍了相关算法的发展情况。

传统的融合算法大致可分为五类:空间域法、多尺度变换、稀疏表示、人工神经网络、混合算法,他们的整体框架相似,如图1所示。尽管传统的融合算法已经取得了较好的融合效果,但仍存在缺陷:(1)特征提取受限。融合性能依赖于人工提取特征的能力[9-10],难以找到较为普适的特征提取方法;
(2)鲁棒性低。部分算法对源图像要求较高,无法适用于多种类型的源图像;
(3)实时性差。算法速度慢,尤其是基于稀疏表示[11]和低秩表示[12-13]的算法,字典学习的过程非常耗时。为了克服传统算法的局限性,通过引入深度学习的方法进行特征提取、融合及图像重建。近年来,随着深度学习的发展,红外和可见光图像融合领域出现了多种基于深度学习的融合算法,按照算法的特点和原理的不同,将基于深度学习的融合算法分为如下几类:基于多尺度变换扩展的方法、基于生成对抗网络的方法和基于自动编码器的方法。表1按类别罗列了本节所涉及的主要融合算法。

表1 基于深度学习框架的红外与可见光图像融合

图1 传统融合算法的架构

2.1 多尺度变换扩展

卷积神经网络(Convolutional Neural Network,CNN)在特征提取方面具有显著优势,相较于传统人工特征提取方法能提供更多的信息[14-15]。图像融合的关键点是如何从源图像中提取显著特征并进行融合。多尺度变换扩展将多尺度变换与CNN相结合,利用CNN特征提取的优势,解决了传统多尺度变换方法特征难提取的缺陷。Li等人[16]针对可见光和红外融合,提出了一种基于卷积神经网络的融合方法。先将源图像分解成基础部分和细节部分两个分支,然后对各分支进行融合:对于基础部分,直接采用加权的方式进行融合;
对于细节部分,先利用VGG-19网络[30]进行特征提取,构建多尺度权重特征图,然后通过最大选择算子重构细节融合特征,最后将基础部分融合结果和细节部分融合结果直接相加得到最终的融合图像。文献[16]提出的算法具有很强的扩展性,可以用于其他类型的图像融合,例如多聚焦图像融合、多曝光图像融合等。针对文献[16]中VGG-19在特征提取时会丢失有用信息的问题,Li等人[17]提出了一种基于残差网络(ResNet)[31]和零相位分量分析(ZCA)[32]的新型融合框架。首先,利用ResNet从源图像中提取深层特征,通过ZCA将深层特征映射到稀疏子空间中;
然后,利用局部平均L1范数得到初始的权值映射,通过双三次插值将初始权重映射图的大小调整为源图像的大小;
最后,采用加权平均的策略,将权值映射与源图像相结合,重构融合图像。

为充分利用不同源图像的特征,Liu等人[18]设计了具有针对性的CNN。文献[18]首先利用引导滤波法将源图像分解为基础部分和细节部分。其次,通过设计两种不同的CNN分别对红外和可见光细节部分的特征进行提取,利用基于离散余弦变换的多层特征融合策略对提取的细节特征进行融合。此外,通过加权法对基础部分进行融合。最后,通过将细节部分和基础部分直接相加重建融合图像。与文献[16]相比,文献[18]的特征提取方式更具有针对性,该方法可以突出重要特征并增强细节。F.Lahoud等人[19]首次将视觉显著性应用于基础部分的融合,提高了算法的鲁棒性,并且可以快速生成高质量的融合图像。为克服噪声干扰提高融合图像特征的显著性,S.Yu等人[20]将LatLRR[33]与NSST[34]相结合,提出了一种多级分解和融合的算法。

基于多尺度变化扩展的红外与可见光图像融合方法虽然能够改善多尺度变换中特征提取不充分的问题,但其自身仍存在一些不足,主要体现在:(1)分解方法不够完善。现有的分解方法无法将微小细节完全分解成细节部分,这会导致融合图像的纹理不均匀、可视性差。(2)存在特征丢失的现象。对于CNN网络,随着网络的加深,特征丢失的可能性也会增加。(3)融合策略不具有普适性。针对不同的分解方法需要设计不同的融合策略,增加了设计融合算法的难度。

2.2 生成对抗网络

Goodfellow等人[35]在2014年首次提出了生成对抗网络(Generative Adversarial Network,GAN)的概念,随后GAN在深度学习领域引起了广泛关注。GAN主要由两部分组成,即生成器和判别器。训练过程中,生成器尽可能的生成真实的图片去欺骗判别器,判别器则是尽可能的区分真实图片和生成器生成的图片。通过不断的博弈直到判别器难以判定生成器生成的图片是否是真实的,这样就可以用训练好的生成器去生成图片。由于GAN具有强大的生成能力,因此可以将GAN应用于红外和可见光图像融合领域。基于GAN的图像融合过程如图2所示,其中G表示生成器,D表示判别器。

图2 基于GAN的图像融合框架

2019年,Ma等人[21]首次将GAN用于红外与可见光图像融合,该方法先用生成器生成融合图像,再将生成的融合图像和原可见光图像同时送入判别器进行判断,当判别器无法区分时则生成的融合图像最佳。该方法将可见光图像送入判别器使融合后图像可以保留更多的细节信息,从而使融合后图像更加清晰。虽然文献[21]通过引入GAN能够避免人工设计融合策略,生成的融合图像细节信息丰富,但仍面临细节丢失和目标边缘趋于模糊的问题。Ma等人[22]在文献[21]方法上进行了优化,主要贡献有三点:(1)提出细节损失函数,保留更多的细节信息,提高融合图像的清晰度;
(2)通过设计目标边缘增强损失,解决了目标边缘信息模糊问题;
(3)对GAN网络中的生成器和判别器进行了优化,使深层次的网络具有更强的特征表示能力,提高框架的融合性能。尽管[22]中提出的方法可以得到很好的融合效果,但仅设计了一个判别器,所保留的有用信息非常有限。Xu等人[23]通过构建两个判别器,并在生成器和判别器之间建立了一个极大极小的对抗博弈,使融合图像尽可能多的保留红外图像中的热辐射信息和可见光图像中的纹理细节。双判别器会增加网络的复杂性,并且忽略了源图像的高层语义信息。为了解决上述问题,Hou等人[24]提出了一种基于语义分割的红外与可见光图像融合对抗网络,该网络可以同时关注源图像的低层细节信息和高层语义信息。网络的主要创新点可以概括为两个方面:生成器采用双编码器单解码器结构,可以通过不同的编码方式提取前景和背景特征;
将红外图像的前景和可见光图像的背景相结合生成的图像作为判别器的输入图像(作为真实图像),使融合后的图像既能保留红外图像中热目标的显著特征又能保留可见光图像的纹理细节。

虽然基于GAN的红外与可见光图像融合方法可以避免人工设计复杂的度量方式和融合策略,但在对抗训练的过程中会丢失大量的细节信息,视觉信息的保真度有待提高。因此,在后续的工作中,研究人员需要进一步对GAN的网络结构以及损失函数进行优化,提出更加适用于红外与可见光图像融合的GAN模型。

2.3 自动编码器

基于自动编码器的红外与可见光图像融合方法一般包括以下几个步骤,如图3所示。首先,利用编码器对源图像进行特征提取;
其次,再根据融合策略将不同源图像的特征进行融合;
最后,通过解码器重构融合图像。

图3 基于自动编码器的图像融合框架

在文献[25]中,Prabhakar等人首次提出一种基于无监督的深度学习图像融合框架(DeepFuse),该框架包含两个编码网络层和三个解码网络层。文中的方法虽然性能表现良好,但存在两个缺点:(1)网络结构过于简单,难以从源图像中提取显著特征;
(2)仅使用编码网络的最后一层进行计算,中间层所提取的有用信息可能会丢失。Li等人在DeepFuse的基础上进行了改进,将dense block[36]融入编码器中,构建了一种新的融合框架(DenseFuse)[26]。借助dense block的特性,DenseFuse能够有效的提取源图像的特征,可以从中间层保留更多有用信息,并且整个网络易于训练。为了更好的从红外和可见光图像中提取显著特征,Fu等人[27]设计了一种具有两个分支的自动编码器:一是细节分支,利用密集连接来提取浅层和边缘信息;
二是语义分支,利用快速下采样提取语义和结构信息。文中的试验结果表明,这种有差别的特征提取方式适用于红外和可见光图像融合。

Li等人[28]通过建立嵌套连接网络和空间/通道注意力模型,提出了一种新的图像融合算法(NestFuse)。首先,利用多层卷积构造编码器,使编码器可以提取深层的多尺度特征。其次,利用构建的空间/通道注意力模型将相同尺度的深层特征进行融合。最后,将融合后的特征送入基于嵌套连接的解码器中,生成融合图像。尽管NestFuse在细节信息保留方面取得了良好的效果,但融合策略不可学习。Li等人[29]对NestFuse的融合策略、训练策略和损失函数进行了改进,提出了一种端到端的融合框架(RFN-Nest)。

虽然基于自动编码器的融合算法解决了训练数据缺乏的问题,但仍存在三个方面的缺陷:(1)网络缺少下采样操作,深度特征没有得到充分利用;
(2)仍需要改进网络架构提高对多尺度特征的提取能力;
(3)融合策略中缺少针对深层特征融合而设计的方案。

红外与可见光图像融合技术已被广泛的应用于目标识别、区域监控和医疗卫生等领域。然而,不同的融合方法得到的融合图像存在较大的差异,如何评判融合图像的质量是目前的研究难点之一。目前,研究人员大多采用主观评价和客观评价两种方法对融合图像的质量进行评估[37]。

3.1 主观评价方法

主观评价方法主要借助人眼的观察能力,对融合图像的清晰度、对比度、失真程度等方面进行评估。这种方法相对简单,易于实现,可用于融合图像的定性分析。然而,每个人对同一幅图像会有不同的感官体验,因此主观评价方法易受个人喜好、环境等因素的影响。由于该类方法评价标准不一,随机性较大,在实际应用中一般不单独使用。

3.2 客观评价方法

客观评价方法主要是利用特定的算法模型(对像素元的灰度值进行相应的计算),实现对融合图像的定量分析。这类方法在一定程度上消除了人的主观因素,评价的结果更加客观[38]。然而,客观评价方法不能完全取代主观评价方法,因为图像的噪点数量、明暗分布、模糊程度等会导致某些客观评价指标异常上升,使评价结果与实际的感官效果不符。因此,通常情况下会将两种评价方法结合使用,以保证评价结果更加科学、全面。典型的客观评价指标如表2所示,“+”表示值越大性能越好,“-”表示值越小性能越好。

表2 客观评价指标

3.2.1 标准差

标准差(Standard deviation,SD)用于衡量融合图像中像素强度的变化,反映了图像的对比度[39]。当SD值增大时,图像的对比度增加,图像更加清晰,融合效果更好。SD的表达式如下所示:

(1)

(2)

3.2.2 平均梯度

平均梯度(Average gradient,AG)用来衡量融合图像的纹理和细节表征能力[40]。图像的AG值越大,边缘细节表达越精细,图像也越清晰。AG的表达式如下:

(3)

其中,融合图像的大小为M×N,F(x,y)表示(x,y)处的灰度值。

3.2.3 空间频率

空间频率(Spatial Frequency,SF)基于梯度来反映图像在空间中的整体活跃程度[41]。SF可分为空间行频率(RF)和空间列频率(CF),其值越大表明图像的整体水平越高,融合算法的成像质量越高。SF的表达式如下:

(4)

(5)

(6)

其中,融合图像的大小为M×N,F(x,y)表示(x,y)处的灰度值。

3.2.4 熵

熵(Entropy,EN)是用来衡量融合图像包含信息量多少的指标[42]。EN值越大,融合图像所包含的信息越丰富,图像质量越好。EN的表达式如下:

(7)

其中,n代表灰度等级;pn代表融合图像中灰度值为n的像素点在所有像素点中出现的概率。

3.2.5 互信息

互信息(Mutual Information,MI)用来衡量融合图像保留源图像的信息量[43]。MI值越大,融合图像保留的源图像信息越多,融合图像与源图像的相似度越高,融合的效果也就越好。MI的表达式如下:

MI=MII1,F+MII2,F

(8)

(9)

(10)

其中,MII1,F和MII2,F分别表示融合图像保留红外和可见光图像的信息量;PI1(x,y),PI2(x,y),PF(x,y)分别表示红外图像、可见光图像、融合图像在(x,y)处的灰度值;PI1,F表示红外图像和融合图像的联合灰度分布;PI2,F表示可见光图像和融合图像的联合灰度分布。

3.2.6 边缘信息量

边缘信息量(Quality of edge,QE)用来评估融合图像保留源图像的边缘信息量[44]。QE的值在[0,1]之间,其值越大表明融合效果越好。QE的表达式如下:

(11)

(12)

(13)

3.2.7 结构相似性

结构相似性(Structural similarity index measure,SSIM)通过比较融合图像和源图像在图像亮度、对比度和结构三个方面的相似性,对融合图像的损失和失真程度进行评估[45]。SSIM的值在[-1,1]之间,值越大表示融合的效果越好。SSIM的表达式如下:

(14)

其中,μx,μf,σx,σf和σxf分别表示源图像X和融合图像F的平均值、方差和协方差,参数α,β和γ用于调整比例,参数c1,c2和c3的作用是避免分母为零,其值通常设为0。

3.2.8 均方误差

均方误差(Mean squared error,MSE)通过计算融合图像和源图像之间的误差,衡量两者之间的差异[46]。MSE的值越小说明融合图像与源图像之间的差异越小,融合效果越好。MSE的表达式如下:

(15)

(16)

(17)

其中,MSEI1F和MSEI2F分别表示融合图像与源图像I1和I2之间的差异。

3.2.9 峰值信噪比

峰值信噪比(Peak signal-to-noise ratio,PSNR)利用融合图像中峰值功率和噪声功率的比值,衡量融合过程中的失真程度[47]。PSNR的值越大,融合图像与源图像的相似程度越高,融合效果越好。PSNR的表达式如下:

(18)

其中,r表示融合图像的峰值;MSE表示均方误差。

3.2.10 视觉信息保真度指标

视觉信息保真度指标(Visual information fidelity of fusion,VIFF)用于衡量融合图像的信息保真度[48]。VIFF的值越大说明融合图像的保真度越高,融合效果越好。VIFF的计算过程可分为四步:首先,对源图像和融合图像进行滤波,并将其分成不同的块;
其次,评估每块是否有失真的视觉信息;
再对每块的视觉信息的保真度进行计算;
最后,计算基于视觉信息保真度的总体度量。VIFF的表达式如下:

(19)

(20)

其中,FVIND和FVID分别表示非失真视觉信息相似性和失真视觉信息相似性。

本文从三大类方法中各选取两种典型融合算法,即深度学习框架(Deep Learning Framework,DLF)[16]、基于ResNet和zero-phase的融合框架(RZP)[17]、生成对抗网络(FusionGAN)[21]、双判别器网络(DDcGAN)[23]、NestFuse[28]、RFN-Nest[29],分别对六种不同场景的红外与可见光图像进行融合试验,使用六种评价指标对试验结果进行定量对比。文中所用的融合算法均采用公开代码,参数设置与原文保持一致。

图4为不同融合方法在六种场景中的融合结果对比图。通过观察可知,NestFuse整体视觉效果较好,图像的清晰度、对比度较高,但存在细节丢失的问题;
RFN-Nest解决了NestFuse细节丢失的问题,但图像的对比度低;
FusionGAN和DDcGAN存在目标轮廓模糊的现象,视觉效果较差;
DLF与RZP融合效果相近,图像清晰度高,但对比度低,图像亮度较低,不利于观察。

图4 六种算法在不同场景中的融合效果

图5为六种算法生成的融合图像在六种评价指标上的定量比较,图例中的数值为对应算法在该指标上的平均值。定量试验结果表明,每种算法各有优缺点,不同的算法在不同的方面展现出优越性。单一的评价指标难以对算法的整体性能进行度量,需要通过多个不同的评价指标对融合图像质量进行综合评价,在实际应用中,应根据不同的需求选择对应性能较好的融合算法。从图中的数据可以看出,DLF和RZP的QE和SSIM较高,说明基于多尺度变换扩展方法有利于源图像边缘信息和结构的保留,但图像的对比度和清晰度较低;
FusionGAN和DDcGAN在边缘信息和结构保留方面表现不佳,但其他指标相对较高,说明基于生成对抗网络的方法能够保留较多的背景信息和热辐射信息,但边缘细节的构建不够精细,存在模糊的现象;
NestFuse和RFN-Nest在各指标上均相对较高,说明基于自动编码器的方法可用于复杂场景图像的融合。

(a)SD

本文综述了近年来基于深度学习框架的红外与可见光图像融合算法,将这些算法主要分为三类:基于变换扩展的方法、基于GAN的方法和基于自动编码器的方法,重点对这三类方法的核心思想、发展进程、优缺点进行了阐述;
对目前比较常用的图像融合评价指标进行了简要概述;
最后选择了六种具有代表性的融合算法进行试验,利用六种评价指标对融合效果进行评价。

虽然深度学习在图像融合领域已逐渐发展成熟,并使红外与可见光图像的融合效果有了很大的提升,但仍存在细节丢失、时效性差、评价系统不完善等问题。针对这些问题提出三方面的改进意见:

(1)提高卷积神经网络的特征提取能力,增强中间层网络特征的流动性,以充分利用从每一层卷积中提取的细节特征,使源图像的细节信息得到充分保留。

(2)为提高网络的时效性,可以从以下几个方面进行尝试:①网络中嵌入注意力、去噪等机制,去除源图像中所包含的冗余信息;
②调整网络参数或者优化损失函数;
③减小网络的深度。

(3)通常利用将主观评价与客观评价相结合的方法,对融合图像进行评价。然而,主观评价的人为性太强,客观评价指标太多难以选择,且主观评价与客观评价结果之间存在差异性,这些导致评价的结果不够客观,因此,通过制定一个完善的衡量标准对融合算法的质量进行评估是未来研究的一个重点。

猜你喜欢 红外细节特征 根据方程特征选解法中学生数理化·中考版(2022年9期)2022-10-25网红外卖环球时报(2022-05-23)2022-05-23离散型随机变量的分布列与数字特征中学生数理化(高中版.高考数学)(2022年3期)2022-04-26闪亮的中国红外『芯』金桥(2021年4期)2021-05-21以细节取胜 Cambridge Audio AXR100/ FOCAL ARIA 906家庭影院技术(2020年10期)2020-12-14不忠诚的四个特征当代陕西(2019年10期)2019-06-038路红外遥控电路电子制作(2019年7期)2019-04-25TS系列红外传感器在嵌入式控制系统中的应用电子制作(2019年7期)2019-04-25留心细节处处美——《收集东·收集西》小学生优秀作文(低年级)(2018年10期)2018-10-13细节取胜Coco薇(2016年10期)2016-11-29

Tags: 可见光   算法   综述  

搜索
网站分类
标签列表