首页 > 心得体会 > 学习材料 / 正文

基于深度学习和稀疏编码的图像超分辨率重建

2023-03-04 08:20:08 ℃

谭成兵姚宏亮詹林

1(亳州职业技术学院信息工程系安徽亳州 236813) 2(合肥工业大学计算机与信息学院安徽合肥 230009) 3(安徽理工大学计算机科学与工程学院安徽淮南 232000)

图像超分辨率重建技术是指对模糊的低分辨率图像通过图像处理技术或者信号处理技术转化成清晰且细节信息丰富的高分辨率图像，该技术在卫星图像、人脸识别和医学图像领域中发挥了极大的应用价值[1]。在临床医疗诊断过程中CT(Computed Tomography)图像、MRI(Magnetic Resonance Imaging)图像和超声图像中往往缺少重要的高频信息，这部分高频信息是观察病理细节的关键依据，借助超分辨率技术可以有效重建此类医学图像的细节信息[2]。人工智能的发展进一步推动了超分辨率技术的进步，使其在计算机视觉领域得到广泛的应用。

超分辨率重建技术经历了若干年的发展，从早期基于插值法的重建方法到近期基于深度学习的重建方法，逐渐解决了重建图像高频部分的模糊效应、混叠效应、振铃效应。基于插值法的重建方法主要有：双三次插值法[3]、双线性插值法[4]、凸集投影(Projection Onto Convex Sets,POCS)法[5]和迭代反投影(Iterative Back Projection,IBP)法[6]。此类方法能够有效地增强低分辨率图像的细节信息，但此类方法所重建的高频部分容易受到模糊效应、混叠效应等影响。基于深度学习的方法主要有：基于双向循环神经网络的方法[7]、基于不同结构深度残差网络的方法[8-9]及基于卷积神经网络的方法[10]。根据众多学者的研究成果，目前卷积神经网络在图像重建问题上取得了最佳的结果，重建效果普遍高于经典的插值法。但当前基于深度卷积神经网络(Convolutional Neural Networks,CNN)的方法通常对大量的训练数据进行训练，在GPU等并行计算环境下仍然需要训练4至8天时间[11]，严重影响了此类方法的实用性。

为了利用卷积神经网络的优势，同时解决CNN训练时间过长的问题，提出一种基于深度学习和稀疏编码的图像超分辨率重建算法。上述CNN训练时间过长的一个主要因素是训练集包含大量的高分辨率图像，而本文算法则利用已训练的CNN模型提取低分辨率图像的深度视觉特征，对高分辨率图像和低分辨率图像的差异图像进行字典学习。此外，利用了局部约束线性编码(Locality-constrained Linear Coding,LLC)[12]良好的特征重构性与局部平滑稀疏性，对CNN特征进行编码，然后送入字典学习进行处理。最终，本文在保留了CNN优势的前提下，有效避免了耗时的高分辨率图像集的训练。

基于学习的图像超分辨率重建方法通过对图像内容和空间结构信息进行学习，提取出低分辨率图像块和高分辨率图像块之间的映射关系。鉴于稀疏表示方法能够有效地学习低分辨率图像和高分辨率图像之间的共生关系，因此本文采用字典学习技术学习该共生关系。现有基于稀疏表示的超分辨率技术大多通过不同的滤波器(如高斯滤波器组、Gabor滤波器组)来提取低分辨率图像的特征，虽然这些滤波器能够提取出图像的边缘信息和轮廓信息，但经常忽略复杂度高的图像局部结构，容易引起模糊效应、混叠效应和振铃效应，进而降低重建图像的质量。

本文通过卷积神经网络提取图像每一块的深度视觉特征，其特征表示能力优于传统的一维滤波器或多维滤波器。然后，采用LLC编码对特征进行稀疏化处理，再通过字典学习技术学习LLC编码的稀疏表示。通过学习的每对字典和稀疏表示系数，能够识别出低分辨率图像和高分辨率图像在特征空间的准确映射关系，进而高质量地还原出图像细节和结构的缺失信息，同时抑制振铃效应、混叠效应和模糊效应。

1.1 超分辨率问题模型

典型的超分辨率问题模型为Y=DHX+n，其中：Y∈RN×1表示给定的低分辨率图像；
X∈RN×1为待估计的高分辨率图像；
矩阵H为模糊矩阵，包含高分辨率图像的模糊核；
D为下采样矩阵；
n是均值为0的加性噪声。将低分辨率图像和高分辨率图像组成一个图像块集合，记为ym∈Rl×1，xm∈Rh×1，m=1,2,…,N。

1.2 基于稀疏表示的超分辨率模型

设Y为一个低分辨率图像，X表示Y的高分辨率图像，图像超分辨率的目标是重建包含更多细节信息的高分辨率图像。高、低分辨率图像之间的关系定义为：

Y=DHX+n

(1)

式中：H表示模糊矩阵；
D表示下采样；
n为加性噪声。假设图像无噪声，那么可将模糊矩阵H建模为单位矩阵，直接通过下采样从高分辨率图像获得低分辨率图像，那么可将图像超分辨率问题建模为图像插值问题。

假设X∈Rm×N包含N列数据向量xj∈Rm，D∈Rm×K表示一个字典，字典的列为dk∈Rm，字典的原子数量为K。向量xj表示在图像位置j处提取的图像块，计算为xj=RjX，Rj表示矩形采样窗口。每个数据向量xj对应一个稀疏表示向量aj∈RK，稀疏表示向量构成稀疏表示矩阵，记为A=[a1,a2,…,aN]∈RK×N，其中K<

稀疏表示的目标是通过字典D近似X，即X≈DA，对于数据样本xj，系数aj的非零元素较少。针对A的计算过程称为稀疏编码，因此稀疏编码问题可建模为：

(2)

s.t.X≈DA

(3)

可通过以下的成本函数估计出稀疏表示系数矩阵A和字典D：

(4)

式中：成本函数包含一个数据拟合项和一个正则项；
λ为惩罚参数，用于平衡数据保真度和稀疏性。

基于深度学习和稀疏编码的超分辨率技术包含3个步骤：(1) 基于CNN网络提取深度视觉特征，使用LLC编码对特征进行降维处理；
(2) 采用字典学习方法学习低分辨率图像和高分辨率图像的判别字典；
(3) 估计稀疏表示系数，还原出高分辨率图像。

2.1 基于CNN的特征提取

图1 提取深度视觉特征的流程

1) 特征提取。采用VGG16深度卷积神经网络模型[13]作为特征提取器，该模型基于ILSVRC-2012数据集[14]训练而来。该模型提取的深度特征维度低于其他的复杂神经网络结构，并且所提取的特征已在多个超分辨率问题[15]中得到了应用，因此本文选择该模型学习图像每一块的深度特征。假设图像块大小为224×224，VGG16产生的特征向量fi的维度为4 096。

2) 局部约束线性编码(Locality-constrained Linear Coding,LLC)。上文通过CNN生成了D维的特征向量，使用LLC编码方法对特征向量进行编码。LLC编码包括两个步骤：

(5)

式中：“*”表示元素级的乘法运算；
B为码书；
λ为正则项的系数；
di为局部调节变量。di定义为：

(6)

式中：dist(fi,B)=[dist(fi,b1),dist(fi,b2),…,dist(fi,bM)]T，dist(fi,bj)为fi和bj之间的欧氏距离；
σ参数用于控制权重下降速度。

2.2 字典学习方法

pl=DlA

(7)

式中：pl为低分辨率图像的块;Dl为低分辨率字典;A为稀疏表示系数。采用K-SVD字典训练方法[16]计算Dl，计算方法为：

(8)

式中：L表示最大稀疏度。K-SVD训练方法基于当前数据的稀疏编码迭代更新字典的原子，不断提高数据拟合的准确性，最终生成稀疏表示系数A。

假设高分辨率和低分辨率图像块的稀疏表示系数相同，那么高分辨率图像块的稀疏表示为：

(9)

通过以下的伪逆矩阵求解出式(9)：

Dh=phAT(AAT)-1

(10)

图2所示是本文单图像字典学习的流程，基于深度视觉特征生成高分辨率字典和低分辨率字典。

图2 字典学习方法

2.3 高分辨率图像重建

随之使用正交匹配追踪算法(Orthogonal Matching Pursuit,OMP)[17]将低分辨率特征plk编码成低分辨率稀疏表示系数：

(11)

将稀疏表示系数和高分辨率字典Dh相乘，还原出近似的高分辨率图像块；

(12)

图3所示是单图像超分辨率重建的流程，重建过程仅需要提取一次低分辨率图像的特征，保证了较低的计算复杂度。

图3 图像重建方法

本文实验环境为PC机，CPU为Intel i5- 8265U,内存容量为8 GB，操作系统为Windows 10系统。编程环境为MATLAB仿真平台。

3.1 实验数据集

采用在超分辨率领域被广泛使用的两个公开数据集Set5和Set14，数据集的每幅图像均包含2倍、3倍、4倍的放大因子。为了简化描述，将Set5和Set14的图像分别进行编号：(1) Set5的Baby、Bird、Butterfly、Head和Woman图像依次编号为1-5；
(2) Set14的Baboon、Barbara、Bridge、Coastguard、Comic、Face、Flowers、Foreman、Lenna、Man、Monarch、Pepper、PPT3、Zebra图像依次编号为1-14。

3.2 性能评价标准和对比方法

通过PSNR和SSIM两个指标定量评估超分辨率图像的质量。PSNR的计算式为：

(13)

式中：M和N分别为图像的长和宽；
f和g分别为实际和重建的高分辨率图像。

(14)

式中：μf和μg分别为f和g的平均灰度；
σf和σg分别为f和g的方差；
σfg表示f和g的协方差；
C1和C2为两个常量。

为了客观比较算法的性能，选择了基于信息蒸馏网络(Information Distillation Network,IDN)的超分辨率方法IDNSR[18]、基于流形约束稀疏编码的超分辨率方法MCSCSR[19]、基于耦合字典学习算法的CDLSR[20]、基于卷积神经网络的超分辨率方法DeepSUM[21]和本文算法进行比较。IDNSR是继SRCNN之后又一个新的超分辨率网络模型，通过该模型评估本文算法的先进性。MCSCSR和CDLSR均为基于稀疏编码的增强类超分辨率方法，这两个方法均基于传统的图像几何特征，通过它们评估本文算法的深度视觉特征效果。DeepSUM是一种基于卷积神经网络的超分辨率方法，该方法的训练过程在GPU上需要两天以上的时间。

3.3 参数设置

图像块的大小设为224×224，本文使用的VGG16模型已在ILSVRC-2012数据集进行预训练。网络生成的特征向量大小为1×4 096。在LLC编码处理中，每个训练块随机选择20个8×8的子块用以生成码书，码字的数量设为240，LLC编码的邻居参数K设为5。

字典大小是影响字典学习性能的关键指标，因此通过一组实验观察字典大小对本文算法性能的影响情况。图4所示是Set14数据集上不同字典大小的重建性能统计结果，观察曲线，随着字典规模的提高，重建效果得以提升，最终考虑计算效率和性能之间的平衡，将字典大小设为4 096。

图4 字典大小的参数实验

3.4 实验结果和分析

(1) 视觉效果评价。在临床医疗等应用场景中通过超分辨率重建技术补充医学图像的细节信息，以满足临床诊断的需求，因此视觉效果是衡量图像重建质量的首要因素。图5所示是Set5数据集Bird图像的重建实例，其中：(a)为3倍放大的原图像，(b)(c)(d)(e)(f)分别为IDNSR、MCSCSR、CDLSR、DeepSUM和本文算法的重建结果。可以看出MCSCSR和CDLSR对嘴部放大3倍后清晰度较低，这两种算法均采用传统的几何特征，受到了模糊效应和振铃效应的影响。IDNSR和DeepSUM重建的视觉质量优于MCSCSR和CDLSR，放大3倍的图像中包含了锐利的边缘信息。本文算法的高分辨率图像也包含了丰富的细节和锐利的边缘信息，并且边缘的锐利效果好于其他算法。

(a) 原图像 (b) IDNSR重建 (c) MCSCSR重建

(d) CDLSR重建 (e) DeepSUM重建 (f)本文算法重建图5 Set5数据集的重建实例

图6所示是Set14数据集Monarch图像的重建实例，其中：(a)为3倍放大的原图像，(b)(c)(d)(e)(f)分别为IDNSR、MCSCSR、CDLSR、DeepSUM和本文算法的重建结果。可以看出MCSCSR和CDLSR对蝴蝶花纹放大3倍后清晰度较低，这两种算法均采用传统的几何特征，也受到了模糊效应和振铃效应的影响。IDNSR和DeepSUM重建的视觉质量优于MCSCSR和CDLSR，蝴蝶花纹处的清晰度更高。本文算法的高分辨率图像则好于4个对比算法，蝴蝶花纹处的清晰度更高，并且边缘的锐利程度也更好。

(a) 原图像 (b) IDNSR重建 (c) MCSCSR重建

(d) CDLSR重建 (e) DeepSUM重建 (f) 本文算法重图6 Set14数据集的重建实例

(2) 性能定量评价。图7(a)、图7(b)所示分别是在Set5数据集上进行超分辨率重建(3倍放大)的PSNR结果和SSIM结果。可以看出基于深度学习的方法也优于传统基于图像几何特征的方法，DeepSUM在Baby、Butterfly和Woman三幅图像上优于IDNSR，但在Bird和Head两幅图像上差于IDNSR，可见信息蒸馏网络和卷积神经网络各有优劣。由于本文算法利用LLC编码技术良好的特征重构性与局部平滑稀疏性，有效地增强了卷积神经网络的深度视觉特征，因此本文算法对5幅图像均实现了更好的PSNR结果和SSIM结果。

(a) PNSR结果

(b) SSIM结果图7 Set5数据集的实验结果

表1、表2分别是在Set14数据集上进行超分辨率重建(3倍放大)的PSNR结果和SSIM结果。另外可发现基于深度学习的方法也优于传统基于图像几何特征的方法，DeepSUM在Baboon、Barbara、Coastguard、Face、Foreman和Man六幅图像上优于IDNSR，但在Bridge、Comic、Flowers、Lenna、Monarch、Pepper、Zebra和PPT3图像上差于IDNSR，由此也再次证明信息蒸馏网络和卷积神经网络各有优劣。可以看出本文算法对Set14的大多数图像均实现了更好的PSNR结果和SSIM结果。本文算法利用LLC编码技术良好的特征重构性与局部平滑稀疏性，有效地增强了卷积神经网络的深度视觉特征。

表1 Set14数据集的PSNR结果单位：dB

表2 Set14数据集的SSIM结果

随之分析了超分辨率重建算法在不同放大因子下的重建性能，结果如图8所示。图8(a)-图8(d)分别为Set5的PSNR结果、Set5的SSIM结果、Set14的PSNR结果和Set14的SSIM结果。虽然对不同的图像进行了实验，但是4幅结果图表现出一致性，随着放大因子的提高，重建质量逐渐降低。并且在放大因子较低时，不同重建算法的结果较为接近，而随着放大因子的增加，不同重建算法的性能差异增大。总体而言，本文算法在不同放大因子下均获得了更好的结果。

(a) Set5数据集的PSNR结果

(b) Set5数据集的SSIM结果

(d) Set14数据集的SSIM结果图8 不同放大因子的实验结果

(3) 算法时间效率。最终统计了在图像重建过程中每个算法所需的响应时间，如表3所示。可以看出随着放大因子的提高，处理时间降低，其原因主要是放大倍数越大，特征的稀疏性越高，处理的速度越快。而CDLSR算法在重建过程中需要提取输入图像的Gabor特征组和高斯特征组，并且每块大小仅为3×3，因此处理时间远高于其他算法。本文算法在重建过程中仅需要提取一次低分辨率图像的特征，然后结合低分辨率字典系数估计出高分辨率图像，因此计算效率较高，最终本文算法和MCSCSR算法的计算效率优于其他算法。

表3 超分辨率算法的平均响应时间单位：s

本文通过卷积神经网络提取图像每一块的深度视觉特征，然后采用LLC编码对特征进行稀疏化处理，通过学习的每对字典和稀疏表示系数，能够识别出低分辨率图像和高分辨率图像在特征空间的准确映射关系，进而高质量地还原图像细节和结构的缺失信息，同时抑制振铃效应、混叠效应和模糊效应。实验结果表明，算法在视觉效果和评价指标上均获得了较好的超分辨率效果，并且速度较快。本文的深度视觉特征主要基于VGG16网络实现，未来将在AlexNet、Inception和ResNet等模型上进行研究，观察不同CNN网络模型对超分辨率重建性能的影响。

猜你喜欢低分辨率高分辨率字典红外热成像中低分辨率行人小目标检测方法红外技术(2022年11期)2022-11-25基于边缘学习的低分辨率图像识别算法计算机应用(2020年7期)2020-08-06高分辨率合成孔径雷达图像解译系统雷达学报(2020年3期)2020-07-13字典的由来小学阅读指南·低年级版(2019年11期)2019-07-01树木的低分辨率三维模型资源创建实践艺术科技(2018年2期)2018-07-23大头熊的字典小天使·一年级语数英综合(2017年11期)2017-12-05正版字典读者(2016年14期)2016-06-29高分辨率对地观测系统太空探索(2015年8期)2015-07-18基于Curvelet-Wavelet变换高分辨率遥感图像降噪浙江大学学报（工学版）(2015年1期)2015-03-01高分辨率遥感相机CCD器件精密热控制航天返回与遥感(2014年4期)2014-07-31

Tags：稀疏重建深度

上一篇：基于人工免疫的渐消容积粒子滤波目标跟踪算法
下一篇：《舍弃八亿收入，换来鸥翔水美》