Super resolution reconstruction of noisy images based on dense residual connected U-shaped networks
-
摘要: 现有的图像超分辨率重建网络难以适用于煤矿井下噪声密集的应用场景,且多数网络通过增加深度提升性能会导致无法有效提取关键特征、高频信息丢失等问题。针对上述问题,提出了一种密集残差连接U型网络,用于对低分辨率噪声图像进行超分辨率重建。在特征提取路径中引入基于密集残差连接的去噪模块,通过密集连接的方式对图像特征进行充分提取,再利用残差学习的特点对低分辨率噪声图像进行有效去噪;在重建路径中引入残差特征注意力蒸馏模块,通过在残差块中融入增强特征注意力块,对不同空间的特征赋予不同的权重,加强网络对于图像关键特征的提取能力,同时减少图像细节特征在残差块中的损失,从而更好地恢复图像细节信息。在煤矿井下图像数据集及公共数据集上进行了对比实验,结果表明:在客观评价指标上,所提网络的结构相似度、图像感知相似度均优于对比网络,且在复杂度及运行速度上有着较好的均衡;在主观视觉效果上,所提网络重建的图像基本消除了原有图像噪声,有效恢复了图像的细节特征。Abstract: The existing image super-resolution reconstruction networks are difficult to apply to noise intensive application scenarios in coal mines. Most networks improve performance by increasing depth, which leads to problems such as ineffective extraction of key features and loss of high-frequency information. In order to solve the above problems, a dense residual connected U-shaped network is proposed for super-resolution reconstruction of low resolution noisy images. The denoising module based on dense residual connections is introduced in the feature extraction path, fully extracting image features through dense connections. The features of residual learning are used to effectively denoise low resolution noisy images. The residual feature attention distillation module is introduced in the reconstruction path, by incorporating enhanced feature attention blocks into the residual blocks, different weights are assigned to features in different spaces to enhance the network's capability to extract key image features. The loss of image detail features is reduced in the residual blocks, thus better restoring image detail information. Comparative experiments are conducted on coal mine underground image datasets and public datasets, and the results show that in terms of objective evaluation index, structure similarity and image perception similarity of the proposed network are superior to the comparison network. It has a good balance in complexity and running speed. In terms of subjective visual effects, the image reconstructed by the proposed network basically eliminates the original image noise and effectively restores the detailed features of the image.
-
0. 引言
在煤炭开采作业中,粉尘、水雾及低光照条件常导致井下目标图像的成像分辨率低,使得人眼在复杂工作环境中难以捕捉到足够的细节信息,对煤炭生产过程进行监控和管理变得异常困难[1]。图像超分辨率重建旨在从低分辨率图像中恢复出高分辨率图像,以提供更多细节信息,有助于改善图像的可视化质量和信息传递效果[2]。
目前图像超分辨率重建方法主要分为3类:基于插值的方法[3]、基于重构的方法[4-5]和基于学习的方法[6]。基于插值的方法可快速得到重建结果,但重建图像会存在边缘模糊的问题。基于重构的方法计算量少,但在重建过程中会忽略图像的高频细节信息,导致重建图像不真实。基于学习的方法可提取更丰富、更具体的图像细节信息,图像重建效果优于前2种方法,其主要采用早期的浅层机器学习与当下常用的深度学习来完成图像超分辨率重建任务。
在基于学习的方法中,研究人员已经提出了许多网络来完成图像超分辨率重建任务。Yang Shuyuan等[7]提出了基于稀疏编码理论的图像超分辨率重建网络,该网络主要通过图像的稀疏表示学习获得高分辨率字典与低分辨率字典,并根据高低分辨率图像之间的映射关系对图像进行重建。Dong Chao等[8]提出了超分辨率卷积神经网络(Super Resolution Convolutional Neural Network,SRCNN),首次将深度学习引入图像超分辨率重建领域;之后,Dong Chao等[9]提出了快速超分辨率卷积神经网络(Fast Super-resolution Convolutional Neural Network,FSRCNN),该网络通过引入可以改变特征维度的反卷积层,实现了加速网络训练的目的。Shi Wenzhe等[10]提出了高效的亚像素卷积神经网络(Efficient Sub-pixel Convolutional Neural Network,ESPCN),实现了在网络中对图像进行缩放的目的,加快了网络对图像重建的速度。He Kaiming等[11]提出了残差网络(Residual Network,ResNet),用来解决网络深度较大时训练困难的问题。J. Kim等[12]提出了极深超分辨率卷积神经网络(Very Deep Convolution Networks for Super-resolution,VDSR),该网络深度达20层,相较于浅层网络具有更好的性能。B. Lim等[13]提出了增强型深度超分辨率卷积神经网络(Enhanced Deep Super-resolution Network,EDSR),该网络去除了批归一化层[14],且网络深度进一步增加,图像重建效果得到进一步提升[15]。Zhang Yulun等[16]提出了残差密集网络(Residual Dense Network,RDN),该网络利用密集连接的方式将各层级之间的特征充分融合,得到了更好的图像重建效果。Chen Liangliang等[17]提出了基于内容引导的单图像超分辨率深度残差网络(Content-guided Deep Residual Network for Single Image Super-resolution,CDRN),该网络增加深度的同时对图像内容进行导向化,以准确实现图像细节的超分辨率重建。程德强等[18]提出了多通道递归残差图像超分辨率网络(Multi Channel Recursive Residual Image Super-resolution Network,MCRRN),该网络改变了传统的用跳跃连接进行特征融合的方式,将不同层的特征进行跨尺度融合,使网络学习到更丰富的特征,改善了图像重建效果。
虽然以上网络对于图像超分辨率重建具有较好的性能,但存在以下问题:① 上述网络未考虑噪声环境的影响,应用背景多是理想环境下的低分辨率图像,无法在对低分辨率图像重建的同时去除噪声。② VDSR,EDSR,CDRN等网络通过增加网络深度的方式来提升特征提取能力,但该方式会使网络无差别地对待图像特征,无法对图像关键特征进行有效提取,且随着网络深度的增加,容易出现高频细节信息丢失的问题,导致网络重建性能下降。
针对上述问题,本文以卷积神经网络中的U−Net结构为基础,提出了一种密集残差连接U型网络,用于对低分辨率噪声图像进行超分辨率重建。在密集残差连接U型网络中,设计了一种基于密集残差连接的去噪模块(Dense Residual Connected Denoising Module,DRCDM),利用残差学习的特点对低分辨率噪声图像进行有效去噪;提出了一种残差特征注意力蒸馏模块(Residual Feature Attention Distillation Module,RFAM),该模块通过增强特征注意力块(Enhanced Feature Attention Block,EFAB)对不同空间的特征赋予不同的权重,可加强网络对于图像关键特征的提取能力,同时减少图像细节特征在残差块中的损失,从而提升图像重建质量。
1. 密集残差连接U型网络
1.1 整体网络结构
对U−Net进行改进,得到密集残差连接U型网络,其结构如图1所示。① 在特征提取路径中去除最大池化层,不再改变特征尺寸,只扩大特征通道数,最大程度减少图像分辨率的丢失。② 为降低网络训练难度,不再使用U−Net的5层结构,只使用3层结构,即对特征通道数进行2次扩张,每次扩张都会使本层特征通道数扩大为上一层的2倍。③ 在特征提取路径中引入DRCDM,对低分辨率噪声图像进行噪声去除。④ 在重建路径中引入RFAM,从而提取更关键的特征,且残差连接的存在可有效防止梯度爆炸、梯度消失、网络退化等问题,以确保获取的图像特征被充分利用。
首先使用64个3×3大小的卷积层(Convolution Layer)将RGB噪声图像转换成粗特征$ F_{0} $,并通过$ \text { ReLU } $函数对粗特征进行非线性激活。接着将$ F_{0} $输入去噪模块,去噪模块主要学习干净图像和噪声图像之间的残差,并最小化其差异:
$$ \left\{\begin{array}{l} X=Y-R(Y) \\ R(Y) \approx V \\ X=Y-V \end{array}\right. $$ (1) 式中:$ X $为估计出的干净图像;$ Y $为带有噪声的图像;$ R $(·)为去噪函数;$ {V} $为噪声图像和干净图像的残差。
去噪模块的输出经过2个卷积块(Convolution Block)分别将特征通道数扩展为128,256,扩展后的2个特征分别为$ F_{1} $,$F_{2} $。
$$ F_i=f_{\mathrm{e}}\left(F_{i-1}\right)\ \ i=1,2 $$ (2) 式中$ {f_{\mathrm{e}}} $(·)为特征通道数的扩展操作。
接着通过4个RFAM对$F_{2} $进行细节特征提取,再经过3×3大小的卷积层将$ F_{2}$的特征通道数降到128,降维后的特征为
$$ {F_{1}^{\prime}} = {f}_{{\mathrm{r}}} \left({f}_{\mathrm{RFAM}} \left({F}_{2}\right) \right) $$ (3) 式中:$ {f_{\mathrm{r}}} $(·)为特征通道数的降维操作;$ f_{{\mathrm{RFAM}}} $(·)为RFAM细节特征提取操作。
随后将$ {F_{1}^{\prime}}$输入4个RFAM进行特征细化,并经过1个 3×3大小的卷积层将特征通道数降到64,降维后的特征为
$$ {F_{0}^{\prime}}=f_{\mathrm{r}}\left(f_{{\mathrm{RFAM}}}\left({F_{1}^{\prime}}\right)\right) $$ (4) 之后将$ {F_{0}^{\prime}} $通过亚像素卷积进行像素重排,并通过最后一个3×3大小的卷积层将特征通道数还原为3,得到重建后的图像:
$$ {I_{{\mathrm{SR}}}} = {f_{\mathrm{r}}}\left( {{f_{{\mathrm{ps}}}}\left({F_{0}^{\prime}} \right)} \right) $$ (5) 式中$ f_{{\mathrm{p s}}} $(·)为像素重排操作。
1.2 DRCDM
在用于去噪的卷积神经网络(Denoising Convolutional Neural Network,DnCNN)中加入残差块及密集连接,得到DRCDM,其结构如图2所示。
输入的粗特征先经过64个3×3大小的卷积层进行细化,再由$ \text { ReLU } $函数进行非线性激活。接着利用密集连接特征融合注意力块(Densely-Connected Feature Fusion Attention Block,DFAB)对图像的关键特征进行提取。
DFAB结构如图3所示,主要由4个残差特征融合层(Residual Feature Fusion Layer,RFL)通过密集连接构成。RFL由1个残差块(Residual Block)及1个特征融合层(Feature Fusion Layer)组成,其中残差块通过32个3×3大小的卷积层进行特征提取,特征融合层先对输入特征进行通道维度串接(Concat)操作,再通过1个1×1大小的卷积层降维。浅层特征及每个RFL的输出都采用密集特征融合的方式在特征融合层进行特征融合。接着通过卷积块注意力模块[19](Convolutional Block Attention Module,CBAM)对输入特征进行加权,提高网络对图像关键特征的提取能力。最终通过64个3×3大小的卷积层将特征通道数还原为64。
DFAB的输出通过由卷积层、去归一化层(Batch Normalization,BN)及$ \text { ReLU } $函数串联组成的模块进行深层特征提取,再通过3个3×3大小的卷积层将特征通道数还原为输入的三通道。
1.3 RFAM
增加卷积神经网络深度有利于提升特征提取能力,但过深的网络容易导致高频信息丢失,且无法差别对待特征,带来多余的信息干扰。残差特征蒸馏模块[20]通过卷积层以一定比例压缩特征通道来进行特征蒸馏,即保留一部分特征,对另一部分特征继续进行细化。该方式提高了特征提取效率,且通过残差学习对丢失的高频信息进行补偿。本文在残差特征蒸馏模块的基础上增加EFAB,由此构建RFAM,利用注意力机制提高网络对关键特征的关注,减少多余信息的干扰。
RFAM结构如图4所示。首先采用通道分离操作将输入特征分为2个部分,一部分特征由单卷积层进行通道压缩,另一部分特征由EFAB进行特征细化。然后将所有通道压缩后的特征融合,融合后的特征再送入EFAB进行特征增强。最后通过1个1×1大小的卷积层进行特征降维,将特征通道数恢复为输入通道数。
EFAB由2个3×3大小的卷积层、ReLU函数及增强空间注意力(Enhanced Spatial Attention,ESA)模块构成。输入特征先经过2个卷积层和ReLU函数进行特征细化和激活,再输入ESA模块。ESA模块首先对输入特征使用1个1×1大小的卷积层进行通道数降维。其次通过stride为2的卷积(Stride Conv)、2×2大小的最大池化层(Pooling)及卷积组(Conv Groups)来扩大感受野范围,其中卷积组由7×7大小的最大池化层和stride为3的卷积层组成。然后对输出的特征进行上采样(Upsampling),并通过残差连接与降维后的输入特征相加。最后将相加的特征通过1个1×1大小的卷积层恢复到输入通道数,通过Sigmoid函数生成特征注意力权重,并与输入特征点乘,得到ESA模块的输出。该结构保证了图像中较为平滑的低频信息在网络中可有效传递,还可利用注意力机制对高频信息进行高效学习,保证网络训练效率,有利于提高图像重建质量。
2. 实验结果与分析
2.1 实验设置
实验硬件环境:Intel(R) Core(TM) i9−10980XE CPU@3.00 GHz,18核36线程;64 GiB内存;NVIDIA RTX 3090显卡,24 GiB显存。软件环境:Ubuntu20.04操作系统;Pytorch1.8深度学习框架;CUDA11.4加速学习;Python3.7编程语言。
网络共迭代训练500次,初始学习率设置为0.000 1,当网络训练次数达300时,学习率减半,优化方法采用自适应矩估计(Adaptive Momentum Estimation,Adam)优化器,其参数$\beta_1 $=0.9,$\beta_2 $=0.99。损失函数采用L1损失函数。
2.2 实验数据集
在公共数据集DIV2K和煤矿井下图像数据集CMUID[1](CMUID下载地址:https://github.com/CUMT-AIPR-Lab/CUMT-AIPR-Lab)中添加相同水平的高斯噪声作为训练集。选取Set5[21],Set14[22],B100[23],Urban100[24],CMUID[1]中煤矿带式输送机场景及工作车间场景并添加相同水平的高斯噪声,生成相应的Noise−Set5、Noise−Set14、Noise−B100、Noise−Urban100、Noise−场景1、Noise−场景2作为测试集。本文添加的高斯噪声的标准差为25 dB。
2.3 实验对比网络及评价指标
为验证本文网络对低分辨率噪声图像的重建效果,采用双三次插值[25](Bicubic)、ESPCN[10]、EDSR[13]、残差通道注意力网络[26](Residual Channel Attention Networks,RCAN)、深度反向投影网络[27](Deep Back-Projection Network,DBPN)、跨尺度非局部注意网络[28](Cross-Scale Non-Local Attention Network,CSNLN)、非局部稀疏注意力网络[29](Non-Local Sparse Attention Network,NLSN)及边缘增强特征蒸馏网络[30](Edge-enhanced Feature Distillation Network,EFDN)进行对比实验。
选用结构相似度(Structural Similarity,SSIM)、图像感知相似度(Learned Perceptual Image Patch Similarity,LPIPS)及峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)作为评价指标,对图像超分辨率重建效果进行评估。SSIM从图像结构、对比度和亮度3个方面对图像质量进行评价,其值越大,表示图像质量越高;LPIPS反映2张图像在感知方面的相似度,符合人类的主观感知,其值越小,表示图像质量越高。PSNR通过计算2张图像对应像素点间的误差来衡量图像质量,其值越大,表示图像质量越高。
2.4 网络参数实验
为探究不同数量RFL对整体网络去噪性能的影响,对分别含有0,1,2,3,4个RFL的网络进行对比实验。含有不同数量RFL的网络在测试集Noise−Set14、Nosie−B100(图像缩放因子为4)上的SSIM和LPIPS见表1、表2。
表 1 含有不同数量RFL的网络在Noise−Set14上的LPIPS和SSIMTable 1. LPIPS and SSIM of network with different numbers of residual feature fusion layer on Noise-Set14RFL数量 0 1 2 3 4 LPIPS 0.585 0.528 0.492 0.470 0.461 SSIM 0.627 0.669 0.717 0.752 0.763 表 2 含有不同数量RFL的网络在Noise−B100上的LPIPS和SSIMTable 2. LPIPS and SSIM of network with different numbers of residual feature fusion layer on Noise-B100RFL数量 0 1 2 3 4 LPIPS 0.632 0.598 0.563 0.532 0.525 SSIM 0.650 0.665 0.671 0.682 0.688 从表1、表2可看出,与含有0,1,2,3个RFL的网络相比,含有4个RFL的网络在Noise−Set14测试集上的LPIPS分别减少了0.124,0.067,0.031,0.009,SSIM分别提高了0.136,0.094,0.046,0.011;在Noise−B100测试集上的LPIPS分别减少了0.107,0.073,0.038,0.007,SSIM分别提高了0.038,0.023,0.017,0.006。随着RFL数量增加,LPIPS逐渐降低,SSIM逐渐升高;含有4个RFL的网络相对于含有0,1,2,3个RFL的网络的SSIM提升幅度及LPIPS降低幅度逐渐变小,说明随着RFL数量增加,网络对于低分辨率噪声图像的重建性能逐渐达到饱和。
为防止网络性能退化及网络训练难度增加,本文选用4个RFL。
2.5 消融实验
为验证DRCDM及RFAM的效果,在U−Net基础上增加不同模块进行消融实验,在测试集Noise−Set14上的结果见表3,可看出同时添加DRCDM与RFAM后,客观评价指标最优。
表 3 消融实验结果Table 3. Results of ablation experimentsDRCDM RFAM PSNR SSIM × × 30.12 0.8968 √ × 30.50 0.9306 × √ 30.42 0.9289 √ √ 30.58 0.9315 2.6 网络对比实验
2.6.1 不同网络客观评价指标对比
6种测试集下不同网络重建的图像与原始高分辨率图像的客观评价指标对比见表4、表5。可看出本文网络在各测试集上相对于其他网络的LPIPS整体有所降低,SSIM均有所提高,表明本文网络对于低分辨率图像的重建效果更好。
表 4 不同网络在测试集上的LPIPS对比Table 4. Comparison of LPIPS of different networks on test set测试集 缩放因子 LPIPS Bicubic ESPCN EDSR RCAN DBPN CSNLN NLSN EFDN Ours Noise−Set5 4 0.716 0.535 0.693 0.582 0.678 0.547 0.545 0.542 0.357 8 0.626 0.525 0.653 0.557 0.564 0.539 0.537 0.529 0.453 Noise−Set14 4 0.782 0.521 0.740 0.629 0.742 0.562 0.563 0.559 0.461 8 0.692 0.603 0.708 0.623 0.672 0.579 0.577 0.575 0.540 Noise−Urban100 4 0.894 0.671 0.715 0.681 0.707 0.677 0.675 0.672 0.492 8 0.782 0.681 0.798 0.712 0.718 0.675 0.672 0.673 0.612 Noise−B100 4 0.708 0.610 0.654 0.642 0.683 0.618 0.616 0.613 0.525 8 0.810 0.723 0.795 0.776 0.788 0.721 0.719 0.717 0.685 Noise−场景1 4 0.823 0.623 0.714 0.588 0.677 0.615 0.542 0.523 0.502 8 0.799 0.633 0.702 0.655 0.625 0.725 0.622 0.630 0.615 Noise−场景2 4 0.816 0.556 0.742 0.596 0.764 0.645 0.566 0.526 0.510 8 0.795 0.645 0.756 0.637 0.755 0.655 0.678 0.636 0.622 表 5 不同网络在测试集上的SSIM对比Table 5. Comparison of SSIM of different networks on test set测试集 缩放因子 SSIM Bicubic ESPCN EDSR RCAN DBPN CSNLN NLSN EFDN Ours Noise−Set5 4 0.599 0.697 0.602 0.675 0.608 0.692 0.695 0.697 0.736 8 0.565 0.672 0.552 0.612 0.587 0.632 0.638 0.640 0.712 Noise−Set14 4 0.567 0.707 0.592 0.611 0.588 0.630 0.637 0.636 0.763 8 0.538 0.647 0.508 0.598 0.551 0.647 0.653 0.655 0.701 Noise−Urban100 4 0.698 0.801 0.708 0.788 0.711 0.789 0.792 0.795 0.877 8 0.531 0.710 0.605 0.658 0.649 0.718 0.719 0.721 0.785 Noise−B100 4 0.563 0.651 0.617 0.635 0.573 0.645 0.648 0.651 0.688 8 0.496 0.522 0.472 0.495 0.493 0.525 0.528 0.531 0.559 Noise−场景1 4 0.814 0.789 0.846 0.855 0.823 0.845 0.865 0.845 0.878 8 0.768 0.723 0.756 0.745 0.755 0.767 0.774 0.792 0.802 Noise−场景2 4 0.717 0.723 0.712 0.746 0.742 0.748 0.789 0.768 0.799 8 0.623 0.633 0.625 0.645 0.665 0.672 0.674 0.682 0.701 2.6.2 不同网络主观视觉效果对比
不同网络在测试集Noise−Urban100、Noise−B100(图像缩放因子为8)上的图像超分辨率重建效果如图5、图6所示。由于在缩放因子为8的情况下,低分辨率噪声图像尺寸较小,为方便比较噪声图像重建的视觉效果,选用重建图像的部分放大图进行对比,左侧高分辨率图像中标出的红框部分即图像放大区域。从图5、图6可看出,Bicubic重建的图像依然存在高斯噪声且图像中的建筑结构较为模糊;ESPCN,CSNLN重建的图像有效去除了部分高斯噪声,但没有恢复图像的细节特征,仍存在一些重影;EDSR重建的图像出现了失真现象,在重建图像的左侧出现一团“黑影”;DBPN及RCAN重建的图像过于平滑,虽然去除了部分高斯噪声,但没有很好地重建图像的细节特征,使得图像过于平滑模糊;NLSN及EFDN重建的图像在建筑整体结构的恢复上明显优于前几种网络,细节特征恢复较好,但仍存在部分高斯噪声;本文网络重建的图像可明显看出建筑整体结构且建筑线条较为清晰,基本不存在多余高斯噪声,重建效果较为理想。
为进一步验证本文网络对矿井现场图像的重建效果,分别选取测试集Noise−场景1、Noise−场景2(图像缩放因子为4)进行超分辨率重建,效果如图7、图8所示。可看出Bicubic,ESPCN,EDSR,RCAN,NLSN,EFDN对边缘纹理细节的重建效果较差,如帽绳线条不清晰、头灯质感模糊、字迹模糊;本文网络重建后的图像帽绳线条清晰、头灯质感真实、字迹清晰,在主观视觉效果上明显优于其他网络。
2.6.3 不同网络复杂度与运行速度对比
以Noise−场景1(图像缩放因子为4)为例,不同网络的复杂度和运行速度对比结果见表6。其中网络复杂度通过参数量及浮点运算量来衡量,运行速度通过网络重建1张图像的耗时来衡量。可看出在保证最优SSIM的前提下,本文网络在复杂度及运行速度上有着较好的均衡。
表 6 不同网络的复杂度和运行速度对比Table 6. Comparison of complexity and running speed of different networks网络 参数量/106个 每秒浮点运算次数/109 每张图像耗时/ms SSIM EDSR 43.1 1 212 1 520 0.846 RCAN 16.0 352 960 0.855 DBPN 10.4 325 756 0.823 CSNLN 7.2 110 655 0.845 NLSN 6.7 105 602 0.865 EFDN 1.2 87 450 0.845 Ours 4.8 101 465 0.866 3. 结论
1) 提出了密集残差连接U型网络,用于噪声图像超分辨率重建。在特征提取路径中引入DRCDM,利用残差学习的特点对低分辨率噪声图像进行有效去噪;在重建路径中,通过RFAM中的EFAB对不同空间的特征赋予不同的权重,加强网络对于图像关键特征的提取能力。
2) 实验结果表明,该网络在客观评价指标及主观视觉效果上总体优于对比网络,利用该网络重建的图像基本消除了原有图像噪声,有效恢复了图像细节特征。
3) 虽然该网络实现了对低分辨率噪声图像去噪与重建的双重目的,但仍存在部分细节特征模糊的现象。在未来的工作中,将对网络中的卷积层与注意力机制进行改进,引导网络学习更准确的细节特征,进一步提高重建图像质量。
-
表 1 含有不同数量RFL的网络在Noise−Set14上的LPIPS和SSIM
Table 1 LPIPS and SSIM of network with different numbers of residual feature fusion layer on Noise-Set14
RFL数量 0 1 2 3 4 LPIPS 0.585 0.528 0.492 0.470 0.461 SSIM 0.627 0.669 0.717 0.752 0.763 表 2 含有不同数量RFL的网络在Noise−B100上的LPIPS和SSIM
Table 2 LPIPS and SSIM of network with different numbers of residual feature fusion layer on Noise-B100
RFL数量 0 1 2 3 4 LPIPS 0.632 0.598 0.563 0.532 0.525 SSIM 0.650 0.665 0.671 0.682 0.688 表 3 消融实验结果
Table 3 Results of ablation experiments
DRCDM RFAM PSNR SSIM × × 30.12 0.8968 √ × 30.50 0.9306 × √ 30.42 0.9289 √ √ 30.58 0.9315 表 4 不同网络在测试集上的LPIPS对比
Table 4 Comparison of LPIPS of different networks on test set
测试集 缩放因子 LPIPS Bicubic ESPCN EDSR RCAN DBPN CSNLN NLSN EFDN Ours Noise−Set5 4 0.716 0.535 0.693 0.582 0.678 0.547 0.545 0.542 0.357 8 0.626 0.525 0.653 0.557 0.564 0.539 0.537 0.529 0.453 Noise−Set14 4 0.782 0.521 0.740 0.629 0.742 0.562 0.563 0.559 0.461 8 0.692 0.603 0.708 0.623 0.672 0.579 0.577 0.575 0.540 Noise−Urban100 4 0.894 0.671 0.715 0.681 0.707 0.677 0.675 0.672 0.492 8 0.782 0.681 0.798 0.712 0.718 0.675 0.672 0.673 0.612 Noise−B100 4 0.708 0.610 0.654 0.642 0.683 0.618 0.616 0.613 0.525 8 0.810 0.723 0.795 0.776 0.788 0.721 0.719 0.717 0.685 Noise−场景1 4 0.823 0.623 0.714 0.588 0.677 0.615 0.542 0.523 0.502 8 0.799 0.633 0.702 0.655 0.625 0.725 0.622 0.630 0.615 Noise−场景2 4 0.816 0.556 0.742 0.596 0.764 0.645 0.566 0.526 0.510 8 0.795 0.645 0.756 0.637 0.755 0.655 0.678 0.636 0.622 表 5 不同网络在测试集上的SSIM对比
Table 5 Comparison of SSIM of different networks on test set
测试集 缩放因子 SSIM Bicubic ESPCN EDSR RCAN DBPN CSNLN NLSN EFDN Ours Noise−Set5 4 0.599 0.697 0.602 0.675 0.608 0.692 0.695 0.697 0.736 8 0.565 0.672 0.552 0.612 0.587 0.632 0.638 0.640 0.712 Noise−Set14 4 0.567 0.707 0.592 0.611 0.588 0.630 0.637 0.636 0.763 8 0.538 0.647 0.508 0.598 0.551 0.647 0.653 0.655 0.701 Noise−Urban100 4 0.698 0.801 0.708 0.788 0.711 0.789 0.792 0.795 0.877 8 0.531 0.710 0.605 0.658 0.649 0.718 0.719 0.721 0.785 Noise−B100 4 0.563 0.651 0.617 0.635 0.573 0.645 0.648 0.651 0.688 8 0.496 0.522 0.472 0.495 0.493 0.525 0.528 0.531 0.559 Noise−场景1 4 0.814 0.789 0.846 0.855 0.823 0.845 0.865 0.845 0.878 8 0.768 0.723 0.756 0.745 0.755 0.767 0.774 0.792 0.802 Noise−场景2 4 0.717 0.723 0.712 0.746 0.742 0.748 0.789 0.768 0.799 8 0.623 0.633 0.625 0.645 0.665 0.672 0.674 0.682 0.701 表 6 不同网络的复杂度和运行速度对比
Table 6 Comparison of complexity and running speed of different networks
网络 参数量/106个 每秒浮点运算次数/109 每张图像耗时/ms SSIM EDSR 43.1 1 212 1 520 0.846 RCAN 16.0 352 960 0.855 DBPN 10.4 325 756 0.823 CSNLN 7.2 110 655 0.845 NLSN 6.7 105 602 0.865 EFDN 1.2 87 450 0.845 Ours 4.8 101 465 0.866 -
[1] 程德强,陈杰,寇旗旗,等. 融合层次特征和注意力机制的轻量化矿井图像超分辨率重建方法[J]. 仪器仪表学报,2022,43(8):73-84. CHENG Deqiang,CHEN Jie,KOU Qiqi,et al. Lightweight super-resolution reconstruction method based on hierarchical features fusion and attention mechanism for mine image[J]. Chinese Journal of Scientific Instrument,2022,43(8):73-84.
[2] ZHUANG Cheng,LI Minqi,ZHANG Kaibing,et al. Multi-level landmark-guided deep network for face super-resolution[J]. Neural Networks,2022,152:276-286. DOI: 10.1016/j.neunet.2022.04.026
[3] TAO Hongjiu,TANG Xinjian,LIU Jian,et al. Super resolution remote sensing image processing algorithm based on wavelet transform and interpolation[C]. Conference on Image Processing and Pattern Recognition in Remote Sensing,Barcelona,2003:259-263.
[4] YANG Qi,ZHANG Yanzhu,ZHAO Tiebiao. Example-based image super-resolution via blur kernel estimation and variational reconstruction[J]. Pattern Recognition Letters,2019,117:83-89. DOI: 10.1016/j.patrec.2018.12.008
[5] KANG Xuejing,DUAN Peiqi,XU Ruyu. Single image super-resolution based on mapping-vector clustering and nonlinear pixel-reconstruction[J]. Signal Processing:Image Communication,2022,100. DOI: 10.1016/j.image.2021.116501.
[6] 高青青,赵建伟,周正华. 基于递归多尺度卷积网络的图像超分辨率重建[J]. 模式识别与人工智能,2020,33(11):972-980. GAO Qingqing,ZHAO Jianwei,ZHOU Zhenghua. Image super-resolution reconstruction based on recursive multi-scale convolutional networks[J]. Pattern Recognition and Artificial Intelligence,2020,33(11):972-980.
[7] YANG Shuyuan,LIU Zhizhou,WANG Min,et al. Multitask dictionary learning and sparse representation based single-image super-resolution reconstruction[J]. Neurocomputing,2011,74(17):3193-3203. DOI: 10.1016/j.neucom.2011.04.014
[8] DONG Chao,LOY C C,HE Kaiming,et al. Learning a deep convolutional network for image super-resolution[C]. 13th European Conference on Computer Vision,Zurich,2014:184-199.
[9] DONG Chao,LOY C C,TANG Xiao'ou,et al. Accelerating the super-resolution convolutional neural network[C]. 14th European Conference on Computer Vision,Amsterdam,2016:391-407.
[10] SHI Wenzhe,CABALLERO J,HUSZAR F,et al. Real-Time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]. IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,2016:1874-1883.
[11] HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. Deep residual learning for image recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,2016:770-778.
[12] KIM J,LEE J K,LEE K M. Accurate image super-resolution using very deep convolutional networks[J]. IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,2016:1646-1654.
[13] LIM B,SON S,KIM H,et al. Enhanced deep residual networks for single image super-resolution[C]. 30th IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops,Honolulu,2017:1132-1140.
[14] SEGU M,TONIONI A,TOMBARI F. Batch normalization embeddings for deep domain generalization[J]. Pattern Recognition,2023,135. DOI: 10.1016/j.patcog.2022.109115.
[15] ZHANG Yulun,LI Kunpeng,LI Kai,et al. Image super-resolution using very deep residual channel attention networks[C]. 15th European Conference on Computer Vision,Munich,2018:294-310.
[16] ZHANG Yulun,TIAN Yapeng,KONG Yu,et al. Residual dense network for image super-resolution[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Salt Lake City,2018:2472-2481.
[17] CHEN Liangliang,KOU Qiqi,CHENG Deqiang,et al. Content-guided deep residual network for single image super-resolution[J]. Optik,2020,202. DOI: 10.1016/j.ijleo.2019.163678.
[18] 程德强,郭昕,陈亮亮,等. 多通道递归残差网络的图像超分辨率重建[J]. 中国图象图形学报,2021,26(3):605-618. DOI: 10.11834/jig.200108 CHENG Deqiang,GUO Xin,CHEN Liangliang,et al. Image super-resolution reconstruction from multi-channel recursive residual networks[J]. Journal of Image and Graphics,2021,26(3):605-618. DOI: 10.11834/jig.200108
[19] WOO S,PARK J,LEE J,et al. CBAM:convolutional block attention module[C]. 15th European Conference on Computer Vision,Munich,2018:3-19.
[20] LIU Jie,TANG Jie,WU Gangshan. Residual feature distillation network for lightweight image super-resolution[C]. European Conference on Computer Vision Workshops,Glasgow,2020:41-55.
[21] BEVILACQUA M,ROUMY A,GUILLEMOT C,et al. Low-complexity single-Image super-resolution based on nonnegative neighbor embedding[C]. 23rd British Machine Vision Conference,Surrey,2012. DOI: 10.5244/C.26.135.
[22] ROMANO Y,PROTTER M,ELAD M. Single image interpolation via adaptive nonlocal sparsity-based modeling[J]. IEEE Transactions on Image Processing,2014,23(7):3085-3098. DOI: 10.1109/TIP.2014.2325774
[23] LIU Yun,CHENG Mingming,HU Xiaowen,et al. Richer convolutional features for edge detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(8):1939-1946. DOI: 10.1109/TPAMI.2018.2878849
[24] HUANG Jiabin,SINGH A,AHUJA N. Single image super-resolution from transformed self-exemplars[C]. IEEE Conference on Computer Vision and Pattern Recognition,Boston,2015:5197-5206.
[25] ZHANG Kai,ZUO Wangmeng,CHEN Yunjin,et al. Beyond a Gaussian denoiser:residual learning of deep CNN for image denoising[J]. IEEE Transactions on Image Processing,2017,26(7):3142-3155. DOI: 10.1109/TIP.2017.2662206
[26] ZHANG Kai,ZUO Wangmeng,ZHANG Lei. FFDNet:toward a fast and flexible solution for CNN-based image denoising[J]. IEEE Transactions on Image Processing,2018,27(9):4608-4622. DOI: 10.1109/TIP.2018.2839891
[27] HARIS M,SHAKHNAROVICH G,UKITA N. Deep back-projection networks for super-resolution[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Salt Lake City,2018:1664-1673.
[28] MEI Yiqun,FAN Yuchen,ZHOU Yuqian,et al. Image super-resolution with cross-scale non-local attention and exhaustive self-exemplars mining[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle,2020:5689-5698.
[29] MEI Yiqun,FAN Yuchen,ZHOU Yuqian. Image super-resolution with non-local sparse attention[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Nashville,2021:3516-3525.
[30] WANG Yan. Edge-enhanced feature distillation network for efficient super-resolution[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops,New Orleans,2022:776-784.
-
期刊类型引用(0)
其他类型引用(3)