首页天道酬勤如何获得eth(eth升级)

如何获得eth(eth升级)

admin 11-29 18:25 336次浏览

标题团队标题作者团队

纸张: https://arxiv.org/abs/2103.14006

代码: https://github.com/cszn/BSRGAN

本文作者苏黎士联邦理工学院的张凯(著有DnCNN、IRCNN、FFDNet、SRMD、DPSR、USRNet、DPIR等有影响力的文章。)探索了低层领域退化模型的设计。本文针对现有退化模型中存在的问题,提出并设计了一种复杂但实用的新退化方案。基于所设计的新降质方案,训练了RRDBNet模型。无论是合成数据还是真实场景数据,所获得的模型都以SOTA性能实现了出色的视觉感知质量。强烈建议你深入研究原文。

Abstract

众所周知,当预先假设的图像过分退化模型与真实图像的退化模式不匹配时,模型的性能将会退化甚至为负。现有的集中式退化模型虽然考虑了额外的影响因素(如模糊核和模糊度),但仍不能有效覆盖真实图像的多样性退化模式。

为了解决这个问题,本文设计了一个更复杂但实用的退化模型,该模型包括随机替换模糊、下采样和噪声退化(即每个退化对应多种类型,顺序会随机调整)。具体来说,模糊退化通过两种卷积(各向同性和各向异性高斯模糊)来模拟。下采样是从最近邻、双线性和双三次插值中随机选择的;然后是不同噪声水平的高斯噪声、不同压缩质量的JPEG压缩、ISP反演产生的传感器噪声等产生的噪声。

为了验证所设计的新退化模型的有效性,我们训练了一个深度盲ESRGAN超分割模型,并对不同退化的合成图像和真实图像进行了处理。实验结果表明,新的退化模型有助于显著提高深度超分割模型的实用性,为RealSR的应用提供了有效的解决方案。

本文的主要贡献包括以下几点:

提出了一个实用的SISR退化模型,该模型考虑并设计了一个更复杂的退化空间。基于上述设计的退化模型合成的训练数据对盲SISR进行了训练,得到的模型在不同类型的真实退化数据上取得了很好的效果。据我们所知,本文是第一个为广义盲超分手工设计退化模型的方案。本文强调了精确的退化模型对DNN随机共振实践的重要性。00-1010因为本文主要围绕“如何设计一个实用的退化模型”展开,并用于训练深盲SISR模型。所以我们先来看看现有退化模型存在的问题,然后引出本文的方案。

现有的图像超分大多采用双三次或模糊化的方法来制作训练数据;对于稍微复杂的,采用模糊、下采样和噪声组合。噪声常被假定为加性高斯白噪声,这往往难以与真实图像的噪声分布相匹配。事实上,噪声往往来自传感器噪声和JPEG压缩噪声,它们通常与信号相关且不均匀。无论模糊降级是否准确,如果噪声不能有效匹配,都会导致超分割性能严重下降。也就是说,面对真实的图像退化,现有的退化模型仍有很大的改进空间。

除了上面提到的人工模拟退化,还有一些其他的盲图像超分割方案。大概有几个研究方向:

首先估计单反图像的退化参数,然后采用非盲方法生成单反图像。然而,非盲方案通常对退化误差非常敏感,因此生成的结果要么过于尖锐,要么过于平滑;同步模糊核和人力资源图像估计,如IKC。然而,这些方法没有考虑噪声,往往导致模糊核估计不准确,进而影响HR重构的质量。通过监督收集LR/HR数据对,如RealSR和dreamsr。然而,配对训练数据的收集成本非常高,学习的模型会受到LR域图像的限制。基于不成对的训练数据,采用类似CycleGAN的思想训练模型或使用KernelGAN从源域图像中估计模糊核,然后对源域和目标域图像同时进行降质处理,产生训练数据。虽然这类方法的精确退化模糊核估计非常重要,但如果模糊核估计不准确,模型性能会变差。据我们所知,目前还没有可以直接用于广义图像超分割的深度盲SISR。

Related Work

在提出设计的降级模型之前,我们先来看看降级模型的一些影响因素:

从传统的退化模型来看,模糊、下采样和噪声都会影响真实图像的退化。有鉴于此,改进退化模型空间的一种可能方式是使其尽可能大并且尽可能接近真实退化。HR和LR中可能存在噪声和模糊,因此不需要使用模糊/下采样/噪声来生成LR图像;鉴于此,我们用随机替换来扩展退化空间。传统退化模型的模糊核空间会随着尺度的变化而变化,使得实际的大尺度因子难以确定。鉴于此,我们可以利用小尺度模糊核的分析和计算来设计大尺度因子。双三次退化虽然不适合真实的LR图像,但可以用于数据增强,是图像清洗和锐化的好选择。因此,对于大规模因素,我们可以在降级之前执行双三次下采样。不失一般性,本文主要针对广泛使用的x2和x4尺度设计退化模型。接下来,我们将从四个角度(模糊

、下采样、噪声以及随机置换策略)来介绍退化模型。

Blur

模糊是一种常用的图像退化。我们提出从HR与LR两个空间对模糊建模。一方面,传统的SISR退化先对HR进行模糊然后再下采样;另一方面,真实LR图像可能是模糊的,因此在LR空间进行模糊建模是可行的。

针对SISR,我们采用两个高斯模糊:(表示各项同性高斯核)、(表示各向异性高斯核)。考虑到HR与LR图像可以被两个模糊操作进行退化,模糊退化空间得到了极大的扩展。

在模糊核设计方面,尺寸在之间均匀采样;各项同性高斯核的核宽从(x2)、(x4)之间均匀采样;对于各项异性高斯核,旋转角度从之间均匀采样,每个周长度从(x2)与(x4)之间均匀采样。采用Reflection填充以确保模糊输出的空间一致性。

Downsampling

在下采样方面,可能最直接的方法是最近邻插值。然而所得到的LR图像会存在朝左上角像素不对齐问题。作为补救措施,我们采用2D线性网络插值方法将各项同性高斯核的中心移动像素,先卷积然后最近邻下采样,我们采用表示这种类型的下采样。此外,我们还采用的双三次与双线性插值方法,分别表示为。更进一步定义上下采样方法,它先按照尺度下采样,然后按照尺度上采样。这里的插值方法从双线性、双三次中随机选择,尺度从中采样。

很明显,上述四种下采样方法在HR空间具有模糊操作,而可以对LR空间引入上采样模糊。在实际应用时,我们对上述四种下采样均匀采样选择并对HR图像下采样。

Noise

因其可以通过不用的源导致,真实图像中的噪声无处不在。除了广泛采用的高斯噪声外,我们所设计的退化模型还考虑了JPEG压缩噪声以及传感器噪声。接下来,我们将针对这三类噪声进行介绍。

Gaussian Noise 当对噪声一无所知时,高斯噪声假设是一种最保守的选择。为合成高斯噪声,我们采用了3D零均值高斯噪声模型。该噪声模型具有两个特例:(1) 当时,它退化后广泛采用的加性高斯噪声模型;(2)当时,它退化后广泛采用的灰度加性高斯噪声模型。在我们所设计的退化模型中,我们采用高斯噪声进行数据合成。具体来说,广义噪声与两种特殊情况的选择概率分别为。对于来说,它从范围内均匀选择。

JPEG Compression Noise 在带宽与空间减少方面,JPEG是最广泛采用的图像压缩标准。对于高压缩情形,它带来了烦人的块伪影/噪声。压缩程度会受到压缩因子影响,其范围为。当压缩质量大于90时,一般不会导致明显的伪影。在我们所设计的退化模型中,JPEG的质量因子从之间均匀选择。由于JPEG是最流程的图像格式,我们以概率0.75和1采用两个JPEG压缩,后者为最终的退化操作。

Processed Camera Sensor Noise 在数码相机中,输出图像由raw传感器数据经由ISP处理得到。Brooks等人设计了一种传感器噪声合成方法并成功地设计了一种有效的Raw图像降噪模型。如果ISP流水线不进行降噪,传感器噪声会引入非高斯噪声恶化输出图像。为合成这类噪声,我们通过逆ISP流水线得到raw图像,并添加传感器噪声到合成raw图像。按照AdobeDNG方案,这里的前向ISP流水线包含去马赛克(采用matlab中的demosaic)、曝光补偿(全局尺度从选择)、白平衡(红蓝增益从中均匀选择)、XYZ(D50)颜色空间转换(raw数据头信息中抽取)、RGB颜色空间转换、色调映射(手动选择最佳拟合曲线)、gamma校正等。注:我们以概率0.25执行该噪声合成操作。

Random Shuffle

尽管传统的退化模型简单、方便,但难以覆盖真实LR图像的退化空间。一方面,真实LR图像可以是HR图像的噪声、模糊、下采样以及JPEG压缩版本;另一方面,退化模型假设LR图像是HR图像的双线性下采样、模糊以及噪声版本。也就是说,LR图像可以是按照模糊、下采样、噪声不同顺序得到。因此,我们在新的退化模型中设计了一种随机置换策略。具体来说,对退化序列进行顺序随机置换,随机置换可以大幅扩展退化空间。

首先,其他退化模型(比如bicubic以及其他传统退化模型)仅仅是本文退化模型的特例;其次,模糊退化空间可以通过四种下采样中的模糊以及两种模糊操作的组合得到扩展;然后,噪声特性会受模糊核下采样而出现变换,进一步扩展了退化空间。

退化模型示意图

上图给出了本文所提出退化模型的示意图。对于HR图像,我们可以通过调整不同的退化操作、退化参数生成不同的LR图像。对于x4尺度,我们在退化之前以0.25概率额外执行了双线性/双三次下采样。

Some Discussions

为更好的理解所设计的退化模型,有必要添加以下讨论分析。

退化模型主要用于合成退化LR图像。它最直接的应用是基于成对LR/HR图像训练深度盲图像超分。具体来说,退化模型可以基于大尺度HR图像数据生成无限对齐的训练数据,从而不会受有限数据、不对齐问题约束。因其包含过多退化参数与随机置换策略,所提退化模型不适用于模拟已退化LR图像。尽管该退化模型可以生成某些真实场景鲜少出现的极限退化,但这仍有助于提升深度盲图像超分的泛化性能。具有大容量的DNN具有单模型处理不同退化的能力,比如DnCNN可以处理不同倍率、不同程度JPEG压缩、不同噪声水平,且具有与VDSR相当性能。我们可以通过调整退化参数,添加更多合理的退化类型以改善特定应用的实用性。

Experiments

超分模型并非本文核心,现有超分网络均可作为选择,本文选择了ESRGAN作为基线模型,并做了几点改动:(1) 由于本文的目的是:在未知退化前提下,解决更广义的盲图像超分。训练数据方面采用DIV2K、Flickr2K、WED以及源自FFHQ的2000人脸图像;(2)采用了更大的图像模块;(3) 损失方面采用了、VGG感知、PatchGAN三个损失的组合,组合系数。

在训练超参方面,优化器为Adam,batch=48,固定学习率。整个训练大约花费10天(亚马逊云,4个V100)。

Testing Datasets

DIV2K3D&RealSRDIV2K3D&RealSR

与此同时,我们还提供了两个数据集:DIV2K3D与RealSRSet。两者信息如下:

RealSRSet:包含20个从网络下载或者现有测试集中挑选的真实图像;DIV2K3D:它基于DIV2K验证集采用三种不同退化类型制作。这三种退化类型分别是:(1) 各项异性高斯模糊+x4最近邻下采样;(2) 各向异性高斯模糊+x2最近邻下采样+x2双三次下采样+JPEG压缩(压缩范围为);(3) 本文所提退化模型。

Experiments on DIV2K3D

Results-on-DIV2K3DResults-on-DIV2K3D

上表&上图给出了不同超分模型在DIV2K3D数据集上的性能对比与视觉效果对比。从中可以看到:

由于RRDB与ESRGAN是在简单的双三次退化数据集上所训练,它们在DIV2K3D上的表现并不好。由于考虑更实用的退化,FSSR、RealSR的表现要比ESRGAN更优。对退化类型1方面,由于在类似退化数据集上进行的训练,IKC取得了很好的PSNR与SSIM指标;而RealSR取得了最佳LPIPS指标;对于其他两个类型,这些方法表现出了严重的性能下降。本文所提BSRNet方法取得了整体最佳的PSNR与SSIM指标;所提BSRGAN取得了整体最佳LPIPS指标。在视觉质量方面,IKC与RealSR难以移除噪声重建锐利边缘;而FSSR可以重建锐利边缘但同时引入了伪影问题;本文所提BSRGAN取得了最佳视觉质量。

Experiments on RealSRSet

results-on-realsrset

上表给出了不同方法在RealSRSet数据上的性能对比。由于RealSRSet的真值不可知,我们采用了无参考图像质量评价方法(NIQE、NRQM、PI)进行度量。从上表可以看到:BSRGAN并未取得最佳指标。但是BSRNet取得了更好的视觉感知质量,见下图对比。比如:BSRGAN可以移除未知传感器噪声、未知复合噪声同时重建锐利边缘和细节;相反,FSSR与RealSR生成某些高频伪影。这种定量与定性指标的不一致性意味着:无参考IQA并不能总是匹配视觉感知质量,IQA应该随新的SISR方法更新迭代。我们进一步还认为:SISR的IQA应该随图像退化类型而更新演变。

visual-on-realsrset

连接Activity生命周期实例讲解Java设计模式之策略模式是什么及怎么实现UCloud 开启负载均衡+WAF一键联动Java0基础_day11-抽象类与接口
空间板就是个坑(南通纸尚空间) lua c(c运行环境)
相关内容