首页天道酬勤卷积神经网络详解(反卷积神经网络)

卷积神经网络详解(反卷积神经网络)

admin 12-04 03:37 224次浏览

摘要

图像着色的目标是给灰度图像的每个像素分配颜色,这是图像处理领域的一个热点问题。设计了以U-Net为主网络,深度学习和卷积神经网络的全自动着色网络模型。在该模型中,分支线使用卷积神经网络SE-Incident-Resnet-V2作为高级特征提取器提取图像的全局信息,并使用幂线性单位函数代替网络中的线性校正函数(ReLU)。实验结果表明,该着色网络模型能够有效地对灰度图像进行着色。

狭义的家装:指室内装修;从美化的角度考虑,使室内空间更加美观;

广义的家装:包括室内空间的改造和装修;今天我们讲的是广义的家装,就是室内装修和装修的融合。

中文引用格式:美丽可乐,sqdhb。引用该论文王志平,王志平,王志平.电子技术应用,2018,44 (10): 19-22。

英文引用格式:徐中辉、吕薇帅。引用该论文王志平,王志平,王志平.电子技术应用,2018,44 (10): 19-22。

0简介

图像着色是对灰度图像进行伪着色的过程,具有很高的研究和应用价值。早期的图像着色方法主要分为两类:一类是基于局部颜色扩展的[1],另一类是基于颜色传递的[2]。前者要求用户指定整个画面的颜色,解决全局优化问题,在目标图像上标记一定数量的颜色画笔作为着色的基础,然后通过颜色扩展对整个图像进行着色。这种方法可以得到一些很好的彩色图像,但需要处理复杂的纹理和大量的人为干扰。不同的颜色区域需要用颜色刷明确标注不同的颜色。因此,在整个上色过程中,用户的工作量非常大,上色效果高度依赖于他们的艺术技巧。后者消除了图像着色过程中人为因素的干扰和影响。与前者不同,这种方法需要一幅彩色图像作为参考图像来传递颜色信息。通过这种方法获得的图像的颜色与参考图像的颜色相似,因此结果中颜色类型的数量减少,并且需要很长时间来找到合适的样本图像。随着深度学习的发展和应用,深度神经网络的数据驱动着色方法已经成为一种趋势[3]。如CHENG Z等[3]采用了以图像描述符为输入的深度神经网络图像着色方法,利用神经网络提取图像特征。IIZUKA S等人[4]利用一种基于全局层次特征和中层特征的理论对黑白图像进行编码和着色,融合两种特征预测像素的颜色信息,网络还可以对图像进行分类。ZHANG R等人[5]使用了多模态方案,每个像素给出了可能颜色的概率值,所以着色后会出现几幅不同颜色风格的图像。

受上述工作的启发,本文设计了基于深度神经网络Incident-Resnet-V2 [6]的全自动着色网络模型,并在模型中加入了SENet模块[7]。SENet可以对特征通道的相互依赖关系进行显式建模,通过学习自动获取每个特征通道的重要性,然后根据重要性增强有用的特征,抑制对当前任务无用的特征。cut-resnet-v2与SENet结合作为高级特征提取器。同时,用PoLU函数[8]代替线性整流单元(relu)函数来提高网络性能。

1模型和算法

1.1理论方法

其中,n为权重,负部分控制PoLU函数的变化率。PoLU函数对于负输入有非零输出,不仅增加了学习稳定性和表示能力,而且使单位输出的平均值接近于零,从而降低了偏移移位效应。与之前的激活函数不同,当n1时,PoLU函数在其负态下与y=x有交集,可以增加响应面积。为了更好地训练网络,找到模型的最优参数,量化模型损失,在颜色空间中采用估计的像素颜色值与其真实值之间的均方误差(MSE),然后通过网络将损失传播回来,更新模型参数以达到最佳。对于图片P,

目标和重建图像的第x个分量的第ij个像素值由以下公式:表示。

1.2算法

在该模型中,预测图像的a*和b*颜色分量,并与输入图像的亮度分量相结合,以获得最终的彩色图像。该模型采用SE-Incident-Resnet-V2网络,从灰度图像的最后一层开始嵌入。网络架构如图2所示。它主要由三部分组成,即特征提取模块、融合模块和重建模块。主线网络提取“局部特征”

nception-ResNet-v2提取“全局特征”,两部分互不干扰,“全局特征”可以指导“局部特征”,例如指导图像是在室内还是室外,水上还是水下,同时“局部特征”可以给出局部纹理等一些细节信息;融合模块拼接两部分特征提取模块提取到的特征wmdlc,将其融合到一起;重建模块将重建输入图像并与输入图像的亮度分量结合输出彩色图像。下面详细介绍这3个组成部分。

1.2.1 特征提取模块

特征提取模块如图2所示,在U-Net中,输入的灰度图像尺寸为H×W,输出是H/8×W/8×512的特征表示,最后一层处理卷积层的wmdlc,从512通道wmdlc减少到256通道wmdlc。在卷积层,所有卷积核都为3×3,并用填充保护该层的输入大小。为了降低网络的计算量,在网络中使用步长为2×2的卷积层,而不是最大池化层来减少wmdlc大小。在支线网络使用SE-Inception-ResNet-v2提取图像嵌入,有些高水平的特征如门内、水下、车内、室外,传达可用于彩色化过程的图像信息。为了满足Inception的图像输入要求299×299×3,先将输入图像的尺寸转换为299×299,然后将图像与自身叠加以获得一个三通道图像,随后将生成的图像输入到网络,并在Softmax函数之前提取最后一层的输出。根据Inception-ResNet-v2框架规则,输出是1 001×1×1的嵌入。主线特征提取模块最后输出是一个尺寸为H/8×W/8×256的wmdlc,此输出将与SE-Inception-ResNet-v2网络输出在融合模块融合。具体参数见表1所示。

1.2.2 融合模块

融合模块如图2所示,它将特征提取模块提取到的两部分特征表示融合到一起。网络从SE-Inception-ResNet-v2提取特征向量,将其复制HW/64次,沿空间深度轴附加到主线U-Net特征提取模块输出[4]。在网络中应用此方法得到一个形状为H/8×W/8×1 257的特征wmdlc。通过对特征wmdlc的镜像和多次拼接,确保特征wmdlc所传递的语义信息在图像的所有空间区域中均匀分布。同时在网络中应用256个大小为1×1的卷积核,生成一个H/8×W/8×256维度的特征wmdlc。

1.2.3 重建模块

特征wmdlc经融合模块之后,流向重建模块。在重建模块中,由卷积层和上采样层处理特征wmdlc,用于重建图像的通道。在主线特征提取模块中,应用步长为2×2卷积层减小了wmdlc尺寸,在重建模块中应用上采样层使wmdlc的宽和高增加。最后一个是带有PoLU传递函数的卷积层,之后是一个上采样层,输出的图像wmdlc为H×W×2,再结合输入图像的亮度分量生成最终的彩色图像。重建模块的卷基层同样使用填充以保护图像的大小,具体参数如表2所示。

2 实验结果与分析

2.1 实验过程

数据集的正确选择对实验效果的提升有着重大影响,基于数据驱动的图像彩色化方法中使用最为广泛的是ImageNet数据集。为提升训练效果,将重新调节图像尺寸,输入进SE-Inception-ResNet-v2的图像尺寸调整为299×299,输入进主线U-Net中的图像尺寸调整为224×224。网络利用NVIDIA CUDA Toolkit和NVIDIA GeForce GTX加速训练,在训练时使用了大约120 000张ImageNet数据集图像,使用5%作为训练期间的验证数据集。

2.2 结果分析

为了对比不同方法的着色效果,对图3(a)人物灰度图像应用不同方法得到的结果如图3所示。图3(b)是应用Ryan Dahl方法得到的彩色图像,其图像主体雪山涂上了人们不希望出现的颜色——棕色。Ryan Dahl方法在其着色方法中把图像着色作为一个回归问题进行处理,在网络中使用欧氏距离函数作为损失函数。虽然将此作为回归问题处理看起来非常适合,但是因为颜色空间的连续性质,在实践应用中基于分类的方法更好。图3(c)是应用Larron方法生成的图像,在视觉效果上比Ryan Dahl方法好,但是部分山体也出现了棕色,Larron方法是通过预测每个像素的颜色直方图进行着色的,对空间位置信息不敏感。图3(d)是应用本文的方法得到的结果,与Ryan Dahl方法和Larron方法的结果相比,本文方法的结果在颜色连续性、图像颜色的合理性以及颜色在图像空间位置的合理分布等方面都有出色的表现。本文方法在网络中应用了目前在图像分类任务中准确度最高的网络模型,同时加入SENet模块,提高了网络的表示能力。

对图4(a)鸟类灰度图像应用不同方法着色,结果如图4所示。图4(b)是应用Ryan Dahl方法得到的结果,可以看出草地上很多部分都没有很好地涂上绿色,颜色连续性较差,而且鸟类身上的颜色也偏暗。图4(c)是应用Larron方法得到的结果,此图在视觉效果上要优于图4(b),但是草地并不是绿色的,Larron方法在实验中使用了多模态的方法,颜色会有几种概率值,草可能是绿色,也可能是枯黄的。图4(d)是应用本文的方法得到的结果图,与图4(b)和图4(c)相比,本文方法的结果在颜色连续性和颜色空间分布上更接近于真实图像。

3 结论

图像彩色化具有很大的发展空间和应用价值,本文基于卷积神经网络,设计了一种基于数据驱动的黑白图像着色方案,它可以在不进行任何用户干预的情况下对黑白图像进行着色。该方案利用彩色图像转换的灰度图像作为输入,输出与灰度图像对应的彩色图像的a*和b*颜色分量的预测值。然后结合灰度L*和a*、b*的输出,获得基于CIE色彩空间的彩色图像,最后形成从灰度图像到彩色图像的非线性映射。由于在实验中只使用了ImageNet数据集的子集,只有小部分颜色主题被网络训练,因此,在一些关联不大的主题图片上,本文的方案可能表现不是很理想,但是如果网络选择在一个更大的、主题更丰富的训练数据集上训练,这个问题可以得到较好的解决,这也是下一步努力的方向。

参考文献

[1] CHIA Y S,ZHUO S,GUPTA R K,et al.Semantic colorization with internet images[J].ACM Transactions on Graphic,2011,30(6):1-8.

[2] GUPTA R K,CHIA Y S,RAJAN D,et al.Image colorization using similar images[C].ACM International Conference on Multimedia,2012:369-378.

[3] CHENG Z,zydmj Q,SHENG B. Deep colorization[C].Proceedings of the 2015 IEEE International Conference on Computer Vision(ICCV).IEEE Computer Society,2015:415-423.

[4] IIZUKA S,SIMO-SERRA E,ISHIKAWA H.Let there be color!:joint end-to-end learning of global and local image priors for automatic image colorization with simultaneous classification[J].ACM Transactions on Graphics(TOG),2016,35(4):110.

[5] ZHANG R,ISOLA P,EFROS A A.Colorful image colorization[C].European Conference on Computer Vision.Springer,Cham,2016:649-666.

[6] SZEGEDY C,IOFFE S,VANHOUCKE V,et al.Inception-v4,inception-resnet and the impact of residual connections on learning[C].AAAI,2017,4:12.

[7] HU J,SHEN L,SUN G.Squeeze-and-excitation net-works[J].arXiv preprint arXiv:1709.01507,2017.

[8] LI Y,DING P L K,LI B.Training neural networks by using Power Linear Units(PoLUs)[J].arXiv preprint arXiv:1802.00212,2018.

[9] RONNEBERGER O,FISCHER P,BROX T.U-Net:convolutional networks for biomedical image segmentation[C].International Conference on Medical Image Computing and Computer-Assisted Intervention.Springer,Cham,2015:234-241.

作者信息:

漂亮的可乐,sqdhb

(江西理工大学 信息工程学院,江西 赣州341000)

Semaphore以及CyclicBarrierJava设计模式之装饰模式是什么及怎么实现nmap优化扫描使用NormalModuleReplacementPlugin从实际文件中获取iOS项目中的version和build详解JAVA线程安全性之voliate基础网络 UNetvue2.x中diff算法的原理是什么为什么Instagram会不时在浏览器上引发“ExpectedDictgotMapping”错误?nmap服务版本扫描
spring注解有哪些(bootcamp中文) 数据库默认的隔离级别(MySQL数据库的隔离级别)
相关内容