首页天道酬勤vnr网络(mimoji)

vnr网络(mimoji)

admin 12-01 12:40 231次浏览

作者|咸鱼

编辑| CV君

报道|我爱电脑视觉(微信ID: aicvml)

论文:https://arxiv.org/abs/2103.14858

链接:https://github.com/ding3820/MIMO-VRN

编者按:在本文中,IRN视频是基于视频缩放任务进行超级分词的。与普通的VSR不同,在学习任务中加入了下采样,这可能是后VSR时代一个很好的研究方向。

看点

,最近的研究大多集中在基于图像的上下采样联合优化方案上,没有考虑时间信息。为此,本文提出了两种基于耦合层可逆神经网络的联合优化方案。

长期记忆视频缩放网络(LSTM-VRN)利用低分辨率视频中的时间信息来预测丢失的高频信息。多输入多输出视频缩放网络(MIMO-VRN)是一种同时缩放一组视频帧的策略。

它们不仅在定量和定性结果上优于基于图像的可逆模型,而且在视觉质量上提供了与双三次缩减视频相当的LR视频,并且在没有联合优化的情况下大大改进了视频缩放方法。这项工作是联合优化视频缩放任务的首次尝试。

方法

00-1010在介绍本文的方法之前,我们先了解一下SISR的类似方法。视频缩放任务将固定的下采样方法转化为可学习的模型,使得LR图像能够适应联合学习的上采样过程。训练目标通常要求LR图像适合人类感知。最近,IRN在这个联合优化任务中引入了一个可逆模型。它可以通过相同的神经网络结构实现图像的上下采样,为清晰地建模高斯噪声下采样丢失的高频信息提供了一种方法。

IRN正演模型包括一个二维哈尔变换和八个耦合层,如下图所示。通过二维哈尔变换,首先将输入的心率帧分解为一个低频分量和三个高频分量。然后通过耦合层处理这两个分量,以输出视觉上令人愉悦的LR图像和HR图像中固有的互补高频信息。

理论上,因为模型是可逆的,所以反向耦合层可以从Y和Z方向恢复而没有损失。但实际上,是不可能推断出来的。IRN的训练需要遵循高斯分布,这样就可以得到一个高斯样本来代替推理中缺失的高频分量。本质上,IRN是一种基于图像的方法,因此尽管IRN在图像缩放方面取得了良好的效果,但它对于视频缩放来说并不是最佳的。

IRN

LSTM-VRN和MIMO-VRN结构如下图所示。

Overview

和大多数视频超分辨率技术一样,LSTM-VRN(上图(a))采用SISO策略通过可逆网络的前向模型进行下采样,然后采用MISO上采样方法。

具体来说,首先,基于LSTM的预测模块融合当前LR帧的相邻帧以形成丢失高频分量的估计,该估计将被输入可逆模块以重构SR帧。

其中,需要从多个LR帧中进行推断,以决定LR视频中应该保留哪些信息,从而提高预测效果。在推理时间t,预测模块的前一模式是:

其中是sigmoid函数,是标准卷积和矩阵乘法。然后,前向传播和后向传播通过1X1卷积输出预测。注意,LSTM-VRN只使用LR视频帧的时间信息进行缩放,而其下采样仍然基于SISO方案,没有使用HR视频帧的时间信息。

LSTM-VRN

在这里,本文提出了一种新的

的基本处理单元,称为帧组(Group of Frames, GoF)。首先,将HR视频分解为非重叠的帧组,...,每个帧组包含g个帧,每个帧组都独立的进行降采样。

在一个GoF中,每个视频帧首先使用二维Haar小波单独变换,得到低频分量和高频分量。然后将整个组输入到耦合层中,通过两个降尺度模块,得到一组量化的LR帧和一组高频分量。

值得注意的是,由于组耦合的性质,与之间不存在一一对应关系。 上采样的过程也是在帧组基础上进行的。如上图(b)所示,本文采用基于残差块的预测模块对对应的LR帧组中缺失的高频分量进行预测。与降采样的帧组输入的概念类似,LR帧组和估计的高频分量组输入进可逆网络以逆模式运行。这种基于MIMO的上采样方法可以同时重构一组HR帧。

损失

LSTM-VRN的训练包含两个损失函数。首先,为了确保LR视频具有视觉上的美观性,将LR损失定义为:

其次,为了使HR重构质量最大化,使用Charbonnier来定义HR损失。总的损失为,其中λ为超参数。 MIMO-VRN的训练与LSTM-VRN具有相同的和损失,因为它们有共同的优化目标。

然而,我们注意到MIMO-VRN往往在GoF的视频帧上具有不均匀的HR重建质量(见消融实验)。为了缓解GoF中的质量波动,在MIMO-VRN中引入了以下中心损失:

其中g是组的大小,

表示一个GoF中平均HR重构误差,M表示一个序列中GoF的个数。这个损失鼓励GoF中每个视频帧的HR重构误差近似于平均水平。

实验

中心损失的消融实验

预测模块的消融实验

Vid4上的定量评估

包含中心损失的MIMO-VRN方法成为MIMO-VRN-C,†表示采用联合优化的缩放模型。

C++构造析构赋值运算函数怎么应用DeepRust匹配:有更好的方法吗?为什么社会上的Java程序员还没有饱和?Java0基础_day11-抽象类与接口雷士灯具管理系统RoadRunner有哪些特性
ctr 点击率(新版facebook) 板式塔的研究与进展(kaldi语音识别)
相关内容