论文盲审一个a一个b(论文参考文献a是什么)
论文:Quo Vadis,Action Recognition? A New Model and the Kinetics Dataset
期刊:CVPR2017
3358 www.Sina.com/:3359 arxiv.org/pdf/1705.07750 v1.pdf
papar
相关工作如下图所示
文章的两个重要贡献: 1提出了kinetics数据集。 提出了222流3D卷积模型
相关工作
模型详情:原论文C3D变种。 8层折叠,5层轮询,2层全连接。 与C3D的区别在于这里的卷积和在所有连接层后面加上BN; 在第一个轮询层中使用stride=2可以使batch_size更大。 输入为16帧,每帧112*112。
3D ConvNet
LTM的缺点:可以改变模型的上层,但不能捕捉到下层的运动(因为在低层,每一帧都是独立提取CNN的特征),部分低层的运动可能很重要; 训练很贵
Two-Stream Networks:将单独的RGB图像和计算出的光流帧的每一个发送到由ImageNet预先训练的ConvNet,并对两个信道的score进行平均
Two-Stream Networks
New*: Two-Stream Inflated 3D ConvNets
型号:
实验结果表明,I3D的精度提高了很多:
Implementation Details
3359 blog.csdn.net/paranoid _ CNN/article/details/7793316
3359 blog.csdn.net/gavinmiaoc/article/details/81208997
3359 blog.csdn.net/zzmshuai/article/details/84936338