首页天道酬勤增强型定位报告系统,深圳前瞻产业研究院

增强型定位报告系统,深圳前瞻产业研究院

张世龙 05-06 03:58 86次浏览

单击上面的“3D视觉工作室”,然后选择“星形标记”

干货在第一小时送到

作者: Vitor Guizilini

编译: McGL

通过自我监控学习,您只需将视频用作训练数据,就可以从单个图像中预测精确的点云。

引言计算机视觉是人工智能的一个领域,使计算机能够表达视觉世界。 由于神经网络可以从数据中学习到准确的预测方法,深度学习彻底改变了这一领域。 最近的进展有望使汽车更加安全,增加驾驶汽车的自由时间,为残疾人和全球人口迅速老龄化提供机器人支援。

但是,这里有问题。 在设计机器学习系统时,除了谨慎考虑隐私和其他道德问题之外,所有计算机视觉领域的尖端模型都依赖数百万个标签(为了达到现实世界中安全至关重要的APP应用所需的高精度)。 人工显示既昂贵又费时间,每张需要几个小时和几十美元。 而且,有时也无法实现。

这是单目深度估计的背景,其目的是使计算机能够理解图像的深度并且预测每个像素的场景元素距离。

单眼深度估计的目标是在像素级别估计每个场景元素与相机的距离。 也称为深度贴图。 许多传感器设备可以测量深度,而无论是直接、间接还是双目系统(如激光雷达),但单个照相机价格低廉,无处不在。 手机、行车记录仪、网络摄像机等上都有。 因此,能够从视频中生成有用的深度信息,不仅是一个有趣的科学课题,而且具有很高的实用价值。 我们也知道,人类在这方面做得很好,而不需要明确衡量一切。 相反,我们依赖于总结、自觉或不自觉先验的强大的三维关系推理能力。 试着闭上一只眼睛,伸手去拿东西。 判断的深度应该不成问题。

这就是我们在丰田研究院采用的方法。 我们并没有用正确的答案训练深层神经网络,而是想以投影几何为老师依靠自我监控来学习。在这种训练模式下,大量未加标签的视频的使用被解锁,更多的演示

由这两篇文章组成的博客系列探讨了如何设计、有效地训练深度神经网络,以进行深度估计,以及更多的用途。 第一篇文章介绍在各种摄像机配置下利用射影几何进行自我监控学习。 第二篇文章介绍了自我监控学习的实际局限性,以及如何使用弱监控或迁移学习超越自我监控学习。

第一部分:深度估计的自我监控学习深度根源: 监督与立体

Eigen等人的论文《Depth Map Prediction from a Single Image using a Multi-Scale Deep Network》首次展示了校准后的相机和激光雷达(LiDAR )传感器装置,从而能够将单目深度估计转换为监控学习问题。 设定很简单。 使用:神经网络将输入图像转换为每像素距离估计(深度贴图)。 之后,我们使用PyTorch这样的深度学习库,通过标准的预测误差反向传播,将准确的激光雷达测量数据再投影到相机图像上,监督深度网络权重的学习。

基于Godard等人的工作,探索了一种只使用双目立体对(两个摄像机相邻)拍摄的图像而不是激光雷达的自我监视学习方法。 从不同角度捕捉的同一场景的图像在几何上确实一致,利用该特性可以学习深度网络。 在准确预测立体对的左图像时,简单的几何方程介绍了如何仅根据右图像的像素重建左图像。 此任务称为视图合成。 如果深度预测错误,重建将非常糟糕,得到的误差称为光度损失(photometric loss ),通过反向传播最小化。

请注意,该网络仍然是单用途:仅训练左侧图像,而右侧图像和射影几何的先验知识仅用于自我监控学习过程。 这与大多数计算机视觉的自我监控学习不同,他们只学习:在这里,深度估计任务学习完整的模型,不需要标签!

自我监控深度:恶魔详细地在我们的ICRA'19论文《Unsupervised Monocular Depth Estimation with Left-Right Consistency》中发现,影响单眼深度性能的主要瓶颈是图像分辨率低。 恶魔是纤细的

节里,如果它们在大多数深度卷积网络常见的典型下采样操作中丢失了,那么就很难得到精确的自监督错误信号。受到超分辨率方法的启发,我们发现中间深度估计的亚像素(sub-pixel)卷积能够恢复一些细粒度的细节,以提高预测性能,特别是在对自动驾驶至关重要的高分辨率上(200万像素以上)。

虽然双目摄像头可以促进自监督学习,Zhou 等人的 CVPR'17论文《Unsupervised Learning of Depth and Ego-Motion from Video》令人惊讶地展示了这种方法也适用于单一、移动、单目的摄像头拍摄的视频!人们确实可以用相似的几何原理来处理时序相邻的帧,而不只是用左右双目立体图像。这极大地拓宽了自监督学习的应用潜力,但也使这项任务更加困难。事实上,连续帧之间的空间关系,也称为相机的自运动,是不知道的,因此也必须估计。幸运的是,围绕自运动估计问题有大量的研究(包括我们的研究),可以与自监督的深度估计框架无缝集成,例如,联合学习姿态网络和自监督的深度估计框架。

自监督学习利用深度和姿态网络,根据相邻帧的信息合成当前帧。在训练过程中,最小化原始图像与合成图像之间的光度损失。

正如在 SuperDepth 中一样,我们发现高分辨率的细节在这个设置中也是关键,但是这次我们走得更远。我们不再试图通过超分辨率恢复丢失的细节,而是着手在整个深度网络中有效地保存这些细节。因此,在我们 CVPR'20 论文 《3D Packing for Self-Supervised Monocular Depth Estimation》中,我们介绍了 PackNet,一种专门为自监督单目深度估计量身定制的神经网络结构。我们设计了新颖的压缩层和解压层,通过张量操作和三维卷积,在所有中间特征层保持空间分辨率。这些层可以替代传统的下采样和上采样操作,不同之处在于它们可以学习压缩和解压缩有助于深度预测的关键高分辨率特征。

PackNet 是一个编码器-解码器神经网络,利用新颖的压缩和解压块学习保存重要的空间细节,产生高质量的深度预测。

在使用 PackNet 进行的实验中,我们证实了实时保存这些细节是可能的,这对于机器人应用程序至关重要。实验结果表明,我们的自监督网络可以与激光雷达监督的模型相媲美甚至超越其性能!

比较 PackNet 和其他最先进的深度估计模型(包括监督和自监督)的定性结果。

重要的是,我们证明了性能提高不仅与分辨率有关,而且与模型的大小和数据也有关系,可以扩展到其他研究人员在其他监督任务(https://arxiv.org/abs/1712.00409)上得到的自监督的深度估计经验性发现。

PackNet 相对于标准 ResNet 结构的可扩展性实验。我们分析了相对于网络复杂度,图像分辨率和深度范围的可扩展性。

这个模型在实践中非常强大,任何人都可以轻松地从我们的开源代码库 packnet-sfm(https://github.com/TRI-ML/packnet-sfm) 中重现我们的结果。我们还发布了预先训练好的模型和一个新的数据集: DDAD(https://github.com/tri-ml/ddad)。

自动驾驶的密集深度基准与竞赛

你们在上面看到的很多结果都是来自丰田研究院(TRI)车队的数据,我们使用这些数据来研究、开发和测试我们的自动驾驶和先进的驾驶辅助系统。为了推动可重现性和促进进一步的开放研究,我们已经发布了部分数据,形成了一个新的有挑战性的基准,称为 DDAD(Dense Depth for Automated Driving)。它包括六个校准摄像头时间同步在10赫兹,和高分辨率远程激光雷达传感器用来产生密集的 ground truth 深度估计,远达250米。DDAD 在日本和美国富有挑战性和多样性的城市环境中收集了12,650个匿名匿名样本。我们还发布了一个验证集,并在 DDAD 上组织了一个深度估计竞赛(https://eval.ai/web/challenges/challenge-page/902/overview)。

全环绕单目点云

如上所述,DDAD 实际上包含了来自六个摄像头的同步数据,而不仅仅是一个。为什么有这么多?在机器人学中,尤其是在驾驶环境中,我们想要了解机器人周围发生了什么,而不仅仅是在它前面。这就是为什么激光雷达扫描仪提供了一个完整的360度 覆盖范围。同样的情况也可以通过合理的安置多个摄像头来实现,以提供全面的覆盖。然而,这些摄像头设备通常有最小的重叠和非常不同的视角,以最小化所需的摄像头数量,即成本。遗憾的是,这种设置破坏了多视角深度估计的标准计算机视觉方法,让摄像头之间的深度估计更独立性,从而可能导致不一致。

尽管摄像头之间的重叠很小,如果我们考虑到它们在时间上的关系,我们仍然可以利用它们。这是我们在最新的工作之一(https://arxiv.org/abs/2104.00152)所展示的全环绕单目深度(FSM)。简而言之,我们的方法结合了多摄像头时空光度约束、自遮挡 masks 和姿态平均,再次在自监督的方式下,学习一个单一深度网络,可以重建机器人周围的度量尺度(metrically-scaled)点云,就像激光雷达一样。

可供选择的摄像头模型: 神经射线表面(Neural Ray Surfaces)

支撑上述所有工作的射影几何基于一个重要的假设: 2D 图像和 3D 世界之间的关系是通过已知校准的标准针孔模型精确建模的。这使得摄像头之间的信息投影成为可能,这是自监督的深度估计的核心。然而,这个简便的假设在实践中并不总是成立,因为未建模的失真,例如广角相机(如鱼眼,反射折射),水下,甚至在雨天挡风玻璃后面的行车记录仪!

我们怎样才能解决这个问题,而不必为每个具体场景仔细设计和校准特定的相机模型?我们能否在没有先验知识的情况下直接从原始数据中学习通用的投影模型?这就是我们在论文《Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion》(https://arxiv.org/abs/2008.06630)中所做的。我们证明可以与深度和姿态网络一起学习预测每像素投影操作符。就像之前一样,这是自监督方式的端到端的整体优化,但没有任何关于相机模型的假设。换句话说,NRS 是非常灵活的,可以适用于各种不同的摄像头几何特性。很兴奋的看到人们使用我们发布的开源代码(https://github.com/TRI-ML/packnet-sfm)来实现各种想法!

应用 NRS 在各种的相机模型上的自监督深度估计结果。
总结

自监督是一个强大的工具,学习深度估计网络只需要使用原始数据和三维几何的知识。但是我们可以看到远远超出深度估计的应用。我们相信自监督学习有潜力产生很多有益于社会和增加流动性机会的应用。

尽管如此,路障依然存在。这就是为什么我们发布了我们的代码和数据,以鼓励对这些重要挑战进行更开放的研究。我们自己也在努力解决其中的一些问题,特别是如何超越纯粹的自监督,实现可扩展的监督,不仅是为了提高性能,也是为了减少自监督学习的一些偏见。我们将在下一篇文章中讨论我们的一些相关研究,请继续关注,单目就够了 ;-)

原文: https://medium.com/toyotaresearch/self-supervised-learning-in-depth-part-1-of-2-74825baaaa04

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的dbbt聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

视觉线索,自己监督