首页天道酬勤,

,

张世龙 05-06 03:52 76次浏览

自监督学习与监督学习、非监督学习的关系样本的特点在学习过程中很重要。 在简单的数据挖掘任务中,重要的数据特征是人工设计的。 这些功能通常称为Hand-crafted features。 在计算机视觉领域,这种类型的表示通常需要设计适当的函数来从图像和视频中提取所需的信息。 但是,这些功能通常来自人类对视觉任务中重要信息的经验,手工创建的功能不能表示高级语义信息。 例如,在初期的工作中,提出了表示与对象的边缘和纹理等有关的视觉信息的SIFT算子和HOG算子等各种视觉描述符。 另外,由于设计函数复杂度的限制,这种类型的表达能力通常比较低,提出一种新的hand-crafted features不容易。

一般来说,hand-crafted features在早期的可视任务中取得了一些成功,但随着问题的复杂性的增加,它越来越不能满足我们的需要。 随着卷积神经网络的普及和数据大小的指数增长,在完全监测的任务中,自动提取的表示形式逐渐取代了低效的手动结构化特征。 在完全监测模型中,通过反向传播解决了以神经网络和监测损失函数为代表的全局优化问题。 大量的注释图像和视频数据集以及日益复杂的神经网络结构,使您能够执行图像分类和对象检测等全面监控的任务。 之后,训练模型的中间特征图通常包含与特定任务相关联的有意义的信息,这些信息可以被传送到类似的问题

但是,手动数据评论是监督学习的一个不可缺少的步骤,既费时又费力,而且有干扰。 与有监督的方法不同,无监督的方法与人的注释无关,通常集中于平滑度、稀疏度、分解等数据的良好表现的预先设定。 没有监视方法的经典类型通过群集方法(如kdbd混合模型)将数据集分解为多个kdbd分布式子数据集。 但是,非监督学习由于预设的普遍性低,所以不太可靠。 对于某些数据集(例如非kdbd子数据集),选择使数据适合kdbd分布可能是完全错误的。

自我监控方法可以看作是具有监控形式的特殊形式的非监控学习方法,这里的监控是由自我监控任务诱发的,而不是预设先验知识。 与未完全监视的设置相比,自我监视学习使用数据集本身的信息构建伪标记。 在表现学习方面,自我监督学习具有代替完全监督学习的巨大潜力。 人类学习的本质表明,大型注释数据集可能不是必需的,并且可以从未标记的数据集自发学习。 更真实的设置是使用少量带注释的数据进行自我学习。 这称为前端学习。

自监督学习的主要流派自我监控学习中,如何自动获取假标签很重要。 根据疑似标签的类型,将自我监视的显示学习方法分为4种类型。 基于数据生成(恢复)的任务、基于数据转换的任务、基于多模态的任务、基于辅助信息的任务。 这里简要介绍第一种任务。 事实上,所有非监督方法都可以视为第一种自我监督任务。 在我做文献调查的时候,我越来越觉得非监督学习和自我监督学习没有边界。

诸如数据维数减少(PCA:最大化原始数据的方差同时减少数据维数)、数据拟合分类(GMM:最大化kdbd混合分布的可能性)之类的非监督学习方法本质上是为了获得良好的数据表示,因此输入这是目前依赖于很多自我监视学习方法的监视信息。 基本上所有的编码器-解码器模型都将数据恢复作为训练的损失

参考资料

[1]本文的主要参考资料来自https://珠兰.智湖.com/p/125721565

,