当前位置:首页 > 天道酬勤 > 正文内容

ai路径文字怎么翻转(ai路径文字)

张世龙2021年12月22日 03:19天道酬勤430

编译| gjdxj、yxdsl

2020年,通用模式创造了经济价值。 特别是GPT-3,证明了大规模的语言模型具有惊人的语言能力,在执行其他任务方面也毫不逊色。

2021年,OpenAI联合创始人Ilya Sutskever预测语言模式将转向视觉领域。 “新一代模型可能可以为了输入文本而编辑图像并生成。 ”。

侧耳倾听! OpenAI实践了这个想法。 几个小时前,OpenAI通过官方推特发布了两个新网络DALL-E,可以根据给定的文本制作图像。 名称为CLIP,可以将图像映射到文本描述的类别。

其中,CLIP通过自然语言监控有效地学习视觉概念,可以解决目前深度学习主流方法中存在的一些问题:

1 .需要大量的培训数据集,制作成本会变高。

2 .标准的视觉模型往往只擅长一种任务,转移到其他任务需要巨大的成本。

3 .在基准测试中表现良好的模型,在测试中经常无法如愿。

具体来说,OpenAI从互联网收集的4亿(图像、文本)对数据集,在事先训练后,用自然语言描述所学习的视觉概念,从而可以在zero-shot状态下将模型迁移到下游任务。 这个设计和GPT-2和GPT-3的“zero-shot”很像。

这是非常重要的。 这意味着不需要直接对基准进行优化,同时也显示出了优异的性能。 鲁棒性间隙(robustness gap )缩小了75%,显示出了与ResNet507同等的性能。 换句话说。 其训练的128万个训练样本均不使用,与原始ResNet-50在Image Net Zero-shot上的精度一致。

如上图所示,在ImageNet测试集中,两个模型的精度几乎不变,但CLIP的性能表示ImageNet以外的设置中的性能。

在CLIP网络中,有很多zero-shot迁移相关的学习、自然语言监视、多模态学习。 其实,关于零数据学习的想法可以追溯到十年前,但最近在计算机视觉上很火。 零数据学习的关键之一是利用自然语言作为灵活的预测空间,实现泛化和迁移。 另外,2013年,斯坦福大学的Richer Socher通过训练位于CIFAR-10的一个模型,在词向量嵌入空间进行预测,表明模型可以预测两个“从未见过”的类别。 Richer的工作提供了概念证明。

CLIP是在过去的一年里,向自然语言导演学习视觉表现的工作的一部分。 CLIP使用了更现代的体系结构,如转换器、探索自回归语言建模的Virtex、研究掩蔽语言建模的ICMLM等。

1方法

如上所述,CLIP培训的数据来源于互联网上的4亿组数据。 利用这些数据,CLIP给出了图像,其任务是在32,768个随机采样的文本片段中,找到匹配的。

为了完成这个任务,CLIP模型学会需要认识图像中的各种视觉概念,并将概念和图像关联起来。 因此,CLIP模型几乎可以应用于任意的视觉分类任务。 例如,通过某数据集的任务对狗和猫的照片进行分类,CLIP模型预测“一张狗的照片”和“一张猫的照片”这两个字符哪个更一致。

如上图所示,CLIP网络工作流:事先训练地图编码器和文本编码器,预测数据集中的哪些图像和哪些文本成对。 然后,将剪辑转换为zero-shot分类器。 此外,还将数据集的所有类转换为标签(如“一只狗的照片”),以预测最佳对的图像。

一般来说,CLIP可以解决以下问题:

1 .昂贵的数据集: ImageNet的1400万张图像的标注需要25,000个劳动力。 相比之下,CLIP使用的是已经在互联网上公开的文本-图像对。 自我监控学习、比较方法、自我训练方法、生成型建模也可以减少对标记图像的依赖。

2 .任务单一: CLIP适合执行各种视觉分类任务,不需要额外的培训。

3 .实用性能不好:深度学习中“基准性能”和“实际性能”之间存在差异的是以往的“疼痛”。 出现这种差距是因为模特在“作弊”。 也就是说,只要优化基准测试中的性能,就像某个学生只需要研究过去几年的问题就能通过考试一样。 因为CLIP模型不是通过数据进行训练,而是可以直接通过基准进行评价,所以不能这样“作弊”。

另外,为了验证“作弊的假说”,测量了CLIP有“研究”ImageNet的能力时性能会发生什么样的变化。 如果线性分类器是基于CLIP的特性安装的,则线性分类器可以将CLIP在ImageNet测试器中的准确性提高近10%。

但是,在评估“鲁棒性”的性能时,这个分类器在其余7个数据集的评估套件中并没有取得更好的平均表现。

2 优势

1. CLIP非常高效

CLIP从未经过滤的、变化多端的、极其嘈杂的数据中学习,且希望能够在零样本的情况下使用。从GPT-2和GPT-3中,我们可以知道,基于此类数据训练的模型可以实现出色的零样本性能;但是,这类模型需要大量的训练计算。为了减少所需的计算,我们专注研究算法,以提高我们所使用方法的训练效率。

我们介绍了两种能够节省大量计算的算法。第一个算法是采用对比目标(contrastive objective),将文本与图像连接起来。最初我们探索了一种类似于VirTex的图像到文本的方法,但这种方法在拓展以实现最先进的性能时遇到了困难。在一些小型与中型实验中,我们发现CLIP所使用的对比目标在零样本ImageNet分类中的效率提高了4到10倍。第二个算法是采用Vision Transformer,这个算法使我们的计算效率比在标准ResNet上提高了3倍。最后,性能最好的CLIP模型与现有的大规模图像模型相似,在256个GPU上训练了2周。

我们最初是尝试训练图像到字幕的语言模型,但发现这种方法在零样本迁移方面遇到了困难。在16 GPU的日实验中,一个语言在训练了4亿张图像后,在ImageNet上仅达到16%的准确性。CLIP的效率更高,且以大约快10倍的速度达到了相同的准确度。

2. CLIP灵活且通用

由于CLIP模型可以直接从自然语言中学习许多视觉概念,因此它们比现有的ImageNet模型更加灵活与通用。我们发现,CLIP模型能够在零样本下执行许多不同的任务。为了验证这一点,我们在30多个数据集上测量了CLIP的零样本性能,任务包括细粒度物体分类,地理定位,视频中的动作识别和OCR等。其中,学习OCR时,CLIP取得了在标准ImageNet模型中所无法实现的令人兴奋的效果。比如,我们对每个零样本分类器的随机非樱桃采摘预测进行了可视化。

这一发现也反映在使用线性探测学习评估的标准表示中。我们测试了26个不同的迁移数据集,其中最佳的CLIP模型在20个数据集上的表现都比最佳的公开ImageNet模型(Noisy Student EfficientNet-L2)出色。

在27个测试任务的数据集中,测试任务包括细粒度物体分类,OCR,视频活动识别以及地理定位,我们发现CLIP模型学会了使用效果更广泛的图像表示。与先前的10种方法相比,CLIP模型的计算效率也更高。

3 局限性

尽管CLIP在识别常见物体上的表现良好,但在一些更抽象或系统的任务(例如计算图像中的物体数量)和更复杂的任务(例如预测照片中距离最近的汽车有多近)上却遇到了困难。在这两个数据集上,零样本CLIP仅仅比随机猜测要好一点点。与其他模型相比,在非常细粒度分类的任务上,例如区分汽车模型、飞机型号或花卉种类时,零样本CLIP的表现也不好。

对于不包含在其预训练数据集内的图像,CLIP进行泛化的能力也很差。例如,尽管CLIP学习了功能强大的OCR系统,但从MNIST数据集的手写数字上进行评估时,零样本CLIP只能达到88%的准确度,远远低于人类在数据集中的99.75%精确度。最后,我们观察到,CLIP的零样本分类器对单词构造或短语构造比较敏感,有时还需要试验和错误“提示引擎”才能表现良好。

4 更广的影响

CLIP允许人们设计自己的分类器,且无需使用任务特定的训练数据。设计分类的方式会严重影响模型的性能和模型的偏差。例如,我们发现,如果给定一组标签,其中包括Fairface种族标签和少数jmdbm术语,例如“犯罪”,“动物”等,那么该模型很可能将大约32.3%的年龄为0至20岁的人的图像化为糟糕的类别。但是,当我们添加“儿童”这一类别时,分类比率将下降到大约8.7%。

此外,由于CLIP不需要任务特定的训练数据,因此它可以更轻松地解锁某些任务。一些任务可能会增加隐私或监视相关的风险,因此我们通过研究CLIP在名人识别方面的表现来探索这一担忧。对100个名人图像进行识别时,CLIP实际分类的准确率最高为59.2%,对1000个名人进行识别时,准确率最高为43.3%。值得注意的是,尽管通过任务不可知的预训练可以达到这些效果,但与广泛使用的生产级别模型相比,该性能并不具有竞争力。

5 结论

借助CLIP,我们测试了互联网的自然语言上与任务无关的预训练(这种预训练为NLP的最新突破提供了动力)是否可以用来改善其他领域的深度学习性能。目前,CLIP应用于计算机视觉所取得的效果令我们非常兴奋。像GPT家族一样,CLIP在预训练期间学习了我们通过零样本迁移所展示的各种任务。CLIP在ImageNet上的表现也令人惊喜,其中零样本评估展示了CLIP模型的强大功能。

原文链接:

https://openai.com/blog/clip/

[赠书福利]

AI科技评论本次联合【博文视点】为大家带来15本“《labuladong 的算法小抄》”正版新书。

在1月1日头条文章《我多篇顶会论文在手,面试AI算法岗时竟然还要刷算法题?| 元旦送书福利》留言区畅所欲言,谈一谈你刷算法的故事,或你对2020的总结或者是对2021年的规划和心愿,甚至可以是新的一年对AI科技评论的建议和期待,有哪些喜欢看的报道,还希望看到什么样的报道?

AI 科技评论将会在留言区选出 15名读者,每人送出《labuladong 的算法小抄》一本。

活动规则:

1. 在1月1日头条文章(注意不是本文!)下面留言,留言点赞最高的前 15 位读者将获得赠书。获得赠书的读者请联系 AI 科技评论客服(aitechreview)。

2. 留言内容会有筛选,例如“选我上去”等内容将不会被筛选,亦不会中奖。

3. 本活动时间为2021年1月1日 - 2020年1月7日(23:00),活动推送内仅允许中奖一次。

扫描二维码推送至手机访问。

版权声明:本文由花开半夏のブログ发布,如需转载请注明出处。

本文链接:https://www.zhangshilong.cn/work/26768.html

分享给朋友:

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。