338. 无标签图像时代 (合)_重生之AI教父

“你们先别急着惊讶，我们理性一点思考这个问题。”孟繁岐知道现在的视觉领域还没有什么特别成功的案例可以直接利用不加标注的图像。但在自然语言领域，是已经有了类似成果的，CloseAI自己就做了很多研究：“你们想一下，GPT系列的时候，我们那么多无标签的文本是怎么利用的。”

“那就是重构任务呗，在数据上挖洞让模型尝试复原。但你自己也说了，文本的信息密度大，就算挖洞模型的噪声也很小。这一点图像方面肯定很不一样的。”CloseAI在做GPT系列的时候经常给句子挖洞，通常是20个词挖掉1到2个，让模型根据上下文去猜测缺失的词汇是什么。

通过这种方式提升模型的语言能力，不需要给文本本身进行任何的标注，是一种非常低成本的数据利用方式。

毕竟这个世界上没有标签的数据占了绝大多数。

而现在，孟繁岐的意思很明确了，那就是图像上同样可以做类似的事情。

在任意图片上进行类似的挖孔遮挡操作，然后将重构出原本的图片作为模型的训练目标。

这么做的话，利用这些图片也就不需要进行任何操作了，不需要标签即可利用数据。

又或者说，这些图片本身就是它们的标签。

“我觉得这个思路不大对，图片相比文本本身信息密度就低很多了。如果模型要完全预测对原本的图像的话...那肯定就要浪费大量容量去模拟那些根本不重要的区域。这个学习的目标显然是有问题的。”CloseAI内部的讨论风气还是非常优异的。

大家并没有因为孟繁岐老板加领域领军人物的身份就盲目地相信他。

即便孟繁岐已经多次证明了自己的预判总是那么准确，但面对反直觉的思路，大家基本上都会据理力争。

“你的说法有一定道理，如果我只遮挡非常少部分的图像，比如1成左右，那这个重构图像的过程就很容易陷入完美模拟原图的陷阱当中。实际上我们根本不需要模型有这么强大的能力，既然如此，为什么不干脆选择一个模型没法重构出原图的情景去训练呢？”

孟繁岐这里说的东西就涉及到制图AI的本质了。

假设现在有一张图片，它的内容是一瓶可乐。

人们需要的制图AI，是能够画出基本相似内容的，而非是要百分百复刻原图。

如果这个AI把可乐瓶身上，编号、生产日期等乱七八糟的东西全复原了，其实它就已经落入了孟繁岐所说的【完美模拟原图的陷阱】当中。

对于制图AI来说，有些东西是要学的，而有些东西是没用的。

这两者怎么区分，其实人类自己也很难说出个所以然出来。

孟繁岐给出的办法是：“给定一个模型一定没法重构出原图的场景去训练。”

说白了就是压根就没想让模型完全恢复原图。

还是那瓶可乐的例子，如果遮住了瓶盖，这个场景AI能够重构出原图。

举个极端的例子，若是桌上整个可乐都被遮掉了，AI又如何能从余下的像素当中，非要判断这里应该有一瓶可乐呢？

那就没道理了。

孟繁岐认为，在这样高难度的情况下，AI模型能学到的东西是比较重要的，学不到的东西不去勉强。

“这个思路...稍微有些东西。我们都知道，相比高频信号而言，神经网络更擅长抓住低频的信号。而高频的内容基本是局部细节，低频更多的是全局的轮廓等内容。”有人觉得虽然现在文本生成图像的效果不佳，但主要是细节上太异常了，让人看了觉得很离谱。

大致轮廓上还是比较合理的，或许按照孟繁岐的方式能够淡化这方面的问题。

“你们仔细想想，和T方法其实是一个道理。凭什么T方法在语言领域一统江湖了，视觉领域却还是大家自己玩自己的？一套视觉T方法不是照样能够统一视觉任务吗？”

“同理，为什么语言领域的无标签预训练已经可以使用相同的模型了，视觉领域却不能使用相同的方法来利用这些没有标注的图像呢？”

“我觉得无非是两个原因，一是以前各种网络结构不统一，传统的卷积神经网络太不灵活。这个问题已经被我们用视觉T方法解决了。”

“二，图像信息密度太低，挖孔少了模型就偷懒，很容易过分地拟合一些不必要的细节。这点我们刚刚讨论了，加大这个比例可以更好地学到高层级的抽象特征。”

孟繁岐侃侃而谈，这一套操作与残差思想相同，都是前世kaiming主导的研究。

kaiming出品，突出的就是一个大道至简，简介简单却又扎实好用。

“你们猜猜重构出一张照片需要原本百分之多少的像素？”孟繁岐提出了这样一个疑问。

在自然语言领域，这个比例大概是百分之90左右。

必须要9成左右的文字，才能够比较合理地补全余下的部分。

“七成？”

“五成吧？”

大家都清楚图像的语义更加稀疏，因而大幅度地减少了这个比例。

“我的看法是，一成足够重建，三成可以重建得非常接近。”孟繁岐的这个说法是当时Masked Autoencoders (MAE)这篇论文的实验结果。

在图片被遮挡百分之七十五左右的情况下，经过重构训练的模型几乎能够完全复原原本的图片内容。

当然了，这里是指基本的图像内容和含义。

在具体的细节纹理上面，肯定还是有一些差异的。

而在图片被遮挡了百分之九十五的情况下，重构模型仍旧能够复原出含义基本相同，内容有一定相关性的内容。

这在当时给了孟繁岐非常大的震撼。

如此夸张的数字，几乎是违背所有领域内研究人员直觉的。

而违背直觉的结论，往往是领域重大进步的开始。