338. 无标签图像时代 (合)_重生之AI教父

卡雷鲁有关自己的书籍大卖，孟繁岐时隔快两年再次与他通话了一番。

一方面向他表示祝贺，即便是卡雷鲁这样的金牌记者，文字功底深厚，可想要写出这种级别的全民畅销书，也并非容易的事情。

另一方面，孟繁岐也向他表示了一下自己的感谢之情。

虽然孟繁岐个人其实稍微有些吃不消卡雷鲁在书中的赞美，那些运用艺术手法写作手法的桥段看得他是面红耳赤。

不过对于人家的这番心意，孟繁岐觉得自己还是需要表示感谢的。

“这本小说现在叫好又叫座，销量趋势更是一路走高。我看啊，原本没谈好的什么电影电视剧，现在都没什么问题了，这帮人肯定要回头来找我。”卡雷鲁显然还是对此前被连续放鸽子的事情耿耿于怀：“以前他们把我呼来喝去的，现在想要我的版权和改变授权，可就不是那么容易的事情了！”

卡雷鲁洋洋得意地说到这里，似乎突然想起了什么，问道：“对了，就是不知道你现在还有没有时间出镜扮演你自己。”

孟繁岐此前是答应了这件事没错，可时间隔得实在太久了。

当时的承诺，如今效力就比较弱了。

“我自己出镜的话还是算了吧，我本身就不是专业的，没有这方面的技能。当初在谷歌给别人打工，跑去拍摄一下倒也过得去。现在自己当老板了，时间确实有些紧张。”时过境迁，孟繁岐也成长了许多。

那时候比较爽快地答应，也是有些爱出风头，想要世人关注自己的成分在。

后来经历世纪大战等多次曝光，孟繁岐在这方面的兴趣早已消退，这些事情实在也没什么意思。

卡雷鲁对此似乎有所预料，也不勉强。

他请求孟繁岐到时候把关一下剧本内有关自己的内容，又或者参与挑选一下扮演自己的演员。

对这些事情，孟繁岐还是有些兴趣的，便爽快地答应下来。

此番插曲之后，孟繁岐几乎马不停蹄地就又投入到了多模态相关的技术上面。

虽然进展比较顺利，但ChatGPT仍旧未到盈利的阶段，制图AI也还在开发。

这两个主要进项还未完工，孟繁岐每天都仍在烧钱，不由得他不急。

几周过后，在CloseAI内部的研讨会上，实验小组向孟繁岐汇报了第一轮的实验结果。

有关对齐文本和图像的Clip方法实验，CloseAI取得了非常显著的成果，但是其中也存在非常严重的短板。

“老板，目前呢，通过文字和图像的特征对齐，优化它们之间的余弦相似度，我们观察到了非常明显的效果。”汇报结果的大基调是好的，孟繁岐指出的这個大方向看上去非常正确。

“不过呢...在实验过程当中，我们发现从图像到文本这方面的成果比较顺利。相反的方向，如果想要从文本直接生成图像，效果就有些不尽人意了。”这一点是目前困扰了CloseAI研究组的最主要难题。

其实在孟繁岐的意料之中，不过对实验人员来说是比较突然的。

“按理来说呢，图像和文字之间建立联系之后，这应该是一个双向的关联。没道理一条路走得通，反过来就走不了了。就比如翻译任务，如果两种语言之间的关联被建立了，就很容易做到相互指定。”

孟繁岐能够理解大家的困惑，就拿他们刚才举的例子来说，中文的【狗】与英文的【Dog】被学到了关联之后，两者之间就能够互译。

不会存在中译英成功，但英译中就做不了的情况。

可图像和文字之间的关联，则并非如此简单的事情。

“文字的表达是高度抽象的，往往是一对多的。有非常多形态各异的图像可以对应几乎相同的文字，因而，将一张图片总结成文字是比较容易的事情，反过来的难度则会大大提升。”孟繁岐说的第一点其实还不是最关键的。

他接下来提到的这件事，很多人其实都没有仔细思考过：“其实图像对比语言，最大的不同在于它其实是高度稀疏的一种内容。语言的信息密度非常之高，它是人类发明总结的产物。而图像，是一种非常本质基础的感知，对于一副图片来说，很可能其中的大部分内容都是对任务来说无意义又或者无效的。”

孟繁岐说完这点之后，CloseAI众人的思路瞬间打开了不少。

“我想起来了，T方法的核心，注意力机制，其实一大关键就是在于让模型关注图像中重要的部位，忽略不重要的区域。这对于传统的分类任务是好事，但对于图像生成来说，则未必！”韩辞的反应是最快的。

传统的图像任务，分类、检测、分割，要点就是让模型找到图片中关键物体的类别、位置和轮廓。

一切的一切都是为了让AI模型去看图片中的关键点，所谓的注意力也是指模型对图片的关注情况。

在这样的总体思路下，模型对于图片的理解和分析是有偏向的。

它们擅长做分析任务，却很难做生成任务。

如果想要处理好图像的生成问题，必须针对生成做专门的训练。

一说到这个，大家的第一反应就是GAN，对抗生成办法。

“但是GAN的训练量太大了...”只是稍微一想，大家就很快否掉了这个思路。

GAN本身的训练量和时间就不短，以前小模型时代还能玩一玩，现在这个规模，即便是孟繁岐也负担不起。

加上视觉T方法本身就吃数据量，两者叠加起来，岂不是要了人命了？

“其实处理视觉T方法的生成能力，未必就需要真的去从零做生成。”孟繁岐一听大家的语气就知道他们在想什么：“我其实有一个方法能够绕开GAN繁琐的地方，直接利用海量图片，甚至连一点标签都不需要。”

“直接利用无标签的图片？？？”众人直接被这个大胆的想法惊呆了。

图片分类需要标注图像的类别，检测需要用选框标注物体的位置，分割需要画出目标的轮廓，文字加图像应需要标注对应关系。

图像数据需要标注才能够使用。

一直以来都是如此。

数据越多，标注质量越高，模型的能力也会因此大幅度提升。

过去的两年时间，几乎每一件事情都在佐证大家的这种想法。