返回338. 无标签图像时代 (合)(1 / 2)重生之AI教父首页

卡雷鲁有关自己的书籍大卖,孟繁岐时隔快两年再次与他通话了一番。

一方面向他表示祝贺,即便是卡雷鲁这样的金牌记者,文字功底深厚,可想要写出这种级别的全民畅销书,也并非容易的事情。

另一方面,孟繁岐也向他表示了一下自己的感谢之情。

虽然孟繁岐个人其实稍微有些吃不消卡雷鲁在书中的赞美,那些运用艺术手法写作手法的桥段看得他是面红耳赤。

不过对于人家的这番心意,孟繁岐觉得自己还是需要表示感谢的。

“这本小说现在叫好又叫座,销量趋势更是一路走高。我看啊,原本没谈好的什么电影电视剧,现在都没什么问题了,这帮人肯定要回头来找我。”卡雷鲁显然还是对此前被连续放鸽子的事情耿耿于怀:“以前他们把我呼来喝去的,现在想要我的版权和改变授权,可就不是那么容易的事情了!”

卡雷鲁洋洋得意地说到这里,似乎突然想起了什么,问道:“对了,就是不知道你现在还有没有时间出镜扮演你自己。”

孟繁岐此前是答应了这件事没错,可时间隔得实在太久了。

当时的承诺,如今效力就比较弱了。

“我自己出镜的话还是算了吧,我本身就不是专业的,没有这方面的技能。当初在谷歌给别人打工,跑去拍摄一下倒也过得去。现在自己当老板了,时间确实有些紧张。”时过境迁,孟繁岐也成长了许多。

那时候比较爽快地答应,也是有些爱出风头,想要世人关注自己的成分在。

后来经历世纪大战等多次曝光,孟繁岐在这方面的兴趣早已消退,这些事情实在也没什么意思。

卡雷鲁对此似乎有所预料,也不勉强。

他请求孟繁岐到时候把关一下剧本内有关自己的内容,又或者参与挑选一下扮演自己的演员。

对这些事情,孟繁岐还是有些兴趣的,便爽快地答应下来。

此番插曲之后,孟繁岐几乎马不停蹄地就又投入到了多模态相关的技术上面。

虽然进展比较顺利,但ChatGPT仍旧未到盈利的阶段,制图AI也还在开发。

这两个主要进项还未完工,孟繁岐每天都仍在烧钱,不由得他不急。

几周过后,在CloseAI内部的研讨会上,实验小组向孟繁岐汇报了第一轮的实验结果。

有关对齐文本和图像的Clip方法实验,CloseAI取得了非常显著的成果,但是其中也存在非常严重的短板。

“老板,目前呢,通过文字和图像的特征对齐,优化它们之间的余弦相似度,我们观察到了非常明显的效果。”汇报结果的大基调是好的,孟繁岐指出的这個大方向看上去非常正确。

“不过呢...在实验过程当中,我们发现从图像到文本这方面的成果比较顺利。相反的方向,如果想要从文本直接生成图像,效果就有些不尽人意了。”这一点是目前困扰了CloseAI研究组的最主要难题。

其实在孟繁岐的意料之中,不过对实验人员来说是比较突然的。

“按理来说呢,图像和文字之间建立联系之后,这应该是一个双向的关联。没道理一条路走得通,反过来就走不了了。就比如翻译任务,如果两种语言之间的关联被建立了,就很容易做到相互指定。”

孟繁岐能够理解大家的困惑,就拿他们刚才举的例子来说,中文的【狗】与英文的【Dog】被学到了关联之后,两者之间就能够互译。

不会存在中译英成功,但英译中就做不了的情况。

可图像和文字之间的关联,则并非如此简单的事情。

“文字的表达是高度抽象的,往往是一对多的。有非常多形态各异的图像可以对应几乎相同的文字,因而,将一张图片总结成文字是比较容易的事情,反过来的难度则会大大提升。”孟繁岐说的第一点其实还不是最关键的。

他接下来提到的这件事,很多人其实都没有仔细思考过:“其实图像对比语言,最大的不同在于它其实是高度稀疏的一种内容。语言的信息密度非常之高,它是人类发明总结的产物。而图像,是一种非常本质基础的感知,对于一副图片来说,很可能其中的大部分内容都是对任务来说无意义又或者无效的。”

孟繁岐说完这点之后,CloseAI众人的思路瞬间打开了不少。

“我想起来了,T方法的核心,注意力机制,其实一大关键就是在于让模型关注图像中重要的部位,忽略不重要的区域。这对于传统的分类任务是好事,但对于图像生成来说,则未必!”韩辞的反应是最快的。

传统的图像任务,分类、检测、分割,要点就是让模型找到图片中关键物体的类别、位置和轮廓。

一切的一切都是为了让AI模型去看图片中的关键点,所谓的注意力也是指模型对图片的关注情况。

在这样的总体思路下,模型对于图片的理解和分析是有偏向的。

它们擅长做分析任务,却很难做生成任务。

如果想要处理好图像的生成问题,必须针对生成做专门的训练。

一说到这个,大家的第一反应就是GAN,对抗生成办法。

“但是GAN的训练量太大了...”只是稍微一想,大家就很快否掉了这个思路。

GAN本身的训练量和时间就不短,以前小模型时代还能玩一玩,现在这个规模,即便是孟繁岐也负担不起。

加上视觉T方法本身就吃数据量,两者叠加起来,岂不是要了人命了?

“其实处理视觉T方法的生成能力,未必就需要真的去从零做生成。”孟繁岐一听大家的语气就知道他们在想什么:“我其实有一个方法能够绕开GAN繁琐的地方,直接利用海量图片,甚至连一点标签都不需要。”

“直接利用无标签的图片???”众人直接被这个大胆的想法惊呆了。

图片分类需要标注图像的类别,检测需要用选框标注物体的位置,分割需要画出目标的轮廓,文字加图像应需要标注对应关系。

图像数据需要标注才能够使用。

一直以来都是如此。

数据越多,标注质量越高,模型的能力也会因此大幅度提升。

过去的两年时间,几乎每一件事情都在佐证大家的这种想法。