许多人心中都冒出了这样的想法,仿佛自己距离成功只差一线。
却没有想明白,这里面其实根本就是天壤之别。
外界议论纷纷,聊得火热,孟繁岐则完全没有在意视觉T方法这里的内容。
在他看来,视觉T方法做得再好,也就是图像领域内的突破,没有触及根本。
跟传统卷积网络差了一个点的性能,又如何呢?不解决本质问题。
他选择公布这篇论文,其实更像是一个烟雾弹。
在大家都在关注视觉领域的时候,悄悄将文本和图像串联起来。
“人工智能模型只单独处理图片或者文字,这种单模态的形式是非常吃亏的。因为互联网上已经有了大把现成的数据是图像与文本相对应,又或者有关联的。”
孟繁岐早早就已经收集了大量的文本和图像对应数据了,只是此前GPT系列技术不够成熟,这些文本加图像的数据暂时排不上用场。
比如电商网站数据,店家对于商品图片会有大量的文字介绍和描述。
比如摄影和插画网站,也会对影像作品有一些简洁的表达。
考虑到网站的开发需要大量的图片素材,很多开发者也会在后台为图片增加备注,以免搞错用途。
这些都是孟繁岐所需要的优质训练数据,目前除了他以外,还没有人能够非常有效的利用这些东西。
“收集这些数据,还有一点好,就是便宜,这些都是现成的。相比我们之前进行的那种详细标注模式,这样搞不仅便宜,还快。”唐璜还是那么在意成本问题。
传统的图像数据通常还是做分析用途,如此一来,就需要给它标注类别,物体的位置乃至轮廓。
标注一张图所需时间不少,成本也不低。
因为孟繁岐需要的数量太庞大了,动辄上亿张都嫌不够。
一张图虽然便宜,但标注多了仍旧不是一笔小数目。
“这种图像和文本的对应关系会不会太弱了?”韩辞查看了其中的一些数据后提出了这种担忧。
孟繁岐说得是没错,图片不用人工去详细标注,直接在网络上抓取很多关联的文本和图像,乃至于使用后台对图片的备注,成本很低,数据也来得很快。
但这也会导致一个问题,你没办法确定文本和图像的关联程度到底是多少。
有的文字描述可能是精确的形状、纹理的描述;有些则可能是功能,效果方面的描述。
更有甚者,文不对图,压根驴唇不对马嘴的情况,想必在当今互联网上也不是什么罕见的事情。
“我们首先要做的是基于图像和文本对比的预训练方法,trastive Language Image Pretraining(Clip)。这种方法的根本目的是在大量的文本和图像关系中学到它们匹配的关系。只要有关系即可,具体是什么关系,我们先不操心。”
“我们大量学习文本特征和图像特征的余弦相似性,学的是一种基础能力。后续如果要在特定领域上使用,可以再针对性做微调,并不是要一步到位。”
孟繁岐当然清楚这批数据文本和图像对应情况会有很大波动,但这不影响先出第一版。数据质量问题可以持续再优化。
并且这样复杂的情况可以使得模型更加鲁棒,不会因为微小的差别性能就发生剧烈的变化。
“不过关于微调,根据我的预测,这种文字和图像相结合方法会极大地改变传统图像领域预训练后在特定领域微调的流程。它可能只需要少量的样本乃至于不需要样本,就能够实现一部分传统的图像分析功能。”
预训练加微调是人工智能领域的经典流程,先让模型学习大量数据,获得基本知识和智能,称为预训练。
这个过程中,很多数据可能跟最后的任务几乎没有关系的。
这些数据也未必需要自己准备,甚至预训练的过程也未必需要自己去做。
因为很多大公司在开源模型技术的同时,也会放出自己的【预训练模型】,也就是在发布者私有的巨大数据上训练出来的智能。
其他研究者可以直接延用这个参数,会比自己重新搞一个模型要强很多。
孟繁岐此前也经常公布自己的预训练模型给其他研究者们使用。
但传统的视觉领域基本上都需要微调,模型参数拿到之后没法直接用。必须要在自己的领域和任务上专门再训练一次,做一些微小的模型参数调整才行。
这件事情听上去是很合理的,毕竟孟繁岐发布一个模型的时候,并不知道其他人想要用它做什么。
此前BERT路线的技术就是这个路子,大家会采用不同的BERT微调,去做不同的事情。
但是GPT系列技术展现出了非同凡响的地方,它不需要你做微调。
在训练的时候,它并未针对翻译、文本分类、情绪分析、文学创作等特定任务。
可在使用的时候,它却都行,并且性能强大。
即便它原本不懂的东西,也只需要你给出一个示例,它就能有模有样地进行回复。
这种看了一个示例的情况叫做one shot预测,一个示例都不看,直接进行任务的叫做zero shot预测。
而T方法融入视觉领域后,形成Clip技术,同时对应文本和图像的关系,就能够做到zero shot处理图像领域的任务。
16年春天,孟繁岐就正在CloseAI内部展示这个神奇的功能。
“我们的训练数据是大量对应的文本和图像,所优化的也是它们之间的对应关系,希望做到文字和图像尽可能的匹配。也就是说,我们并没有针对图像分类的任务进行过专门的处理。”
“但现在,不需要任何其他的调整,Clip模型就可以完成图像分类任务。”
孟繁岐输入了几个图像的类别,并用将对应的图片输入进去。Clip的预测均是正确的,这从传统的视觉领域视角内来看是非常令人震撼的。
没有经过针对性学习的模型竟然能够高质量完成图像任务?
简直太离谱了!
之所以这么说,是因为传统的视觉分类是与文本无关的。
比如猫狗分类,实际上视觉模型对应的输出只是类别0和类别1。
换言之,模型只关心图像是否是最初约定的那些类其中的一个,而对这个类别本身是什么,有什么含义一无所知。
就更别提能懂得不同类之间的关系了。
之所以可以输出对应的结果,无非是因为人类会自己做一个表,专门去记录类别0和类别1对应的到底是什么类别。
属于是查表操作,和文本的智能理解无关。
可现在不一样了,新的Clip模型则能够直接将图像对应到人类的语言当中。
同样是在做分类操作,其中的差别不可同日而语。