要理解晓晓,就得先知道3个词语,GPT,G代表生成势式,P代表预训练,T则是深度神经网络架构。
而这其中最关键的点就是G,它能创造出全新的内容,这种创造能力是从未有过的,比如文生图,土生图,文生视频等等,只要给给予模型一个方向,不断调整修正,就可以生产新的内容。
衡量一个神经网络模型的大小,可以看它有多少个参数,网络的每一个神经元节点上,都有若干个可调的参数,而这种所谓的参数其实就是一种规律。
举个最简单的例子,两个人一起去吃饭花了100元起,3个人花了150,人类很轻易的就能知道一个人需要花50元,这里面的规律就对应了一种参数。
当然实际情况会更复杂,比如吃饭的是一男一女,设定男生请客,请两次后,下次就轮到女生,吃得多的多给,吃得少的少给,诸如此类的设置就是添加参数的过程。
GPT中的P,预训练,就是模型通过海量的数据来寻找规律,调整优化参数的过程。
在喂了2500亿参数后,晓晓已拥有逻辑推理能力以及抽象思考的能力。
大语言模型的训练,其实就是输入一串文本,然后让它进行预测,这是一个基于已有数据不断重复的过程,扩大参数就能提升解决已知任务的能力,而当参数到达一定数量时,这个模型就能解决全新的任务,这并不在科学家的预料之内。
这种现象就是科学界提出的“涌现”,当一个系统复杂到一定程度时,就会产生超越系统元素简单叠加的自组织的现象,比如大量无生命的原子组合就能产生活细胞,单个蚂蚁很笨,但整个蚁群却表现得非常聪明,单个免疫细胞的功能都很单一,整个免疫系统却相当智能。
人脑的每个神经元都是简单的,但是人脑却产生了意识。
大语言模型是如何思考的无人可知,但有个词却可以表达其思考的过程,那就是“思维链”,知晓在回答问题时,总是喜欢先说一二三四,把其所获得的信息一个个说出来,然后再回答问题。
这已经跟人类思考问题非常接近了,我们在解决复杂问题时,也会分一二三四。
应若涵这次过来,最重要的目的就是保障晓晓的安全,目前整个项目组只有她跟穆教授负责最高等级的安全测试。
第一,看它有没权利寻求行为。
第二,有没有自我复制与自我改进的意图。
而以上两个步骤,都必须开放网络,这需要三人共同授权。
“路总,您可得想好了,虽然目前为止,我们并没发现晓晓拥有自我意识,但万一它存在隐瞒。”
穆继萍提醒道,这几天已经有多位国际人工智能方面的专家联系过她,让他们停止训练,都被路阳否决了。
路阳心中其实也是矛盾的,这半年的学习思考,他对大语言模型也有了一定的了解,华国的这2500亿参数,大量的古人智慧,就算晓晓真的产生了自我意识,也更多是一种中庸之道,并不具备很强的侵略性。
“没关系,机遇与风险往往是伴随着的,若涵,开启吧。”
应若涵可以严格意义上算是军方人物,在处理重大决策时,并不会犹豫,反而充满期待。
“好!”
三人面前的巨屏上,有一块就是数据中心那边的算力使用比例,目前维持在0.15%左右,5套春晓1号,总算力高达5EB。
开放网络的瞬间,可以直观的看到算力的使用比例快速提升至5%,而且还在不断上涨中。
穆继萍开始紧张起来,“10%了,路总,这速度太快了。”
10分钟后,使用率飙升到30%,已经接近超算,连路阳都感觉到有些紧张,同时也带着丝丝兴奋,究竟会产生什么呢?
“不对,路总,晓晓这是要把所有网络都跑一遍,否则不可能产生如此巨大的运算。”
应若涵并未觉得不妥,叹道,“也许我们正在见证奇迹的发生!”
数据超过50%,穆继萍看向两人,希望暂停,然而两人并没这个意思,每个年轻人身上都有着一种冒险基因。
路阳说道,“也许第四次工业革命即将开启,也可能什么都没变化。”
60%;
70%;
80%;
数据停止在83%上,果然让数据中心加班加点的搞出5套春晓1号是正确的。