周鸿祎:大模型要“涌现”AI能力,国内还有一些“坑”没有踩完
来源 | 雷峰网2023-06-07 18:22:20
“目前国内跟GPT-4真正的差距,我觉得主要是在所谓的超强‘涌现’能力上,但是这个差距不是算法上的,也不是模型上的差距,而是预训练数据和训练方法的差距,还是有一些‘坑’没有踩完,但这个时间差也就不到半

“目前国内跟GPT-4真正的差距,我觉得主要是在所谓的超强‘涌现’能力上,但是这个差距不是算法上的,也不是模型上的差距,而是预训练数据和训练方法的差距,还是有一些‘坑’没有踩完,但这个时间差也就不到半年的时间。”5月31日,在三六零视觉大模型及AI硬件新品发布会后采访中,周鸿祎对雷峰网如此说道。

“涌现”在人工智能领域中经常被提到。那么什么叫智能涌现?过去的人工智能是,想让机器学会什么技能,就教它什么技能。教过的有可能会,没教过的就不会。而大模型让AI学会了“无师自通”,也就是“涌现”。

业界普遍认为500—600亿参数,是大模型是否具备涌现AI能力的一个门槛。于是,千亿参数,目前已经成了大模型的“标配”,时下不少大模型产品,都把自己叫做“千亿模型”,但真正能为产业赋能提高生产力的模型少之又少。

那么周鸿祎是怎么看待“涌现”能力?360智脑大模型和视觉大模型他们之间的关系是怎样的?360又是如何利用大模型为产业赋能的呢?在会后采访中周鸿祎与雷峰网在内的一众媒体进行了深入的探讨。

谈“涌现能力”:跟模型大小没关系

周鸿祎认为,目前行业内也没有统一的说法,有人认为一千亿参数才有涌现能力,也有人认为300亿就可以。这其实跟模型大小没关系,跟预训练的数据和训练方法有很大的关系。这就好比小孩儿头脑不够聪明,脑子容量不够,肯定是学不出来。但是,脑子容量够,还得跟你的学习方法有很大关系。

在周鸿祎看来,国内目前这些厂商大家做的时间也就不到半年,长的有5个月,短的可能有3、4个月。所以,这么短的时间内,能够拿出来和GPT-3.5基本上有一比的东西,已经是很大的一个进步了,如果要缩短两者之间的差距,还是需要一些时间。

他认为,赶上这个差距的时间可能是半年,在这个时间内基本上训练中很多的方法以及训练模型,大家踩“坑”踩的差不多了。涌现能力很大程度上跟预训练的知识含量有很大的关系,因为现在中文数据普遍还是缺乏高质量的知识数据,必须大量的补充英文语言的高质量素材。举个例子,如果一个小孩儿从小看的都是类似故事会的文章,没有逻辑推理性,他涌现复杂的逻辑推理能力的概率就非常低。

谈视觉大模型与智脑:从感知到认知

如果给出一张全身肌肉的蒙娜丽莎像,问他有什么怪异的地方?传统的感知层面的计算机视觉可能最多认出是一张人像,不一定能认出是蒙娜丽莎,即便认出蒙娜丽莎,也感觉不到怎么一个女的蒙娜丽莎长了一身男人的麒麟臂,而360的视觉大模型就可以解读出意思,这是从感知到认知的变化。

周鸿祎表示,视觉大模型和语言大模型是两个不同的基础,首先要有一个大语言模型,大语言模型能够充分地理解人类的知识,理解人类的自然语言。在这个基础之上,再给很多图文,然后进行训练,视觉大模型做出来后反过来也可以加强大语言模型的能力,例如对图片进行问答,为下一步理解视觉打好基础。

他认为,视觉大模型是个垂类大模型,过去要训练一张照片是猫是狗,首先要做很多人工标注,而且就算识别了是猫是狗,也是根据你标注的图像匹配出来的,它没有理解是怎么回事,它也不知道狗是什么意思,猫是什么意思。所以,现在在大语言模型的基础之上,它对自然语言能够理解,在识别图片过程中对这个图片不仅做了物体的识别,还可以做很多语义的解读。比如小孩儿站在一个很高的柜子上,或者老人躺在地板上,就可以识别出来不合理并进行预警,这就是多模态的能力。

谈及选择AI跟硬件结合去做落地的原因,周鸿祎表示:“原来的AIoT只是垂直AI,不是通用AI,经过大模型赋能的AIoT才是‘真AI’。”

过去的人工智能是弱人工智能,在此基础上打造的智能硬件不具有真正的智能。大模型出现后,计算机第一次真正的理解这个世界,并能够赋予AIoT真正的智能。他表示,大模型的出现标志着通用人工智能到来,AI完成了从感知层到认知层的进化,不仅对传统人工智能而言是一场颠覆性的革命,还能够推动自动驾驶、蛋白质计算、机器人控制等领域的发展。

“大模型将带来一场新工业革命”,周鸿祎认为,所有软件、APP、网站,所有行业都值得用大模型进行重塑,而智能硬件是硬件化的APP。从大模型的发展趋势来看,多模态是大模型发展的必经之路,GPT-4最重要的变化是拥有了多模态的处理能力。因此,周鸿祎预言,多模态大模型与物联网的结合将会成为下一个风口。

谈AI安全问题:不发展才是最大的不安全

随着GPT等AI技术的应用,利用“AI换脸”“AI换声”等虚假音视频,进行诈骗、诽谤的违法行为屡见不鲜。

周鸿祎认为AI的安全问题必须重视,他说360现在也成立了内部专门的AI安全团队,科技部也给了360一个AI安全的科技平台,360承担着解决AI的安全问题的使命,但是这个问题比一般的问题要复杂。一方面,AI把对普通人使用的要求降到最低,AI很容易被利用做坏事,所以如果要对抗,就要加大犯罪和反击方面的成本,例如在AI作品里加入指纹等。另一方面,周鸿祎表示AI的安全问题不仅仅是这些,未来除了传统的网络安全之外,还要警惕数据安全和人工智能安全。因为可能未来AI会形成超强的AI能力,会产生意识和自我认知。

那360为什么必须要做大模型呢?周鸿祎谈到两点:第一,不发展是最大的不安全,因为AI是一场工业革命,我们不能因为它有一些安全的问题就因噎废食;第二,去做大模型的过程就是在了解它的原理和整个完整的过程,而不是把它当作黑盒子,这样才能在过程中提出更好的安全方案。

谈及360布局大模型的整体思路和扮演的角色,周鸿祎表示360就做好两件事:

第一,数字化的安全底座,360安全有比较成熟的方案,未来不光解决网络安全,还要解决数据安全和人工智能安全。

第二,数字化时代,大模型是数字化的顶峰,是从数字化到智能化,因此这个时代谁没有掌握大模型这一核心技术,没有大模型实际场景的使用,谁就会被行业淘汰掉,这就是工业革命,就像有了电、蒸汽机、电脑,基本上所有的业务都要重塑一遍。所以我们作为一家互联网公司,有很多数字化的技术积累,所有的大数据最后都要用到大模型里。

谈大模型与场景:没有场景的大模型是没有生命力的

周鸿祎认为首先要把大模型的核心技术牢牢抓在自己手里,不仅要自己打造,也会跟伙伴合作;其次是要抓好场景,人工智能不是闭门造车,只有和用户、场景结合才行,没有场景的大模型是没有生命力的。

他表示,360大模型应用场景已经很明确了,主要分为四路:一是,ToC消费者场景,主要是浏览器、桌面和搜索、手机浏览器等存量场景,围绕着360智脑的核心能力打造每个人的个人助理,在这方面360得目标是保证在前三名左右;二是,打造了一个SaaS商店,未来将升级成AI商店,面向生态伙伴开放大模型的API,提供给中小企业SaaS化服务;三是,打造企业、政府和城市的专有GPT,未来不会只有一个大模型,公有大模型存在数据安全问题,专有或私有大模型更符合用户场景;四是,携手行业伙伴,打造行业的垂直GPT,例如企业咨询行业的GPT、还有可以赋能IOT行业等。

谈及大模型未来的发展,周鸿祎表示大模型未来一定是在小型化、轻量化、快速化,包括训练都在追求自动化。

“大模型这个市场很大,如果大家都说我要干掉你,你要干掉我,为了争夺谁是中国的ChatGPT,那市场就很窄,如果把大模型用到垂直领域、行业领域、企业领域,其实对大模型的能力的要求反而是降低了。”周鸿祎提出,例如在法律、医学、教育训练一个专门的GPT,这就比训练一个通用大模型要求降低很多。

周鸿祎最后表示:“GPT刚出来大家被震撼了一下,仔细冷静下来思考,它要真正能够变成生产力工具,能为我们所用,还是要走垂直化的路。”