但比较天下毁灭这种伟大而又不可捉摸的未来,大概AI的创造力反而是一个值得仔细剖析的课题。
当然,在此之前,我们还要回答一个更基本的问题:什么是创造力?

这个问题已经被哲学家、生理学家、教诲学家等多个领域的专家研究了很多年,我原来没有资格置喙。
但是已有的干系定义和结论每每偏文科一些,本日我想从范畴论的角度给出一个更明确的定义。
这个事情一样基于我ICML'2023揭橥的论文,详见《大模型的能力边界在哪里?来自范畴论视角的答案》。
不过那篇太偏技能了,我们本日讲得soft一些。

一、从神经网络到大模型

2012年Alexnet问世的时候,我恰好是个一年级的博士生。
那时的神经网络给AI圈带来了很大的冲击,人们第一次意识到这个东西要比传统的机器学习算法强大很多。

AI 为什么会有创造力范畴论描写大年夜模型创造力的来源

但那种冲击更多是方法论层面的。
虽然大家对神经网络的效果觉得很惊异,但是普遍还是认为它只是一种效果好一点的机器学习工具罢了。
后来的一些AI大事宜,我也能用类似的方法自作掩饰。
比如AlphaGo之以是能赢,是由于它算力强,加上神经网络强大的图像剖析能力,很正常。
比如星际争霸AI玩得溜,是由于AI微操厉害,人手可点不过它。
比如 AlphaFold 算蛋白质厉害,那是由于人类本来就不善于算折叠这种高维任务。
但是Dall-E的涌现,给了我很大震荡。
当你输入一段笔墨之后,Dall-E可以帮你绘制一幅相应的图片。
一个广为流传的例子是“牛油果椅子”,即:
输入:an armchair in the shape of an avocado. (一个牛油果形状的椅子)
输出:
当时的我非常震荡,这种震荡来源于一种对付未知的恐怖。
我非常确定,我之前从来没有见过这样的图片,也便是说,天下上不存在牛油果椅子这样的设计,或者至少不存在这么多种牛油果椅子的设计。
也便是说,这里面大部分的图片,在模型的演习数据集中是不存在的。
这对付统计学习理论框架来说是极为糟糕的一件事情:模型到底为什么能在险些没有见过类似作品的情形下,完美地画出这些图片?据我所知,传统的理论框架无法阐明这件事。
而这,便是我们本日要谈的创造力。
我认为,如果能设计出一种天下上从来没有的牛油果椅子,模型一定是拥有了创造力。

二、什么是创造力

但是在评论辩论这些模糊不清的观点的时候,我们一定要小心。
很多人会回嘴说,这个不算是创造力,真正的创造力是XXX。
我想,创造力可以分为很多种,而我们本日只是谈个中的一种,这种创造力我称之为“同象”。
同象对应的英文是isomorphism,一样平常被翻译成同构。
但是在一些更强调内部繁芜关系的地方,我以为同象更得当一些
狭义的同象,便是给定一句笔墨描述,能够天生与之对应的图像。
这个时候,笔墨的象和图像的象是同等的。
但是,什么是象,什么是同等呢
用范畴论的措辞来说,象是一个projective limit——但是我们本日不要讲那么抽象。
大略来说,象便是一个大的工具的内部各种小工具之间关系的凑集。
打个比方,当我们剖析“一个牛油果形状的椅子”这句话的时候,我们心中有好几个小工具,比如“一个”,“牛油果”,“形状”,“椅子”。
它们彼此之间都有关系,比如一个是润色椅子的,牛油果和形状是连在一起的,它们一起润色椅子,等等。
当我们剖析一个牛油果椅子的图片的时候,图片中一样有一把椅子,椅子是牛油果形状的。
图片中的这些特色彼此之间也有关系,而这个关系本身,与笔墨中的 “牛油果形状”,还有“椅子”的关系,是能够对应起来的。
这个时候,我们就说图片中的象,和笔墨中的象,是同等的。
更一样平常地来说,我们可以定义任何两个模态之间的象的同等性。
我们只要明确两个模态中的基本元素(例如之前的笔墨、图像特色)有对应,元素关系也有对应,就得到了一对“同象”。
同象算不算一种创造力?我以为算。
用贴切的图像表达文本信息,或者用得当的音乐表现场景氛围,或者制作恰到好处的表情包表达情绪,这些都是构建跨模态的同象工具,是拥有创造力的表现。

最新的 DALL·E 3 天生的人形秋日树叶组成的乐队

三、AI为什么有创造力?
不过,为什么模型可以拥有这种能力?光从统计学习理论的角度不随意马虎阐明清楚,毕竟模型能够天生大量之前从来没有见过的图片。
但是从关系的角度就不难明得这件事情。
我们很早就知道,模型拥有理解各个模态中基本元素的能力。
不论是天生出一些猫猫狗狗的图片,还是分辨出图片中动物的种别,神经网络都可以做得很好。
在基本元素的根本之上,我们还须要刻画元素与元素之间的关系。
这些关系的凑集,加上基本元素本身,也便是象,可以利用一个高维向量来表达——这件事情对神经网络来说也并不困难。
但是对付多个模态,模型可能会须要利用不一样的高维向量表达不同模态的象,因此“同象”的创造力就变成了一种高维向量的对齐。
在这个情形下,模型为了展现从模态A到模态B的创造力,只须要大略三步走:
1. 表达模态A中的象,记为向量νA
2. 将νA与模态B中的高维向量νB对齐,打算出νB
3. 打算模态B中的象,使其的表征即是νB
从这个角度来看,同象类型的创造力,是完备可以通过打算的办法表达的。
当然,有朋友可能会说,这个实质不便是CLIP算法么?彷佛我只是换了一种普通的说法,把CLIP的算法又描述了一遍而已。
事实并非如此。
如果我们能够深入理解模型创造力的来源,就可以利用它强化象的描述能力,实现更强大的创造力。
例如,ControlNet便是在笔墨的根本上,加入了额外的图像描述,使得模型能够更清晰地理解用户想要表达的象,从而构建更好的作品。
如下图所示:

关于ControlNet的详细先容,可以参考别的知乎文章,例如:ControlNet v1.1:完全指南:https://zhuanlan.zhihu.com/p/631292050

当然了,画画只是一个例子,对付其他同象类别的创作任务,通过提升模态的表达能力,一定也可以提升模型的创作效果。
回到题目,AI为什么会有(同象)创造力?由于同象这种创造力可以被分成三步刻画出来,并不神秘
不过我认为,其他类型的创造力在范畴论中也有相应刻画,等着我们去创造。
换句话说,人类的创造力,实在也便是各种各样的打算而已。
作者:袁洋
本文首发于作者知乎:
https://zhuanlan.zhihu.com/p/636655209

Illustration by IconScout Store from IconScout

-The End-

扫码不雅观看!

本周上新!

“AI技能流”原创投稿操持

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。
社区上线500+期talk视频,3000+篇技能干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上互换活动,不定期举办技能人线下聚会互换活动。
我们正在努力成为AI人才喜好的高质量、知识型互换平台,希望为AI人才打造更专业的做事和体验,加速并陪伴其发展。

投稿内容

// 最新技能解读/系统性知识分享 //

// 前沿资讯讲授/心得经历讲述 //

投稿须知

稿件须要为原创文章,并标明作者信息。

我们会选择部分在深度技能解析及科研心得方向,对用户启示更大的文章,做原创性内容褒奖

投稿办法

发送邮件到

chenhongyuan@thejiangmen.com

或添加事情职员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众年夜众号,后台回答“投稿”二字,得到投稿解释。

>>> 添加