这两天科技圈里最热的莫过于Sora,也便是美国的人工智能公司OpenAI推出的用文本生产视频的大模型。
输入一些笔墨性的提示词,Sora就能够天生一段视频,最长能实现60秒,而且无论是对提示词的理解,还是视频的画质,还有视频在物理天下里逻辑的合理性,都让人惊掉眼球了。

本日我们说说Sora,剖析一下它的强大有什么样的意义,当然终极还是要回到中国的人工智能之路,看看我们跟天下最高水平的差距到底有多远?

好几年以前,我曾经说过一个话题,叫做《人工智能,未来的希望在中国》。
现在转头看,都成了一个笑话了。

笑话归笑话,当年的那个节目依旧在网上,我也不怕大家嘲笑。
由于我坚信,人工智能的道路绝不可能只有一条。

说说比来大年夜热的Sora中国在人工智能领域的差距到底有多远

美国的人工智能大模型,一开始是笔墨和语音,比如ChatGPT,能够给你供应智能的搜索结果,能够人机对话,而且对话非常符合人类的思维措辞逻辑。

然后是AI智能天生图片,你给他一些提示词,比如说一个东方人特质的年轻女孩,落日背景,唯美等等,它就给你一幅图片,这个女孩在现实天下里肯定是不存在的,但是让你看着很符合逻辑,包括光和阴影都符合我们的认知,跟真的一样。

现在,进化到了人工智能天生视频,虽说以前也有,但是性能和效果都一样平常,最多也就4秒钟的视频。
这次OpenAI的Sora为何震荡天下呢?是由于它这个王炸甩的太猛,一下子把竞争对手甩的连屁味都闻不到了。
详细有多猛,我就不重复了,网上Sora天生的视比年夜家自己看就知道了。

从笔墨语音到图片再到视频,美国的AI之路实在都是顺着一个方向和思路走下去的。
目前来看,实质和核心的东西并没有改变。
我们中国也是随着美国这条路在后面追赶,目前来看,差距越来越大。
在这条路上,中国追上美国的可能性基本已经没有了。

说到这儿,可能有人就想到弯道超车和换条赛道这些观点了,没错,就像燃油车搞不过西方,中国可以在电动车的赛道上反超的案例。
中国在人工智能这个方向,跟随美国,目前来看已经没有希望了。
但是还是要跟随,在跟随中积累履历,壮大实力,然后想办法再找别的打破口吧。

接下来我就用具体大略的例子来论述上面的不雅观点啊,我们先看看美国的人工智能,它的核心思路和方法到底是怎么回事,然后我们就能明白中国的差距有多大,往后该怎么改变。

从一开始的ChatGPT,机器在跟人类进行笔墨和语音互动的时候,是经由大量笔墨和措辞的数据进行投喂和演习的。
机器首先存储了天量的笔墨措辞信息,然后经由了无数次的试错,错的抛弃掉,精确的不断强化,然后逐步地越来越适应人类的逻辑认知,变得越来越像个人。

试错和强化有很多方法,比如我们四年前做过一个节目叫《陈情令,你也能演魏无羡和蓝忘机—聊聊AI人工智能换脸》,提到过一个演习的方法:GAN人工智能对抗,便是两个机器相互给对方找错,有兴趣的朋友翻回去看看,类似的方法有很多,但是目的只有一个:

逼迫机器向着符合逻辑和人类需求的方向去做选择。

把稳啊,核心词有两个,一个是逼迫,机器并不是自发地去做选择,当然了,现在的科技也做不到自发。
另一个是选择,机器只是在做选择,选出一个最优解出来。

虽然我只管即便说的普通,但还是不如举个例子,比如说人工智能和人打呼唤:“你好啊,”然后可以说:“你吃了吗?本日景象不错啊,你这身衣服可真好看。
”等等,这都是很自然的,人能接管。
但是人工智能决不会说:“你好啊,你好无耻啊!

但是在刚开始的时候,人工智能绝对选择过:“你好啊,你好无耻啊!
”这种说法,由于刚开始它是随机选择,它自己并不知道啥意思,也不知道是不是得当。

然后人类或者自身的对抗机制会强制它放弃这种选择,让它知道不能这么说,然后它就只能在“你吃了吗?景象不错啊,衣服好看啊”这些里面再选,选得得当了得到强化,逐步越来越符合人类的措辞逻辑,就跟训动物一样。
被迫选择。

您听着可能以为有点神奇,但是这种科技实在也很常见。
比如现在的汽车都有自学习的功能,张三开车柔柔,追求个省油,那么韶光长了,他的车就越来越肉,发动机2000转就升档了。
李四开车追求个狂野,那么他的车逐步也会跟他的性情越来越猛,2500转也不升档。

就算张三李四的车是同一款车,而且是同一批生产线上前后脚下来的。
那么王二麻子一开就能觉得到这两辆车不一样。

一个车载电脑,就能有这种能力,更何况天量算力堆起来的人工智能大模型呢?这是可以实现的。

办理了笔墨和语音,接下来便是人工智能天生图片,实在实质上还是走的同一条路,逼迫机器做出最优选择。

还是这幅图片为例,美女,落日,唯美。
现在的人工智能天生的图片已经很完美了,但是在刚开始演习的时候,它天生的图片人类乃至根本看不懂,乃至有可能鼻子长在眼睛上面。

机器按照人们的哀求天生了无数张图片,然后人类和它自己的纠错机制会不断见告它,这张图片是缺点的,鼻子不能长在眼睛上,精确的审美该当是这样的。

就在这样不断的否定中,溘然,机器天生了一张还算不错的图片,然后人类见告它:对了,便是这样的!
不过在某些方面还须要改进,比如眼睛再大一点,头上和身体上光芒和阴影的位置要同等,要符合物理规律等等。

然后,机器天生的图片就越来越好了,越来越理解人们的需求了,直到现在这种效果。

这实在和演习笔墨语音的道理是一样的,只不过笔墨和图片的数据量不一样,一本长篇小说,也就几兆大小,一个128G的优盘,就能把人一辈子看不完的书存下来,但是很多人的手机也是128G,存个照片都不足。
以是图片的演习量要更大,须要的算力更多而已。

从笔墨到图片,实质没有变革,便是力大飞砖,往上堆算力就得了。

但是到了视频,翻天覆地的变革就开始了。
我来举个例子,大家就知道这种改变是多么的胆怯了。

我们物理天下里的视频,大家都知道是一张一张的图片连起来的,电影是一秒钟24张图片,每张图片按照韶光顺序都有细微的不同,一秒钟连放24张图片,就形成了连续的视频图像。

比如Sora天生的这段视频,它先是按照人类的哀求天生一张初始图片,东京街头,时尚美女,街头人流,霓虹灯和地上的倒影等等,按照现在AI天生图片的技能,这已经很随意马虎实现了。

然后胆怯的就来了,第一张随意马虎,第二张就难了,视频它多了一个韶光的观点,第二张要在第一张的根本上做出符合客不雅观规律的改变。
比如女子行走,正常是这样一步一步走,我们假设她走到这个瞬间,那么下一个瞬间的图片,这条腿就要往前迈了,你如果还是另一条腿往前扯那就肯定不对了。
不只是腿,身体的各部分包括衣服都要做出精确的改变。

这还只是一个人,我们要知道,可不止女子一个人,视频里面涌现了好几十个人,每一个下一张图片都得做出精确的改变;

还有街景,随着镜头的推拉,街景的每一个像素都得改变,比如招牌的大小你肯定不能和第一张一样,你得变;而且远景近景的变革幅度还不一样,你都得符合客不雅观规律。

大家可以想象一下,第二张和第一张之间,虽然错了二十四分之一秒,但是大部分的像素点都须要重构了。

好了,经由千算万算,第二张图片总算是出来了,还有第三张呢。

第三张与第二张也要重复这个过程,而且还不能分开第一张的定义范围。
一分钟有多少张呢?

1440张!
都要重复这个过程。
胆怯吧?

视频和图片不一样,视频不仅须要更多的图片,不仅是这些更多的图片都要符合客不雅观规律,而且它们还有一根韶光线,还要符合韶光线上客不雅观规律的制约,也便是该迈左腿的时候你不能迈右腿。
这个算力的堆积是胆怯的,严格来说,按照现有的算力,是根本不可能实现的。

以是我们看,现有的其它的AI天生视频,它们最多也就天生4秒钟,不超过100张图片,我们看这100张图片画质都很精美,单独看每张图片都没问题,但是它们连起来就看着别扭了,怪怪的。

表面看是韶光轴这条算法弗成,但是本色上,是现有的算力达不到需求。

对此,OpenAI推出的Sora也承认,它们也是采取了一种降维的方法来降落对算力的哀求。
它们把视频转换成一个矩阵,在矩阵里运算的结果再重新映射成像素输出,才使得现有的算力能够支撑60秒高画质的人工智能视频的输出。

详细的技能细节我肯定也不懂,咱也不装大仙了。
只能说OpenAI是一个很伟大很神奇的公司,他们在人工智能这条路上,用遥遥领先来形容都谦逊了。

面对着这么强大的对手,中国很明显差距越来越大,追上的可能性越来越小。
别说中国正在受制裁,就连没受制裁的微软,不也是抓瞎了吗?

但是,我要说但是了,这也从侧面解释了,人工智能这种怼算力,力大飞砖的实现方法。
路也是越来越难走了。

OpenAI,拥有着天下上最强大的算力,研究和节制着天下上最前辈的实现方法。
在视频领域爆肝了最少也得有半年的韶光吧,我们仍旧只是看到了几十分钟,而且因此慢动作为主的演示视频。

为什么是慢动作呢?很明显也是算力达不到。
正常的视频一分钟是1440帧,而慢动作我大概只要天生500帧就够了,然后帧与帧之间,采取别的技能进行插值运算和平滑过渡,我能省点事。

虽说万事开头难,但是至少解释了,这种难度级别的上升不是个好事。

如果我的理解没有大的缺点的话,现在全天下,特殊是美国,所走的人工智能的道路,越到后面越难走。
难度不是线性上升的,而是指数级的直着上去的。

从笔墨到图片,是一根毛和一只羊的差别,到视频阶段,切实其实是一只羊和呼伦贝尔大草原的差别了。
甚至于人类现有的算力都支撑不起来。

当然了,中国现在走的也是这条路,由于暂时都没有别的路可以走,就像二十年前的汽车家当,新能源车这条赛道还没影呢。

这条路最大的好处,是能刺激算力的更快升级,我们看英伟达的股价又涨到天上去了。
这当然是一个好事,这条路前景还是有的,更主要的是,这都是探索和摸索的过程。

更前辈的人工智能实现办法不可能从天上凭空掉下来,他便是这样,一步一步摸索出来的。
现在所做的所有的努力,都是你第五个馒头吃饱了之前的第一二三四个馒头。

以是,纵然中国在现有的人工智能赛道上差距越来越大,我们也必须努力追赶,没有在燃油车阶段追赶过程中所建立起来的家当链,中国不可能在新能源车的赛道上迅速就领先了。
这是同一个道理。

而且,我们要认清一个现实,网上所有在说中国掉队的,都在努力粉饰一个事实:中国是掉队了,但只是相对付美国一家掉队了。
全天下192个国家,30多个地区,除了美国,你能找出第二个领先中国的吗?你一个都找不出来。

我们人一方面用客不雅观来演习机器,但同时自己不客不雅观那是不对的。
美国是保时捷,一骑绝尘遥遥领先了;我们骑着马,排在第二,目前看追不上,差距越来越大了。
但你今后看,有徒步的,有腿瘸着在地上爬的。
更多的是去世人,躺地上一动不动的。

我一贯坚信,实现人工智能的道路绝不可能只有当前这一条路,那样才不符合客不雅观规律呢。
硬怼算力,力大砖飞是一个方法,不见得便是唯一的方法,更不见得是个好方法。

就像我以前举得一个例子:中国人炒个芽菜,盐少许,糖少许,醋少许。
老外一听都懵了,啥啥啥,这都是个啥?

但是中国人一听就明白。
这便是思维模式的不同,而且我一贯坚信,中国人的思维模式,一定能探索出一个更精良的人工智能办理方案。
以是我说,人工智能,未来的希望在中国。

我们所处的这个天下,须要精确,但是更多的是模糊。
你要让机器手用一个精确的力矩拿鸡蛋,大部分没问题,但有切实其实定捏碎了,有的拿不起来。
鸡蛋不可能每一个都是千篇一律的。

我所理解的人工智能,该当是输入一些模糊量,然后输出一个合理的模糊量。
才能更加适应这个天下和人类的需求。
而这种对付模糊数据的理解和处理,现有的人工智能模式并不是最合理的,它须要耗费天量的资源才能近似达到,乃至还达不到。

以是,未来一定会有更精良的硬件和软件算法涌现。

如果涌现不了,那才是不合理的。

有可能我们要等到量子打算的成熟,有可能还须要几十年,但是它一定会涌现的,而且涌如今中国的几率还很高很高。

为什么我这么有自傲,由于就算是天下上最强大的OpenAI,你去看一看,华人的占比和贡献有多大?如果离开了这些华人,没人会疑惑,OpenAI瞎得不能再瞎。

华人在人工智能方面的天赋是绝对领先的。
中国的问题在于科研氛围和制度短板。
而这些外部环境的问题,都是可以改进的。
几十年后会改进到什么样?让我们转头看四十年前的中国,你敢想象吗?这玩意儿都预测不了,不好说。

以是我们要客不雅观看待OpenAI和Sora,首先要感到高兴,这是个了不起的造诣,是对全人类做出的贡献,虽然这是美国的造诣,但也是中国学习的榜样和追赶的目标。

然后我们要承认在当古人工智能赛道上,中国与美国正在拉大的差距。
然后想办法去追赶,缩小这个差距。

为什么我不说反超呢?由于本日做节目没饮酒,我很复苏,我认为反超不了,比登天还难。

但是,我们还要认识到,条条大道通罗马,我不是非要走这条道!

别的道路一定是存在的,也一定更适宜于中国。
更何况,中国还是遥遥领先的老二,是唯一的一个可以跟美国正面竞争的国家。

以是根本没必要灰心沮丧,按照中国人不当第一便是掉队的民族感情,未来还是大有可期的。