这里有一个框子,其他你可能还听过的很炫的词汇。什么是通用人工智能(AGI),怎么实现?成所有各种人的聪慧事情,换句话说更大范围的泛化问题如何办理?有两种思路,以是否重新演习来区分:大模型,指令驱动,不须要演习。
衍生思考:实现AGI了还须要数据采集和标注吗?
这便是通用人工智能,现在有很多人很恐怖它,通用人工智能,AGI通用人工智能,我们很恐怖它,怕它掌握了全体人类。通用人工智能怎么实现?当前的AI是怎么样子的?当前的AI是分离的单一的智能,对不对?
眼、耳、鼻、舌、声音,我们讲过的每个模型是独立利用独立演习的,对不对?有很多的未便利,我们期望的是什么样子?期望的是通用的智能,不期望针对某一种任务在准备数据去演习它,或者是针对某一些新的场景不知道。
我们希望通过外部的指令,乃至是内心的驱动来完成所有人类的聪慧事情,希望AI是这个样子的,希望它是我们的生活助手,见告它什么就能做什么,而不说先要预先演习好,对不对?
换句话说,一贯在讲放话,换句话说,能否在更大的放话范围内办理这个问题?原来说的放话是在一个模型内部,比如是不是看过这样的汽车就能识别那样的汽车?现在的更大的方法是不是看过汽车就可以听过汽车,或者就可以感想熏染汽车?是不是可以做到这一点?
有一个上次opa演示机器人说,它知道优柔的东西该当怎么提起来,对不对?这便是通用的智能,这个玩意就叫mos,以是有两种思路来做到通用,这两种思路以是否重新演习的差异。
·第一种思路便是常常用到的叫主干模型加微调,fan turn fan tune 的模式,它须要重新演习。
·第二种模型便是现在常常用的大模型,指令驱动,不须要演习。比如现在做一个日语的语音文本的,做叫韵律的标注,是不是也可以在原来的日语的天生模型的根本上通过微调让它去学习到这个?
我准备一些数据,准备几万条分割,这个叫韵,这个叫韵。主干模型+微调(Fine Tune)的方法以外,最近盛行用更大的图片数据集(如大模型,指令驱动的方法)。
Whisper、Meta的SAM.Prompt可不一定只是笔墨。我们构恰的gpd构建的是笔墨指令。
大家很多题型现在做语音识别的模型叫whisper,whisper构建的是什么?我见告他是什么任务,是语音翻译的任务还是语音合成的任务还是还是文本翻译的任务,见告他从什么措辞翻译到什么措辞,这便是我给他指令。
还有我问他的some做抠图的时候,我见告他的是什么?我见告他的不一定是笔墨,我见告他可能是一个框,你要把这个位置给我分割一下或者是几个点,这个位置这个东西是,那个位置那个东西不是,以是说pomt不一定只是笔墨,它是一个指令而已,它是一种办法一种模式。
这里便是一个zero short或者few short的阐明,zero short就说我除了胖木头以外没有任何的私密,zero short short 的意思便是我除了胖木头以外我还供应一些私密,比如说下面这个,我会见告他说请你帮我从英语翻译成法语,那么这是几个私立,对吧?
然后末了一个是气势翻译成什么?能够给我做出来那就 ok 了对不对?
我说说这个通天之路对我们的意义是什么?实际上它两种办法都不冲突对不对?我们可以看得到在演习掐的 g b t 的时候s f t是什么?不便是 function吗?对不对?f t就代表 function,s代表监督的,对不对?监督的fun turn。
实际利用的时候更加方向于大模型的方法,为什么?由于它更加泛化,用的更好,只有推理集成到系统里面也大略,对不对?以是说大家可以看到除了ocr现在whisper和sam都是这样去用的,用掐的gpt也是这样用的做寓意标注,未来也会很关注做大模型的zero short的这种办法的这类的模型,对我们的最故意义的。
项目经理可以完备在平常自助化的去做这些数据的处理吗?你不须要有人来帮你去演习,不须要有人在那吼说你要先得给我数据,由于我现在做这件事情很难的预示别,很难的意思就说须要预示别的时候,我见告他说我先要数据,但是说当我要预示别才要数据,其余说我要数据我才能做预示别,大家就先有大的问题搞到那里搞的很难熬痛苦。