你是否曾经以为你已经受够了你目前的事情,想要换个方向?如果你有,你绝对不是一个人。
然而,除了参加大辞典,还有一些不太激进的方法,比如吴恩达的方法。

吴恩达是当今人工智能领域最精彩的人物之一。

他是Landing·AI和DeepLearning.AI的创始人,Coursera的联合主席和联合创始人、斯坦福大学兼职教授。
此前还曾担当百度首席科学家和谷歌大脑项目的创始人之一。

不过据他自己讲,他目前的重点已经转移,从数字天下转移到了现实天下,正所谓「从比特到事物」。

专访吴恩达AI未来10年从硬件至上到数据为王

2017年,吴恩达创立了Landing AI,这是一家致力于促进人工智能在制造业中的运用的创业公司。

我们采访了吴恩达,谈论了他所说的人工智能的以数据为中央的方法",以及它与他在Landing AI的事情和当今人工智能的大背景之间的关系。

从数字化到落地

吴恩达表示,他的动机是面向行业的。
他认为制造业是 「对每个人的生活有巨大影响的伟大行业之一,但对我们许多人来说是如此不可见。

许多国家,包括美国在内,都对制造业的衰落感到悲哀。
吴恩达希望 「采取已经改变互联网企业的AI技能,利用它来帮助在制造业事情的人。

这是一个不断增长的趋势。
根据2021年的一项调查,制造业中65%的领导者正在努力试点AI。
估量在未来五年内将达到57.2%的复合年增长率。

虽然AI正在越来越多地运用于制造业,但这个过程比吴恩达想象的要难得多。
他坦言,当Landing AI开始时,紧张专注于咨询事情。

但在参与了许多客户项目后,吴恩达和Landing AI开拓了一个新的工具包和游戏手册,让AI在制造业和工业自动化领域发挥浸染。

Landing Lens致力于使制造业和工业自动化领域的客户能够快速、轻松地建立和支配视觉检测系统。
吴晓波不得不调度他在消费者软件方面的事情,以针对制造业的人工智能。

例如,人工智能驱动的打算机视觉可以帮助制造商完成识别生产线上的毛病等任务。
但这不是一件随意马虎的事,他阐明说。

「在消费者软件中,你可以建立一个单一的AI系统,为一亿或十亿用户供应做事,并以这种办法真正得到大量的代价,但在制造业中,每个工厂制造的东西都不一样。
以是每个制造厂都须要一个定制的AI系统,根据他们自己的数据进行演习。

吴恩达说,AI领域的许多公司面临的寻衅是,如何帮助1万家制造厂建立1万个客户系统。

以数据为中央的方法认为,AI已经达到了数据比模型更主要的地步。
如果将AI视为一个有移动部件的系统,那么就该当保持模型的相对固定,专注于高质量的数据来微调模型,而不是连续推动模型的边际改进。

有这种想法的人并不多。
在斯坦福大学领导Hazy研究小组的Chris Ré是另一个以数据为中央的方法的倡导者。
当然,如前所述,数据的主要性并不新鲜。
有成熟的数学、算法和系统技能来处理数据,这些技能已经发展了几十年。

然而,如何在当代AI模型和方法的根本上建立并重新核阅这些技能,才是新的哀求。

就在几年前,我们还没有龟龄的AI系统,也没有目前这种规模的性能强大的深度模型。
吴恩达指出,自从他在2021年3月开始评论辩论以数据为中央的AI以来,他得到的反应让他想起了大约15年前他和其他人开始谈论深度学习的时候的场景。

吴恩达说「本日人们的反应是:“我一贯都知道这个,没有什么新东西”,到'这不可能成功'。
"但也有一些人说'对,我一贯以为这个行业须要这个东西,这是一个伟大的方向'。

「数据为中央」的AI与根本模型

如果说,以数据为核心的人工智能是精确的方向,那么该如何在现实天下运作这统统呢?吴恩达指出,指望机构演习各自的定制AI模型是不现实的。

唯一一个走出这种困境的办法便是设计一种工具,让客户有能力设计自己的模型,网络数据,表达各自领域的知识。

吴恩达和Landing AI将通过Landing Lens实现这一点,授予各领域专家通过数据标记的办法传达知识的能力。
吴恩达指出,在生产领域,一样平常没有大量的数据来做参照。
比方说,如果目标是识别出错的产品,那么一条还算不错的生产线就没那么多废品的图片来参照。

在生产领域,有时候全天下只有50张图片做参照。
这对现有的AI来说根本不足。
这也便是为什么现在关注的重点该当转向让专家通过网络数据来记录他们所拥有的知识。

吴恩达说,Landing AI的平台正在做这件事。
该平台可以帮助用户找到最有用的案例,来构建最同等的标签,并且提高输入到算法里的图片和标签的质量。

这里的关键是「同等性」。
吴恩达和他之前的一些人创造,专业知识并不能被单一专家定义。
对一位专家来说有缺陷的东西可能会被另一位专家重视。
这种征象并不是才有,但只有在不得不天生注释相同的数据集时才会浮出水面。

吴恩达表示,「这便是为什么我们须要好的工具和事情流程来让专家能快速达成同等。
没有必要在已经打成共识的地方花韶光。
相反,我们的目标是关注专家们没有达成一存问见的部分,这样他们就可以通过谈论来办理存在毛病的部分。
事实证明,想让AI系统快速得到良好性能,达成全体数据的同等性至关主要。

这种方法不仅很故意义,而且也有一些相似之处。
吴恩达所描述的过程显然背离了当今 AI 常常采取的「投入更多数据」的方法,而是更多指向基于管理、元数据和语义折衷的方法。

事实上,像Google前机器翻译主管David Talbot这样的人一贯在传达这么一个思想:除了从数据中学习之外,运用各个领域内的知识对机器翻译也很故意义。
在运用机器翻译和自然措辞处理 (NLP) 的情形下,所说的领域内的知识就指的是措辞学。

我们现在已经达到了一个新阶段,我们拥有所谓的NLP根本模型:比方说像GPT3这样的巨大模型。
经由大量数据演习,人们可以利用这些模型针对特定的运用程序或领域进行微调。
然而,这类NLP根本模型并没有真正上利用各领域的知识。

打算机视觉的根本模型能不能做到这一点呢?如果能的话,我们该如何实现,以及何时能实现?实现又将带来什么?根据吴恩达的说法,根本模型既是规模问题,也是传统问题。
他认为这是可以实现的,由于有很多研究组正在考试测验建立打算机视觉的根本模型。

吴恩达说,「这不是说,头一天它还不是根本模型,到第二天便是了。
在NLP的案例中,我们看到了模型是在发展的,从Google的BERT模型、transformer模型、GPT2到GPT3。

这是一系列规模越来越大的模型,在越来越多的数据上进行演习,然后人们将个中一些新兴的模型称为根本模型。

吴恩达说,「我相信我们会在打算机视觉中看到类似的东西。
很多人多年来一贯在ImageNet上进行预演习,我认为趋势逐渐会是对越来越大的数据集进行预演习,越来越多地在未标记的数据集上进行预演习,并且越来越多地将会在视频上进行预演习。

AI的下一个10年

作为一名打算机视觉的内部人士,吴恩达非常清楚人工智能正在取得的稳步进展。
他认为,在未来的某个时候,媒体和公众年夜众将宣告,打算机视觉模型属于根本模型。
然而,能否准确预测何时会应验则是另一回事。

对付拥有大量数据的运用程序,例如NLP,输入系统的领域知识量随着韶光的推移而不断低落。
吴恩达阐明说,在深度学习(包括打算机视觉和 NLP)的早期,人们常日会演习一个小型的深度学习模型,然后将其与更传统的各领域知识库的方法结合起来,这是由于深度学习的效果不佳。

但随着模型的规模越来越大,数据越来越多,注入的各领域的知识也越来越少。
根据吴恩达的说法,人们方向于认为大量数据有是一种学习算法。
这便是为什么机器翻译终极证明了学习方法的端到真个纯度可以表现得不错。
但这仅仅适用于须要学习大量数据的问题。

当拥有的是相对较小的数据集时,领域知识确实变得很主要。
吴恩达认为人工智能系统供应了两种知识来源——数据和人类履历。
当我们拥有大量数据时,人工智能将更多地依赖数据,而不是人类知识。

然而,在数据匮乏的领域,比如在制造业,我们只能依赖人类知识。
技能上的方法便是构建工具,让专家得以表达他们的知识。

这彷佛指向了诸如鲁棒人工智能、稠浊人工智能或神经符号人工智能之类的方法,以及用于表达领域知识的知识图谱等技能。
然而,虽然吴恩达知道这些技能,并以为它们很有趣,但 Landing AI并没有与它们互助。

吴恩达还创造所谓的多模态AI或结合不同形式的输入(例如文本和图像)是有发展前景的。
在过去十年里,关注的重点是培植和完善单一模态的算法。
现在人工智能社区变得更弘大了,并且已经取得了进展,那么追求这个方向便是故意义的。

虽然吴恩达是最早利用GPU进行机器学习的人之一,但如今的他却不太关注硬件方面了。
虽然拥有一个发达发展的人工智能芯片生态系统是一件好事,包括英伟达、AMD 和英特尔等老牌企业以及拥有新颖架构的新贵,但这并不是终点。

在过去的十年里,人工智能的大部分焦点都集中在大数据上——也便是说,让我们利用巨大的数据集演习规模更大的神经网络。
这是吴恩达本人帮助推广的。

但是,虽然在大模型和大数据方面存在进展,但吴恩达表示,他认为如今AI的发展重点该当转向小数据和以数据为中央的AI。

吴恩达说,「十年前,我低估了发展深度学习所需的事情量,我认为本日很多人都低估了发展以数据为核心的AI所需的事情量、创新、创造力和工具。
但是,我们未来几年在这方面将会取得进展,我认为它将支持更多的人工智能运用,我对此感到非常愉快。

参考资料:

https://venturebeat.com/2022/03/21/andrew-ng-predicts-the-next-10-years-in-ai/