这篇来自 eloquent.ai 博客的文章所说的,总结起来便是这 5 条 AI 原则:

利用未曾见过的数据评估AI系统

更多数据可以带来更好的模型

有效数据的代价远远超过无效数据

干货|重温五条 AI 根本规律

一个大略的基线开始

人工智能并不是邪术

给大家一个小小的忠言——通过对机器学习的基本理解,这篇文章将更故意义。
之前的另一篇文章(https://blog.eloquent.ai/2018/08/30/machine-learning-for-executives/)对这些根本知识有所阐明。
当然了,不是说这篇文章你非读不可,但是读了的话肯定会对你后面的理解更有帮助!
(也欢迎大家阅读雷锋网AI 科技评论的其它文章)

1. 利用未曾见过的数据评估AI系统

在上一篇文章中,我们先容了如何构建分类器以将图像标记为猫(绿色圆圈)或狗(蓝色三角形)。
在将我们的演习数据转换为向量之后,我们得到了下面的图表,个中红线表示我们的“决策边界”(即将演习数据转换为向量后,这条“边界线”就将图像划分为猫和狗)。

显然,图中的决策边界缺点地将一只猫(绿色圆形)标记标记成了狗(蓝色三角形),即遗漏了一个演习个样本。
那么,是什么让演习算法没有选择下图中的红线作为决策边界呢?

在这两种情形下,我们对演习集进行分类都得到了同样的准确率——两中决策边界都标错了一个例子。
但是如图示,当我们在数据中加上一只未涌现过的猫时,只有左图的决策边界会精确地预测这个点为猫:

分类器可以在用来演习它的数据集上事情得很顺利,但它未必适用于演习的时候没有见过的数据。
此外,纵然分类器在特定类型的输入(例如,室内场景中的猫)上事情良好,它对付相同任务的不同数据(例如,室外场景中的猫)也可能无法很好地事情。

盲目地购买 AI 系统而不对干系的未知信息进行测试,可能会付出很大的代价。
一种测试未知数据的实用方法是——先保留一部分数据不供应给开拓人工智能系统的企业或个人,然后自己通过天生的系统运行这些保留数据。
最不济,也得担保你能自己试用才行。

2. 更多数据可以带来更好的模型

如果给你下面的演习数据集,你会把决策边界画在哪里?

你想的可能没错——许多决策边界可以准确地分割这些数据。
虽然下面的每个假设决策边界都精确地分割了数据,但它们彼此之间的差别很大,正如我们上面所看到的,个中一些可能会在目前尚未见到的数据(也便是你真正关心的数据)上更糟糕:

从这个小数据集中,我们不知道这些彼此不同的决策边界中,究竟哪一个最准确地代表了现实天下。
缺少数据会导致不愿定性,因此我们得网络更多数据点,并将其添加到初始图表中,则可得到下图:

额外的数据能帮助我们大幅缩小选择范围,立即画出绿色和蓝色间的决策边界,因此决策边界会是如下所示:

当机器学习模型表现非常时,潜在的问题常日是模型没有经由足够或精确的数据演习。
只管更多的数据险些总是有帮助,但须要把稳,数据越多可能得到的回报却在减少。
当我们将第一个图的数据更加时,准确度明显增加。
但是基于该图表,如果将数据再更加,则精度的提高不会有之前那么大。
准确度随着演习数据的数量大致呈对数增长,因此从 1k 到 10k 个样本可能比从 10k 到 20k 个对准确性产生更大的影响。

对付我个人来说,这一条特殊忌讳,尤其是对付预算紧张的创业公司:你们常常给ML工程师支付数高额薪水,但也请确保供应足够的预算和韶光来让他们仔细网络数据。

3. 有效数据的代价远远超过无效数据

在上面的例子中,虽说有更多的数据会对演习有所帮助,但条件是它们足够准确才行。
还是前面的例子,在网络了附加数据之后,可以得到一个这样的图形和一个决策边界,如下所示:

但是,如果这些新数据点中的一些实在是被缺点标记了,而真是情形是下面这样的呢?

我们要把稳,虽然这些标记缺点的点与第一个图中的点坐标相同,但它们代表的意义已经改变。
这导致了一个完备不同的决策边界:

纵然只有四分之一的数据集被缺点标记,但很明显,缺点的数据会对我们的模型构建有重大影响。
我们可以在演习期间利用一些技能来减少标记数据时的缺点,但这些技能浸染有限。
在大多数情形下,清理根本数据更加随意马虎和可靠。

这里的要点是“有效数据”至关主要,有效数据意味着数据准确标记,意味着数据合理涵盖了我们想关注的范围,也意味着演习集中同时存在大略案例和困难案例等等。
因而决策边界没有那么多的摆动空间,只有一个“精确”的答案。

4. 从一个大略的基线开始

这并不是说你该当考试测验了一点大略的东西就以为满意然后停下来。
即便你终极的方法既当代又繁芜,通过这条原则,你也会开拓得更快,并且终极的结果也会更好。

我可以举一个关于我自己的真实例子,当我读研一时,我们实验室的同学兼 Eloquent 的研究员 Angel 和我参与了一个项目,我们各自将措辞里描述韶光的词转化成可供机器阅读的格式。
实质上来说,便是试图让打算机理解诸如“上周五”或“来日诰日中午”之类的短语。

由于这些项目是申基金所必需的,Angel 致力于一个实用性强,有确定性的规则系统。
她为了让这个别系能实用起来而绞尽脑汁。
而我当时只是一个在实验室轮岗的学生,团队让我自主选择任何花哨的方法,就像糖果店里的孩子一样。
我探索了最时髦、最动人的语义解析方法。
在我的项目中,我利用了 EM、共轭先验、一个完全的自定义语义解析器等等新奇的方法。

差不多十年之后,我很高兴还留下了一篇受到好评并且引用数还行的论文。
然而,Angel 的项目 SUTime 呢,现在是斯坦福盛行的 CoreNLP 工具包中最常用的组件之一——大略的方法击败了时髦的方法。

你可能以为我已经吸取了教训,然而几年之后,当我成为一名高年级研究生时,我要让另一个别系启动并用于另一个基金项目。
我再一次试图演习一个花哨的机器学习模型,但险些没有做出什么成果。
有一天我以为无比失落败和沮丧,以至于我乃至开始写“模式”。
“模式”便是一些大略的确定性规则。
比如,当一个句子包含“出生于”这个词时,则假设这是一个出生地。
模式不会学习,浸染有限,但它们易于编写且用起来合理。

末了,基于模式的系统不仅赛过我们原来的系统,它后来还被加到了 NIST 排名前 5 的系统中,并深深影响了那些基于机器学习的模型高性能系统。

结论便是:先做大略的事。
当然了,我们还有其他更好的情由:

它会给你的终极模型的性能供应一个安全的最低值。
当你做出一个大略的基准模型之后,你会希望任何聪明的东西都会击败它。
险些不会有什么模型会比一个基于规则的模型表现还要差。
这给你的更高等的方法供应了一个比较,如果你的高等方法的表现更差,那意味着你有什么东西彻底做错了,并不是任务太过艰巨。

常日,大略的方法须要较少的(或不用!
)演习数据,这就使你可以在没有大量数据投资的情形下进行原型设计。

它常常会揭示脱手头任务的难度,这常日会向你指明如何选择更好的机器学习方法来处理这些困难的部分。
此外,它还能向你指明如何给须要更多数据的方法网络数据。

大略的方法一样平常只须要很少的额外努力就可以泛化到未见过的数据上。
(记住:总是用模型没有见过的数据来评估模型!
)更大略的模型每每更随意马虎阐明,这使得它们更具可预测性,因此让它们向没有见过的数据上泛化的过程也更明了。

5. 人工智能并不是邪术

这句话是我常常挂在嘴边的。
大家虽然表面上都表示赞许,但心里未必真的服气,由于人工智能看起来就像魔术一样。
在谈到 Eloquent 人工智能的宏伟未来操持时,我对曾经反复强调这个缺点不雅观念感到腼腆。
我从演习机器学习模型的细节中得到的越多,模型看起来就越看起来不像是曲线的拟合,它们看起来更像一个黑匣子,我可以付出一些代价来进行操控。

人们很随意马虎忘却,当代机器学习领域还很年轻——只有二三十岁。
与当代机器学习工具包的成熟度和繁芜性比较,全体领域仍旧相称不成熟。
它的快速进步使人们很随意马虎忘却这一点。

机器学习的一部分邪恶之处在于它具有内在的概任性。
它在技能上无所不能,但不一定达到你想要的准确度。
我疑惑在许多机构中,在组织构造图上添加新东西时,“准确度”的细微差别被漏下,只留下“人工智能可以做任何事情”的阐述部分。

你如何将不可能与可能分开?我考试测验遵照一些最佳做法:

与实际演习模型的人交谈。
不是团队领导,不是部门主管,而是让模型演习代码运行起来的人。
他们常日可以更好地理解模型的事情事理及其限定。
确保他们乐意随时见告你,你的模型有限定并且在某些方面表现不佳。
我敢担保,无论他们是否见告你,你的模型总会有一些弗成的方面。

至少对付 NLP 项目,你常日可以利用一个快速又繁杂的基于规则的系统来检讨任务的可行性。
机器学习是一种很好的办法,可以用来天生一个非常大且模糊的、很难用人工的方法写下来的规则集。
但如果一开始你就很难写下一套合理的规则来完成你的任务,那这常日是一个不好的迹象。
然后,网络一个小数据集并考试测验利用你学习到的系统。
接下来是一个轻微大一点的数据集,并且在你得到表现提升时连续这样做。
一个主要的履历法则便是:准确度随着数据集大小的对数而增长。

永久不要相信高得出奇的准确性:任何超过 95 或 97% 的数值。
同样地,不要相信任何高于人类输出平的准确性,或者高于同等性评价。
很大概率上,要么是数据集有缺失落,有么是评估不完善。
两者都常常发生,纵然是对付履历丰富的研究职员

你在网上看到的所有和机器学习有关的内容(新闻,博客,论文),如果没有其它作证那它们都是有歧义或缺点的——包括现在这篇。

感激你的阅读!
其余再说一下,感激大家给我们上一篇文章的留言。
看到社区中的大家一起参与进来真的觉得很棒。

和往常一样,如果你有任何问题、见地或反馈,请发送电子邮件至 hello@eloquent.ai。
填写注册表格订阅,我们将直接发送这些帖子到你的邮箱,并访问我们的主页 eloquent.ai。
如果能这么做的话我就很知足了。
回聊!

via blog.eloquent.ai,雷锋网 AI 科技评论编译