Prisma 把你的照片变成艺术作品
AI 天生的奥巴马讲话视频,看得出谁是本尊吗?
开源软件 style2paints 能自动给漫画人物上色
“机器学习”看似深奥,实质却很大略。无论是图像识别还是语义剖析,机器的“学习”能力都来源于同一个算法:梯度低落法 (Gradient Descent)。
近日,打算机科学博士Daniel Tunkelang就在Quora上回答了这个问题——下面一起来看看标准答案吧。
不如我们由机器学习中的分类问题入手,教打算机学习哪些食品好吃,哪些难吃。和人类不一样,打算机没有嘴巴,不能品尝食品。以是,我们须要用很多食品样例(标记的演习数据)教司帐算机。这项样例中有美味的食品(正例),也有恶心的(负例)。对付每个被标记的示例,我们给打算机供应了描述食品(特色)的方法。
正例被标记为“美味”,比如巧克力冰淇淋、披萨、草莓等。负例被标记为“恶心”,比如凤尾鱼、花椰菜和球芽甘蓝。
在真正的机器学习系统中,你可能须要更多的演习数据,但3正3负的例子够我们理解观点了。
现在,我们须要一些特色。不妨就将这些样例设置为甜、咸和蔬菜三个特色,由于为二元特性,以是每种食品的每个特色都被授予“是”或“否”的值。
有了这些演习数据后,打算机的事情便是从这些数据中总结一个公式(模型)。这样,当它会碰着新食品时,它能根据模型决定食品是美味还是恶心的。
一种模型是点系统(线性模型)。如果具备每个特性,就会得到一定分数(权重),如果不具备就没有分数。然后,模型将食品的点数加起来,得到终极分。
模型里有一个分界点,若得分高于分界点,模型就剖断食品美味;如果分数低于分界点,就剖断难堪吃。
根据演习数据,模型中的特色分可能会被设置为甜3分,咸1分,松脆1分,蔬菜为-1分。则巧克力、冰淇淋、披萨、草莓、凤尾鱼、花椰菜、和球芽甘蓝在模型中的得分如下:
权重让选择分界点更随意马虎,由于正例都得分≥2,负例得分≤1。
总能精确找到权重和分界点不太随意马虎。纵然找到了,终极可能会得到一个只适用于这个演习数据的模型,但当我们用新例子时,模型效果就没这么好了(过度拟合)。
空想的模型不仅在演习数据中精确率高,在新例中仍旧有效(泛化)。常日,大略模型比繁芜模型(奥卡姆剃刀)更随意马虎一样平常化。
我们可以不该用线性模型,构建决策树也是个好方法。在决策树中,只能问能用“是”和“否”回答的问题。用演习数据让决策树答对并不难,在这个示例中演习数据是这样利用的:
这是蔬菜吗?
如果是,则难吃。如果不是,那它是甜的吗?如果是,则好吃。如果不是,那它是松脆的吗?如果是,则好吃。如果不是,则难吃。犹如线性模型,我们须要担心过度拟合,不能让决策树太深。以是这意味着终极可能会有一个模型,虽然在我们的演习数据上会犯错,但能对新数据更好泛化。希望孩子能听懂这个机器学习的阐明。