本文专为非技能背景的AI爱好者设计,旨在深入浅出地先容AI的根本观点和关键技能,从最根本的逻辑回归到繁芜的Transformer模型,带您一步步解锁AI技能的奥秘。
一、逻辑回归
如果你想通过人工智能判断某人是否会患糖尿病,则逻辑回归可以通过综合剖析用户的年事、体重、胰岛素水平等等来给出一个0~1的概率值,如果阈值设定为0.7,则高于0.7的我们就归类为高风险人群,以便更早期的干预和管理风险。
二、线性回归
逻辑回归办理的是0到1的概率问题,而很多时候是我们须要详细的值,比如你在摆摊卖冰激凌,你把稳到温度越高,你卖出去的冰激凌越多。
线性回归就像是你用尺子和铅笔在历史发卖数据的散点图表上画一条直线,只管即便让这条线贴近所有的发卖点(温度是x,发卖额是y)。这样,你就可以用这条线预测,在任何给定温度下,你大概能卖多少冰激凌。
三、多元多项式回归
你一定创造了在前文冰激凌案例中,很显然温度对收入的影响并不是直线而是一个曲线,并且也不止温度这一个自变量。多元多项式回归便是一种可以综合考虑多个X自变量并且能得出非线性关系的机器学习算法。比如演习一个评估房价的模型,那么自变量就有:面积、房龄、间隔地铁站间隔、楼层数等等,自变量越多,模型越能去仿照真实天下。
四、决策树
本文前三节都是基于大略的数学公式的模型,这些模型哀求输入数据是数值型,这意味着在处理性别、城市、疾病种别等非数值型时,须要进行数值转化的预处理,这增加了算法繁芜度,造成过拟合等问题。
决策树可以直接处理分类特色,比如演习一个诊断心脏病类型的算法模型,我们搭建有很多决策点比如:患者的胸痛类型、心电图结果,这些决策点就构成了一个决策树,每个叶节点代表一个特定的心脏病诊断。须要把稳的是决策树和前三种算法并不是互斥关系,决策树的叶节点上可以包含独立的算法模型。
五、随机森林
就像年夜夫之间对付同一个症状会有不同的疾病诊断一样,对付同一个问题会无数种决策树办法,如果年夜夫用投票的形式来终极决定是哪一个疾病诊断,这种诊断的准确性每每比一个年夜夫的准确率高很多,这种集成多颗决策树的模型构建办法,叫做随机森林。
为什么叫“随机”森林呢?好比每个年夜夫都是一个决策树,就算他们是从一个学校培养出来的,但他们个人打仗到的病例样天职歧,个人性情方向于守旧还是乐不雅观也不同,这种随机性让每一个决策树构造都不同,以是被称之为随机森林。
六、聚类
在机器学习中演习模型就好比是用“大量已知的y和x”去倒推出在“y=f(x)”中的f,比如演习一个短视频推举算法,x是用户数据,y是用户兴趣标签,如果y的颗粒度越精准那么推举的视频也就越符合他的胃口。
但在实际中,我们很难去给用户标注得当的y来准备足够的演习集。此时,就常用到聚类算法,他可以自行从大量x中依据数据之间的相似度来划分成多个种别,聚类常用在机器学习的数据预处理阶段。
七、降维
假设你有一个信息超级全的舆图,包含马路、铁路、景点、学校、医院、乃至地形海拔,但是你只是想知道从公民广场到陆家嘴要坐几号线而已,那最适宜你的就只是地铁路线图而已,这种简化数据但保留主要信息的过程就叫做降维,人工智能对信息的降维可以减少打算本钱(省电费、省显卡),比如,你要演习一个给脸部颜值打分的模型,那么采集到的照片背景、用户的衣服颜色等等便是多余的数据。
八、卷积神经网络
卷积神经网络(CNN)最范例的利用是图像识别,它模拟人的思维,自动捕捉范例特色,比如边缘、角落、纹理等,然后他们的创造会被汇总起来,以帮助全体团队理解整张图片的内容。比如我们判断照片上的动物是不是猫,我们会最先想到的是看它的三角形的耳朵、圆胖的脸蛋、小鼻子,综合这些特色后判断是不是猫。
九、循环神经网络
CNN适宜处理图像或视频这种网格构造的数据,而循环神经网络(RNN)适宜处理文本、语音、景象这类有韶光顺序序列数据,它具有一定的影象能力能够理解高下文关系。这个算法的缺陷是随意马虎“梯度爆炸”或者“梯度消逝”,“梯度爆炸”可以类比为在阅读小说时,对之前章节非必要的细节过于沉浸无法忘怀,以至于影响了对当前内容的理解。而“梯度消逝”则相称于你很快就忘却了之前的内容,使得理解当前内容变得困难。
十、Transformer
Transformer模型通过其独特的自把稳力机制可以办理CNN中常有的“梯度爆炸”和“梯度消逝”的问题,并且它不须要像RNN一样按顺序处理数据,而是可以一次性读取全部数据。就像是在一个巨大的图书馆里探求信息,RNN是一本一本去读,而Transformer可以一次性看完,并迅速找到你须要的信息。这种方法特殊适宜处理措辞,由于它须要同时理解句子中的每个词及其高下文关系。
本文由 @李文杰 原创发布于大家都是产品经理。未经作者容许,禁止转载。
题图来自Unsplash,基于CC0协议。
该文不雅观点仅代表作者本人,大家都是产品经理平台仅供应信息存储空间做事。