欢迎关注本公众号《敏捷测试转型》,星标收藏,大量原创思考文章陆续推出。
当前,AI大模型成为最热门的观点时,每个公司都在学习和实践AI技能,大家对付测试和效能事情的未来也产生了更多的畅想。
作为非AI专业的技能团队卖力人,如何帮助团队成员迈出AI学习和实践的第一步,是至关主要的。从实践认知出发,我推举卖力人可以做好这几方面的组织和指引:
营造机器学习/人工智能的根本理论学习氛围。搜集和考试测验业界经典的机器学习工具箱。搜集可以供机器学习利用的业界或学界开放数据库资源。磋商产品中可以引入机器学习的场景,如业务评测场景,测试活动场景,谈论哪一种机器学习模型适宜运用在此场景,猜想能得到什么样的效果度量指标。大胆鼓励有机器学习履历的同学进行上述场景的工程实验,可以安排资深的自动化测试工程师搭配他一起事情。网上干系的教程很多,上手难度常日都不低,希望故意向成为AI实践高手的同学可以建立系统的长期学习和实验操持,欲速则不达。
下面按照机器学习不同的知识领域,先从数学和信息论开始,从经典理论和观点进行消化,大略先容下自己是如何学习和思考实在质的。受限于本人在该领域的知识浅薄,如有错漏,敬请包涵。
高档数学干系知识
想学习AI的工程师,光有编码能力是不足的。数学,尤其是统计学是学习AI要跨过的门槛。学好统计学,不但有利于理解数据剖析算法,还有利于度量体系建立和问题挖掘,受益终生。
鼎叔虽然是985数学系科班出身,但是高档数学与统计学学得非常惭愧,尴尬了。
借助从大略到繁芜的统计指标及公式,我们可以更准确生动地描述对付数据的判断,凭此采纳更优的改进方法。比如能反响样本数据偏差的均匀值、加权均匀、标准差、欧氏间隔,曼哈顿间隔等指标。再比如反响数据变革的同比和环比,反响二八分布原则的高斯分布,反响特定例模内随机事宜发生概率的泊疏松布,反响多次连续实验事宜的成功概率的伯努利分布,等等。
贝叶斯定律
贝叶斯定理见告我们,如果你看到一个人常常做好事,那他多数便是个年夜大好人,用数学措辞表达便是:支持某属性的事宜发生得越多,则该属性成立的概率就越大。贝叶斯定律表示了先验概率的强大,条件概率很难懂显改变它。
我们可以通过已知事宜发生的概率,来推测干系的未知事宜发生的概率。贝叶斯定律可以帮助我们办理生活中常常涌现的逆向概率问题,从结果中推测造成结果的可能缘故原由,比如医学诊断领域。
法国有个猜山羊和汽车的电视节目非常经典。舞台上有三扇关闭的门,个中一扇门后面有一辆汽车,其余两扇门后面各有一只山羊。主持人是知道哪扇门后面有汽车的。当竞猜者选定了一扇门但尚未开启它的时候,节目主持人去开启剩下两扇门中的一扇,露出的是山羊。主持人会问参赛者要不要改猜另一扇未开启的门。那么,改猜另一扇未开启的门是否比不改猜赢得汽车的概率要大?
精确的答案是:改猜能增大赢得汽车的概率,从原来的1/3增大为2/3。这是由于竞猜者选定的一扇门后面有汽车的概率是1/3,在未选定的两扇门后面有汽车的概率是2/3,主持人开启个中一扇门把这门后面有汽车给打消了,以是另一扇未开启的门后面有汽车的概率是2/3。
这个奥秘就在于一个事情被确认后就不再是未知的了,这个节目里主持人已经确认了哪扇门背后有汽车,他的行为就影响了概率分布。
贝叶斯分类算法在机器学习数据集较大的情形下,表现出了较高的准确性,得益于坚实的数学根本,避免了只利用先验概率的主不雅观偏见,也避免了单独利用样本信息的过拟合征象。
朴素贝叶斯算法则进一步做了简化,它假天命据集属性之间是相互独立的,这样算法的健壮性比较好,对付不同类型的数据集不会呈现出太大的差异性。
数据统计和原形
数据不能解释原形,它可能只代表了局部信息。我们可以看到企业报告里,虽然数据图表很清晰,但是原形可能被粉饰了起来,数据图表技巧成为强调虚假古迹的帮凶。有些企业申报请示高手很善于在数据报表中粉饰原形,比如用整体趋势粉饰分组趋势,或者反之。
批驳性思维这门课也见告我们,很多媒体误导群众的不雅观点,利用了幸存者偏差和选择性偏差。
前者是只显示了部分样本,从而导致缺点的推断,比如对二战飞机中弹后返航进行统计,创造弹孔都不在发动机位置,得到结论是“该当对发动机以外的部位进行装甲强化处理”。真实结果正好相反,能返航的飞机都是幸存者,而发动机中弹的飞机大部分都无法返航,以是结论该当是加强对发动机部位的装甲强化。
选择性偏差便是样本不屈衡,像有的问卷调查,持正面不雅观点的人可能就没有兴趣回答问卷,而有些地域特色的问卷没有发到对应地域的用户手上,战胜选择性偏差就须要样本足够大,而且抽样随机。
对付大模型的演习,数据的偏差更有危害性和暗藏性,将来我们环绕这点再深入剖析。
有几个常见的统计观点:均值,中位数(按排序的中间值),众数(涌现最多的值),用于不同场景须要谨慎挑选。比如评价人为水平,一样平常用中位数,由于低薪职员很随意马虎被少量高薪职员把人为拉均匀了。
人们拿到数据进行剖析,最随意马虎犯的缺点便是稠浊了干系性和因果性,因果性须要很强的证明过程,而干系性则不须要,因此会被别有用心的人滥用。
所谓数据,便是可被记录和识别的故意义的符号,它可以连续也可以离散。数据可以有多个维度,涌现的概率低并不代表风险低,由于人的动机和行为,预测结果每每会由于人而改变。
高档数学中的矩阵打算、微积分、向量、数值剖析等知识,对付AI学习入门也是至关主要的。
比如向量便是各种特色量数据的凑集,多个向量排练一起便是矩阵,一次运算求解方程组就用了矩阵的性子。
信息论干系根本
学习信息论,有利于深入理解大数据和AI。信息论本来是用于数字通信的,它研究如何打通数字天下和现实天下的打算模型,而人工智能的目标也是获取新的信息结论。
信息论中最主要的是喷鼻香农定律、信息量打算、信息熵等观点。我们的大数据存储和压缩处理也是在去冗余化和提高打算速率之间取得平衡。信息安全知识也是主要的根本内容,它有利于研究人工智能编程的可靠性。
信息
信息,便是被肃清的不愿定性。当你有了批驳性思维,就不随意马虎被一篇网络文章肃清不愿定性(用人话说,就不随意马虎盲信他人)。
鼎叔常挂在嘴边的一个词,便是”信息密度“,一本书好不好,最主要的指标便是”信息密度“高不高,但它和详细的人有关。看起来信息密度很高的书,可能对我没有太大启示,由于大部分内容我已经习得了。
鼎叔从事情中得到的启迪是,测试事情的实质,也是得到新的信息(确定性),如果测试的目标只是尽快让用例通过,那得到的知识就无形之间被最小化了。
在互联网时期,碎片化信息更随意马虎被得到,但无形之中降落了人们节制完全知识的效率。AI非常善于构建知识图谱,但是缺少知识,大模型的发展便是看AI如何更高效地节制知识。
信息编码
影视剧里最常见的便是摩斯编码,它的事理便是把常见的字母用短编码,不常见的字母用长编码,只管即便提高表达效率。
信息量的大小和事宜发生的频繁程度是相反的。100%会确定的事宜,信息含量便是0,这也阐明了足球博彩中的一方越有确定无疑的上风,赔率越高。机器学习的演习过程,也是找到信息熵变革最大的调度方法。
人的措辞包含很多信息,个中不少是冗余的,虽然过程低效,但是冗余会降落吸收方产生缺点理解的风险,在关键时候是可以救命的。
我们评价一个AI模型的泛化能力,便是看偏差、方差和噪音。偏差表示了客不雅观差距,方差表示了是集中还是分散。把噪音误以为是信息,便是过拟合;把信息误以为是噪音便是欠拟合。信息和噪音的定义取决于详细场景,不同的目标下两者是可以转换的。
那么,人工智能与信息论之间的联系是啥?
人工智能研究如何让打算机具有类似人类智能的能力,而信息论则关注信息的传输、处理和表达办法。在过去的几十年里,这两个领域在发展中一贯存在着密切的联系。
信息论供应了一种理论框架,以便有效地学习,处理和传输信息,也能有效地表示信息。因此,信息论可以帮助人工智能系统:
更好地完成大量的信息处理,以便进行决策和预测;将问题和解决方案表示为数字形式,以便进行打算;从环境中学习信息,以便进行适应和创新