但节制机器学习知识是个困难的过程。大家须要从踏实的线性代数与微积分知识入手,节制Python等编程措辞,同时精通Numpy、Scikit-learn、TensorFlow以及PyTorch等数据科学与机器学习库。
如果你须要创建具备集成与扩展能力的机器学习系统,还须要熟习Amazon AWS、微软Azure以及Google Cloud等云平台。
很明显,不少朋友压根不打算把自己培养成机器学习工程师。但我们得承认,这些数据科学与机器学习知识确实能给业务或组织卖力人带来不少助益。好是,目前已经有几门课程供应关于机器学习及深度学习的宏不雅观概述,而且不哀求各位深入研究数学和编码技能。
但结合自己的履历,要想真正建立起对数据科学和机器学习的认知,必须在算法方面具有一定实践履历。在这方面,微软Excel无疑是一款极具代价、但却常常被忽略的工具。
图注:Hong Zhou撰写的《通过Excel学习数据挖掘:逐步理解机器学习方法》
对大多数人来说,微软Excel只是一款电子表格运用程序,卖力以表格形式存储数据并实行比较根本的数学运算。但实际上,Excel是一款能够办理繁芜问题的强大打算工具,个中包含的不少功能乃至许可您直接在事情簿中创建机器学习模型。
虽然我本人多年来一贯在利用Excel数学工具,但直到打仗到《通过Excel学习数据挖掘:逐步理解机器学习方法》(Learn Data Mining Through Excel: A Step-by-Step Approach for Understanding Machine Learning Methods )中Hong Zhou提出的学习方法,我才意识到Excel在数据科学与机器学习领域的学习与运用意义。
文中先容了如何通过Excel一步步节制机器学习根本知识,同时也展示了如何利用Excel根本函数与高等工具实现多种算法。
虽然Excel绝对无法取代Python机器学习,但它仍是学习AI根本知识并办理各种基本问题、同时又无需编写代码的绝佳入门选项。
利用Excel进行线性回归机器学习
线性回归是一种大略的机器学习算法,在剖析数据与预测结果方面有着重要用场。详细来讲,线性回归特殊适宜处理那些整洁排列的表格式数据。Excel供应多项功能,可帮助您通过电子表格中的数据创建回归模型。
作为一款直不雅观工具,数据图表工具能够供应强大的数据可视化功能。例如,你可以通过散点图在笛卡尔平面上显示数据的值。但除了显示数据分布之外,Excel图表工具还可以创建机器学习模型,用以预测数据值的变革。这项功能名为趋势线,可根据您的数据创建回归模型。你可以在趋势线选定多种回归算法,包括线性、多项式、对数与指数。你还可以配置图表以显示机器学习模型中的参数,借此预测新的不雅观察结果。
当然,你还可以将多个趋势线添加至同一图表当中,借此快速测试并比较不同机器学习模型在同一批数据上的性能。
图注:Excel中的趋势线功能可根据数据创建回归模型。
除了体验图表工具之外,《通过Excel学习数据挖掘》还供应其他一些体验流程,帮助您开拓出更高等的回归模型。个中涵盖LINEST与LINREG等公式,可根据您的演习数据为机器学习模型打算出必要参数。
作者还引领大家逐步利用其他Excel根本公式(例如SUM与SUMPRODUCT)创建线性回归模型。整本书都遵照类似的套路:先容机器学习模型中利用的数学公式,理解其背后的基本事理,并通过将值与公式组合在多个单元格及单元格数组中逐步创建出模型。
这统统间隔生产级数据科学事情还很迢遥,但在学习机器学习方面却是效果拔群,足以帮助大家快速节制各种常用的机器学习算法。
通过Excel节制其他机器学习算法
除了回归模型,你还可以在Excel上运用其他机器学习算法。《通过Excel学习数据挖掘》中还供应丰富的监督与无监督机器学习算法,包括k均值聚类、k最近邻、朴素贝叶斯分类与决策树等等。
虽然全体过程可能显得有点混乱,但只要按章节进行,大家会很快摸索出个中的逻辑。以k均值聚类为例,我们将在这一章中通过多个事情表利用大量Excel公式与函数(INDEX, IF, AVERAGEIF, ADDRESS等),借此打算聚类中央并对其进行优化。这并不是最有效的聚类方法,但在通过一个个事情表对聚类进行不断完善的过程中,您将得到良好的不雅观察与研究机会。更主要的是,这种体验与传统编程书今年夜不相同。一样平常的编程书本每每勾引读者直策应用数据点与机器学习库函数,借此直接输出聚类及其属性。
图注:在Excel上进行k均值聚类时,可以在连续的事情表上进行聚类细化。
在决策树一章中,我们将首先打算熵,再为机器学习模型中的各个分支选择特色。这个过程非常缓慢而且须要大量人为操作,但却能给各位带来有效的机器学习算法理解视角与体验。
在本书的多数章节中,我们都会利用求解器工具考试测验实现丢失函数最小化。在这里,大家会深刻体会到Excel的局限性——纵然是只包含十几项参数的大略模型,也可能令打算机陷入缓慢的抓取当中。而一旦数据样本多达几百行,速率更是令人抓狂。但在对机器学习模型参数进行调优的过程中,求解器能够表现出强大的功能。
图注:Excel的求解器工具能够调优模型参数并实现丢失函数最小化。
通过Excel进行深度学习与自然措辞处理
《通过Excel学习数据挖掘》还提到,Excel乃至能够实现某些高等机器学习算法。个中一章专门研究如何精心设计深度学习模型。首先,我们将创建一套包含约10项参数的单层人工神经网络。接下来,我们扩展其观点,创建出包含隐蔽层的深度学习模型。虽然全体打算过程缓慢且效率低下,但确实可以正常起效,通过单元格值、公式以及强大的求解器工具实现深度学习推理。
图注:利用微软Excel进行深度学习,可帮助你深入理解深度神经网络的运作办法。
在末了一章中,我们将利用Excel创建一款最根本的自然措辞处理(NLP)运用程序,借此建立情绪剖析机器学习模型。大家须要利用公式创建“词袋模型”,借此对酒店评论进行预处理与令牌化,而后根据肯定与否定关键字的密度对内容进行分类。在此过程中,大家将学到很多关于当代AI如何处理措辞内容,以及AI与人类在处理局势及口头措辞方面有何不同的专业知识。
Excel——强大的机器学习工具
无论你身为企业中的决策者、来自人力资源部门还是卖力管理供应链及制造工厂,要想与数据科学家及AI技能职员协同互助,节制机器学习方面的根本知识都非常主要。同样的,如果你身为宣布AI动态的,或者身在为企业内机器学习团队发声的公关部门,理解干系事情事理也是编撰宣布文章的主要根本。在我看来,《通过Excel学习数据挖掘》是一本易于阅读且节奏顺畅的好书,足以帮助大家一鼓作气上完这关于AI知识的第一课。
除了学习根本知识之外,Excel还可以作为我们机器学习工具集的强大补充。虽然它不适宜处理弘大的数据集与繁芜的算法,但足以针对小批量数据完成可视化及剖析。你从Excel快速挖掘中得到的结果,将为后续的探索方向与机器学习算法选择供应主要洞见,终极勾引你走上办理问题的精确道路。