作者:杜伟、泽南
当初人们运用AI技能的困难模式,百度让你不用再来一次。
本日,人工智能技能落地的速率有多快?五分钟。
这是上周日WAVE SUMMIT+ 2021峰会上,百度飞桨向我们展示的结果。
在一番现场实操之后,手势识别的模型让机器狗学会了看人指挥:只要有人向机器狗摆脱手势,它就能听话地向左、向右挪步,或者趴下:
原来须要在实验室中做大量事情才能实现的事,现在变得如此大略。百度展示的工具名叫「智能边缘掌握台」,它供应了全可视化操作界面,能让AI模型支配的韶光从天级别缩短至5分钟,在这之后还能持续对做事运行监控运维。
这只是本次飞桨框架升级的一个功能。现在AI技能的发展有哪些趋势?看完飞桨的这次最新升级就知道了。
12月12日,WAVE SUMMIT+ 2021 深度学习开拓者峰会在上海举办。百度重磅发布了飞桨开源框架 v2.2,带来了四大新特性,涵盖开拓、演习、文本任务全流程和硬件适配方案。
百度首席技能官、深度学习技能及运用国家工程实验室主任王海峰在峰会上表示,「目前,人工智能发展正呈现领悟创新和降落门槛的特点:一方面,AI技能及家当的领悟创新越来越多;另一方面,虽然AI技能越来越繁芜,但AI开拓与运用的门槛却越来越低。」
百度首席技能官、深度学习技能及运用国家工程实验室主任王海峰
面向技能和家当发展需求,飞桨打破核心框架,实现AI模型的便捷开拓、高效演习和多端多平台支配,另一方面又坚持开源开放,不断培养生态,实现了技能、家当、人才和生态的相互促进。
百度集团副总裁、深度学习技能及运用国家工程实验室副主任吴甜更是明确提出培植飞桨的三个关键点,「技能持续创新、功能体验以开拓者的需求为首位,以及广泛地与生态共享、共创。」基于此,吴甜在峰会上率先发布了飞桨新版全景图—家当级模型库新增文心大模型、业界首个家当实践范例库和飞桨“大航海”2.0共创操持。
百度集团副总裁、深度学习技能及运用国家工程实验室副主任吴甜
除了飞桨开源框架 v2.2之外,百度还升级了飞桨家当级开源模型库,发布并开源了13 个结合场景运用深度优化过的 PP系列模型,并对飞桨企业版模型支配能力进行了升级。
可以看出,「持续打破创新核心框架」正是飞桨框架升级到 2.2版本的理念根源。
飞桨框架v2.2:用技能打破践行领悟创新基于长久以来对AI技能和运用发展的不雅观察和思考以及飞桨开源平台推出以来的各类实践,王海峰博士认为当古人工智能呈现两大特点,即「领悟创新」和「降落门槛」。前者为后者的铺垫和根基,通过知识与深度学习领悟、软硬一体领悟以及技能与场景等多方面领悟,逐步降落AI开拓与运用的门槛。
这次,飞桨开源框架 2.2 版本的发布正好诠释和表示了这两大特点。依托深度学习开拓与演习、文本任务极致优化、硬件高效适配以及低门槛推理支配等多方面的创新性技能,飞桨进一步赋能开拓者,让开发更随意马虎、演习更高效、硬件适配本钱更低。在峰会上,百度深度学习技能平台部高等总监马艳军对飞桨开源框架2.2版本的四大新特性进行了详细解读。
升级后的飞桨框架新增了100 多个 API,尤其是科学打算 API,支持了量子打算、生命科学、打算流体力学、分子动力学等运用。飞桨API种类丰富的同时,性能一并增强,进一步支持了高阶自动微分功能以及打算流体力学、分子动力学等场景。飞桨API还保持了对历史版本的兼容,统统都是为了让开发者更随意马虎上手。
飞桨框架 2.2 版本在文本任务处理速率上也取得了新的技能进展。通过端到端文本处理、预演习任务加速和天生任务解码加速,框架终极针对预演习模型形成训推一体全流程开拓体验,大幅节省文本处理代码,还能显著提升推理速率。「从实际的家当支配代码示例中,可以看到,文本处理算子化的训推一体开拓体验可以让支配代码节省94%。」马艳军给出了这样的实现效果。
不过,这次飞桨框架2.2版本的核心技能打破远不止此,接下来要讲的端到端自适应大规模分布式演习技能和硬件适配统一方案是本次飞桨框架升级的重点。
超大措辞模型演习更加自动高效还记得前几天刚刚发布的环球首个知识增强千亿大模型鹏城-百度·文心吗?正是基于这种端到端自适应大规模分布式演习技能。
今年以来,百度在预演习方面一贯有新技能产出。年初推出的 4D 稠浊并行策略可以演习超大措辞模型,飞桨框架v2.0 更是 创新性地推出了业界首个通用异构参数做事器,让开发者利用 CPU和AI专用芯片平分歧硬件进行稠浊异构演习,实现对不同算力的芯片高效利用。
这次,飞桨框架 2.2 版本又再进一步,全新发布了端到端自适应大规模分布式演习技能。
当前,社区普遍利用分布式演习方法来演习具有海量数据的神经网络,但这种方法在面对不同神经网络模型、不同打算资源以及演习中涌现的动态变革,每每表现得力不从心。飞桨创新性地以系统性端到端办法设计分布式演习框架,这样做提升了针对不同场景的内在自适应能力,进而既能知足多样性运用和差异化打算资源下的各种需求,性能表现与其他方法比较也颇具竞争力。
在12月6日百度提交的arXiv论文《End-to-end Adaptive Distributed Training on PaddlePaddle》中,我们可以更清楚地洞悉该技能的构造示意图。
论文地址:https://arxiv.org/abs/2112.02752
马艳军在会上先容了这种端到端自适应大规模分布式演习的设计思路:
• 首先,针对不同的模型和硬件,抽象成统一的分布式打算视图和异构资源视图,并通过硬件感知切分和映射功能及端到真个代价模型,搜索出最优的模型切分和硬件放置组合策略,将模型参数、梯度和优化器状态按照最优策略分配到不同打算卡上,达到节省显存、负载均衡和提升演习性能的目的;
• 接着,采取异步流水运行机制,以高通信和高并发的办法高效演习;
• 末了,为了进一步提高演习的稳定性和资源利用率,飞桨供应弹性调度模块,感知硬件资源变革,自动重构资源视图,触发各个模块自动的发生变革,如重新构建资源视图、切分、硬件分配、流水运行。在不中断演习情形下,弹性调度集群可用机器来进一步提升演习的性能。
这一端到端自适应大规模分布式演习架构的效果如何呢?从飞桨已经做的几组实验结果来看,效果很不错。比如,在 512卡GPU集群演习GPT模型,演习速率有显著上风;在鹏城云脑 II集群上采取自适应优化,演习速率更是能够达到优化前的2.1倍。
降落硬件适配本钱:三大自研优化方案硬件适配是开拓者利用深度学习框架开拓运用时可能会碰着的头疼问题之一。随着智能芯片种类的日益繁芜,适配本钱显然已经成为一个重大问题。
为了开拓者适配硬件时有更多选择,飞桨一贯在努力。在WAVE SUMMIT 2020峰会上公布了飞桨硬件生态伙伴圈,通过与环球芯片、整机等干系硬件领导厂商的密切互助,积极适配芯片或 IP。但应看到,基于技能创新降落硬件的接入本钱同样主要。
因此,百度在峰会上正式推出了硬件适配统一方案,这是一种多层次、低本钱的硬件适配方案,包括飞桨三大自研优化方案:Kernel Primitive API、NNAdapter 和神经网络编译器 CINN(预发布版本),分别供应了算子开拓与映射、子图与整图接入以及编译器后端接入三类相互干联的方案,灵巧性十足。
首先看Kernel Primitive API。通过对算子 Kernel实现中的底层代码进行抽象与封装,供应高性能的Block级IO和 Compute运算,实现了算子打算与硬件解耦。这样一来,Kernel 开拓可以更加专注打算逻辑的实现,在担保性能的同时大幅减少代码量,如softmax算子实现由155行减少为30行,逻辑更加清晰,可掩护性更高。
该方案还能够大幅减少硬件适配时的算子开拓本钱,以昆仑芯2接入为例,通过Kernel Primitive API组合实现Reduce、Elementwise和Activation这三类算子,适配代码量减少93.4%。利用 Kernel Primitive API还实现了一处优化、多处收益的效果,仅对IO运算进行向量化访存优化,飞桨的70个算子性能就可以均匀提升12.8%。
其次是 NNAdapter。我们知道,硬件厂商通过直接子图/整图接入时,须要理解框架的内部实现机制,门槛高且沟通本钱大。飞桨在框架和硬件之间建立了NNAdapter统一适配层,向上通过 NNAdapter API完成框架适配层的统一接口,向下通过 NNAdapter HAL完成硬件抽象层 (HAL)的统一接口,实现了对硬件设备的抽象和封装,为 NNAdapter在不同硬件设备供应统一的访问接口。
这一方案实现了算子定义及框架调度实行与硬件的解耦,降落了门槛,减少了本钱。以寒武纪MLU适配为例,NNAdapter方案比较原直接子图接入方案,代码行数减少69.4%,修正的代码文件减少62.3%,人力投入本钱降落60%。
末了是预发布版本的神经网络编译器 CINN。 CINN全称为Compiler Infrastructure for Neural Networks,面向飞桨框架深度优化,同时支持演习和推理。
在硬件适配时,大量繁芜算子须要利用硬件供应的特定根本打算库实现,这些繁芜算子与硬件的根本打算库差别较大,导致了适配本钱很高。
CINN将繁芜算子拆分成根本算子组合实现,使得适配时只需实现少量根本算子即可完成对各种繁芜算子的支持,并且这些根本算子与硬件打算库更靠近,因此实现本钱更低。然后,再通过自动领悟及自动代码天生技能,办理kernel增多带来的调度和访存开销,提升性能。
CINN编译器方案能带来多大的提升呢?马艳军举例表示,「在这次预发布的CINN版本中,ResNet50 模型的演习性能已持平手工极致优化水平。」
家当级开源模型库的「全与专」,真正知足业务场景需求
开拓模型的能力连续增强,对付工业领域内数量更多的非AI专业人士来说,这个门槛还能再降落。
家当级开源模型库是飞桨四大领先技能上风之一,包含大量经由家当实践长期验证的主流模型,并供应面向语义理解、图像分类、目标检测平分歧场景的端到端开拓套件,知足了企业用户低本钱开拓和快速集成的需求。目前,飞桨官方支持的家当级开源算法超过400个,支持利用动态图开拓视觉、自然措辞、语音和推举等领域的浩瀚模型。
会上,马艳军表示,针对家当实践中的更多真实需求,飞桨家当级开源模型库又新增了一些深受企业开拓者喜好的前沿算法。
针对企业用户最高频利用的一部分模型,百度在结合家当实践中痛点问题的根本上进行了从框架到模型的全栈优化,发布并开源了 13 个家当级 PP系列特色模型。至此,飞桨家当级模型库不仅做到了覆盖面全,还要对症下药,办理企业用户最急迫的业务场景需求。
马艳军指出,「PP系列模型能够很好地实现精度和性能的平衡。」比如 PP-YOLOv2,在数据增强、骨干网络、丢失函数等方面提出了13项优化策略,非常好地知足了企业开拓者实际业务场景的需求,有效帮助开拓者加速业务落地。
飞桨企业版:走好AI运用的末了一公里模型支配是AI 家当实践中的难题,推理支配工具链条是否通畅,一定程度上决定 AI 运用末了一公里路走得好不好。飞桨企业版一贯致力于让模型快速高效地支配到多样化的软硬件环境,实现最优推理效果。
此提高行「一核两翼」AI开拓双平台全新升级,一核指的是一个专为AI平台开拓者打造的、易被集成的云原活气器学习核心系统PaddleFlow。两翼分别指的是面向 AI 运用开拓者的零门槛 AI 开拓平台 EasyDL和面向AI算法开拓者的全功能 AI 开拓平台 BML。两个平台共享了一些核心的功能和模块,包括资源管理、数据管理、模型演习等。
「过去几年,EasyDL 和 BML两个平台上的模型演习任务量在加速增长,行业分布也非常广,包括互联网、工业、零售等20 个行业。EasyDL和BML已成为运用和落地最广泛的AI开拓平台。」百度AI产品研发部总监忻舟在会上先容道。
虽然运用和落地已经很广泛,但飞桨企业版在模型支配中依然面临一些技能难题,比如推理硬件适配繁琐、模型压缩优化难以及支配集成周期长等。
为了进一步降落企业开拓者的运用门槛,飞桨企业版在模型支配方面也迎来了全新升级,让AI运用的末了一公里高效便捷。据忻舟先容,这次飞桨企业版模型支配的全新升级基于飞桨推理支配工具链,与平台深度领悟,打造自动高效的企业级支配功能。
飞桨企业版模型支配升级显著提升了推理性能,还能广泛适配推理芯片,大幅提高支配效率。如何做到的呢?要从以下三个方面提及。
• 模型压缩上,基于PaddleSlim工具,结合一些前沿的压缩算法,根据不同模型和硬件的特点和压缩级别的哀求,设计了多条全自动组合压缩流水线,自动选择最佳压缩路径。对常见的模型,均匀精度丢失掌握在 1% 内,加速比能达到 3-5 倍。
• 推理和硬件适配上,采取飞桨推理支配工具链中的飞桨推理引擎,如Paddle Inference、Paddle Lite和 Paddle.js,适配了超过 30 多款芯片。推理性能也十分出色,在端和边缘设备的Arm芯片上尤为突出。此平台更是为开拓者测试并验证了9345 种模型芯片的组合,覆盖 95% 的适配需求。通过平台供应的推理能力,开拓者能够节省97% 的自行适配开拓韶光;
• 末了是文章开头百度展示的模型做事化与智能边缘掌握台,能够大幅提高支配效率。
对了,还有末了的彩蛋,那便是全新发布的飞桨EasyDL桌面版。
有了它,开拓者不必繁琐地配置各种套件,在桌面一键极速安装即可实现本地高效建模,1分钟安装完成,15分钟即可完成模型开拓。本地实现数据管理、算力调度、网络运用,让AI「触手可得」。
WAVE SUMMIT+ 2021上飞桨发布的新技能,无不紧跟当前AI研究前沿,提升AI模型开拓、演习与支配的整合的速率,降落了运用门槛。飞桨这些年,沿着这条道路越走越宽,开拓者已经达到了406万,人们在飞桨平台中构建了47.6万个模型,飞桨供应的做事也已覆盖了15.7万家企奇迹单位。
这样的成绩,让百度飞桨在中国深度学习平台综合市场份额排名第一。
深度学习框架下接芯片,上承各种运用,堪称「智能时期的操作系统」,作为海内首个自主研发、开源开放的家当级深度学习平台,飞桨是越来越多AI开拓者的首选,承载了无数工业级运用。
一句话,飞桨为AI家当落地供应了答案。
正如王海峰博士所言,「飞桨一贯秉承技能创新、开源开放的初心,敏锐判断技能和家当发展趋势,在核心技能的积累和打破高下功夫。」未来,飞桨的升级换代也不会止步。
参考链接:
https://juejin.cn/post/7013383351864131615
https://www.jiqizhixin.com/articles/2021-01-21-13
https://posts.careerengine.us/p/604ee74989e258381f45ed06