大模型的规模和能力在迅猛发展,更大的参数、更长的序列及更多的模态是未来大模型技能的发展趋势。更大的规模的模型意味着更大规模的算力平台,算力设备的部件与任务之间的繁芜关系导致调试调优的繁芜度增加,须要系统的管理和网络演习过程中各维度数据,才能快速锁定模型精度及性能瓶颈,加速大模型演习。
MindStudio全流程开拓工具链是华为面向昇腾AI开拓者供应的一站式开拓环境和工具集。针对大模型分布式演习繁芜场景,MindStudio供应了从大模型迁移到精度调试到性能调优的统一工具能力,帮助开拓者轻松get大模型开拓密码。
一、模型迁移
由于不同硬件体系之间处理器架构、模型脚本存在差异性,基于GPU硬件体系原生开拓的开源大模型,要想在昇腾处理器上运行,首先须要进行模型的迁移。
那么模型迁移紧张迁哪些东西呢?
模型脚本的基本组成元素紧张为“算子、API、三方库”,常日在框架层会通过这几个核心元向来搭建模型脚本,以是模型迁移的本色也是对“算子、API、三方库”的迁移。
以同框架下迁移场景为例,MindStudio迁移工具会自动扫描并完成“算子、API、三方库”兼容性剖析,同时完成脚本代码更换,并在迁移完成后天生评估报告,报告中会详细解释更换信息以及是否存在无法直接更换的元素,譬如用户自定义的算子。全体迁移过程仅须要几分钟。
二、精度调试
精度决定了大模型预测的准确性,因此精度调试是大模型演习的关键步骤之一。
为了帮助开拓职员快速办理算子精度问题,MindStudio通过溢出检测、精度比对等核心工具,供应了自有实现的算子运算结果与业界标准算子运算结果之间进行多维度的精度差异比拟的能力,提升演习精度调测效率,单机和集群的精度问题定位韶光缩短至周级。
精度预检:预检避免了常见精度工具在规模集群下的困境、对数据dump的依赖以及对整网累计偏差的感知。在预检过程中,可以通过轻量化的流程提取单API统计量信息,同时,根据统计信息随机天生数据输入在NPU上运行,最大程度还原真实演习场景。终极根据相对偏差、绝对偏差等指标综合剖断API精度是否达标,并供应真值比对选项,输出评估报告。以上预检流程可以在小时级的韶光内完成,在训前就办理80%以上的算子及API精度问题。
溢出检测:应对大模型开拓过程中产生大量溢出以及溢出导致参数不断更新等繁芜问题。通过溢出问题性子自动分类、范例溢出问题自动剖析等能力,输出问题算子报告并供应专家处理建议。
三、性能调优
大模型领域性能是一个非常受到关注的指标,一个大模型的演习可能须要成百上千张卡,耗时数个月才能完成,性能上的优化能直接且显著地降落演习本钱。
同时,大模型领域的性能调优存在很多寻衅,譬如:采集数据量大、解析耗时长、TimeLine数据量限定、短缺自动拆解比对工具、卡间同步、慢卡慢链路等。
MindStudio供应了系统级的集群性能调优能力,通过性能问题拆解、多维可视化Profiling及集群数据多界面可视化能力,帮助开拓者迅速锁定性能瓶颈。
性能拆解:将演习数据拆解为“通信、算子、调度、内存”四个维度,通过对演习耗时和内存占用的比对剖析,定位到详细劣化的算子,良好地办理性能数据timeline信息量巨大用户难以入手、算子详细信息及搬运内存信息多等问题,用户可直接确认性能的紧张瓶颈。
多维可视化Profiling:针对PyTorch框架开拓的性能数据采集和解析,供应Ascend PyTorch Profiler性能采集接口。用户通过在PyTorch演习脚本中插入Ascend PyTorch Profiler接口,实行演习的同时采集性能数据,完成演习后直接输出可视化的性能数据文件,支持单次加载多组数据并可灵巧比对,内存级Profiling展示性能远超原社区水平。同时,工具中供应了Tensorboard可视化、算子级内存Profiling两个功能,支持调用栈、算子信息关联,帮助开拓者在代码层级细粒度锁定性能瓶颈。
集群数据多界面可视化:供应集群可视化调优工具Ascend Insight来提升大模型集群性能调优效率。通过Ascend Insight供应Timeline流水视图、Memory视图、Operator视图、Summary视图等多维视图剖析帮助用户快速创造非常点,识别性能瓶颈:
1)Timeline流水视图:支持多卡汇聚、按层过滤、数据比拟、单卡韶光校准、算子搜索以及统计信息
2)Memory视图:支持内存占用折线图,含进程级预留、算子级预留以及算子级占用。用户可以根据折线图找到峰值的内存占用点,并获取到对应的算子明细。
3)Operator视图:支持通过剖析算子耗时统计及详情信息,快速找到打算性能瓶颈点。
4)Summary视图:支持通信/打算耗时剖析以及PP场景耗时剖析,基于拓扑和并行策略,结合可视剖析链路进行调度剖析,定位通信慢、打算慢等性能问题。
结语
以上完全地先容了MindStudio全流程开拓工具链如何通过大模型迁移、精度调试、性能调优三大步骤,支持用户以低本钱快速提升百亿千亿大模型演习性能,提高开拓效率。欲理解更多详情,请参阅: MindStudio-鏄囪吘绀惧尯
关注#华为云开拓者同盟# 点击下方,第一韶光理解华为云新鲜技能~
华为云博客_大数据博客_AI博客_云打算博客_开拓者中央-华为云