华为AI存储若何快速喂饱大年夜模型

作者 | 三北

编辑 | 漠影

AI大模型正在倒逼海内数字根本举动步伐家当加速跃迁。

随着“百模大战”打响，近日，ICT龙头华为继推出了盘古大模型3.0、昇腾AI云做事等产品后，又进一步推出了面向大模型的全新AI存储产品。

华为AI存储若何快速喂饱大年夜模型

存储的主要性不言而喻，它与算力、网络并列为“数据中央三大件”，为大模型生产供应数据底座，支持大模型中的信息快速、无延迟地读写。

如果将大模型比作孩子，那么数据便是菜肴。
孩子只有吃得好，才能长得高，数据存储正是烹饪这些菜肴的大厨，是大模型发展的“第一道关口”。

华为这次面向根本、行业大模型及细分场景模型，推出了OceanStor A310深度学习数据湖存储和FusionCube A3000训/推超领悟一体机两款新品。
据称，其在密度、容量等性能指标上高于业界60%，能大大提高大模型生产中的数据处理效率，以便高效快速地将“菜肴”喂给正在茁壮发展的大模型。

数据“存得下、用得好”在小模型期间已经是企业标配需求。
那么比较于小模型时期，大模型场景下的存储需求发生了什么主要改变？华为推出的AI存储新品是基于什么考虑？数据存储又将如何影响我国大模型家当的发展进程？

通过对话华为数据存储产品线总裁周跃峰、华为分布式存储领域副总裁韩振兴等专家，本文对此进行了深入磋商。

一、数据资产升值，存好数据成“炼模”第一关

众所周知，算法、算力和数据是AI的核心三要素。

本日看中国乃至环球AI发展，大模型软件算法已有浩瀚支配，比如清华大学与智谱AI联合推出的ChatGLM、中科院自动化所推出的紫东.太初、科大讯飞推出的星火认知大模型等；在算力方面，我们也看到英伟达之外，华为昇腾、寒武纪等新秀飞速发展；而当我们把视线投向数据，则创造了一大“凹陷”地带。

多位大模型公司专业人士称，海内大模型与GPT-4仍有一定间隔，背后的一大缘故原由是英文类大模型在演习时，所调用的记录资料远多于中文。
海内大模型缺少海量和高代价的数据，已成为限定大模型家当发展的一大桎梏。

根据投资机构ARK Invest预算，到2030年，家当有望演习出比GPT-3多57倍参数、多720倍Token的AI模型，本钱将从本日的170亿美元降至60万美元。
随着打算价格降落，数据将成为大模型生产的紧张限定成分。

面对数据桎梏问题，不少企业已经开始进行前瞻性布局。
华为分布式存储领域副总裁韩振兴见告智东西等媒体，海内已有十几家大模型客户、厂商与华为展开互助，比如前文提到的科大讯飞、中科院等，还有一些外洋客户，都纷纭关注到了大模型场景下数据存储的升级需求。

华为数据存储产品线总裁周跃峰说，“大模型时期，数据决定AI智能的高度。
作为数据的载体，数据存储成为AI大模型的关键根本举动步伐。
”他谈道，过去几年，海内大力培植了很多算力中央，而随着大模型推进，各地的存力中央也开始加紧培植。
与此同时，大模型的演习须要快速的数据采集和加载，因此也呼唤家当打造出更高性能的存储产品。

中金公司研究部打算机行业首席剖析师、副总经理于钟海在近期的一次演讲中也谈道，数据该当成为企业AI计策的核心。
随着头部大模型企业投入，大模型算法本身的接入本钱将不断变低，行业大模型成为行业发展的趋势。
企业私有数据，蕴含不可泯没的代价；数据壁垒，也成为竞争对手无法完全复制的策略。

可以看到在大模型时期，数据资产正在升值。
数据存储作为大模型生产中的“第一关”，主要性将随着韶光推移更加凸显。

二、迈过四道坎，占领大模型的“饥饿状态”

比较于小模型演习，大模型的显著特色是“大”。

这决定了小模型的数据处理与大模型存在差异。
从家当实际来看，在小模型兴起时，很多企业会用一些做事器确当地磁盘来存储数据，用以加载到显存里做演习。
但随着大模型兴起，做事器本地磁盘难以带动海量数据，如果连续扩充此类存储举动步伐，则有可能涌现问题。

这就要提到模型生产面临的第一重寻衅：在大模型的数据准备环节，数据准备和预处理过程繁芜，耗时长。

由于数据来源分散、归集慢，且预处理百TB数据大概须要10天旁边，从而影响了全体系统的高效运转。
这就须要在数据存储环节快速进行数据归集和预处理，以此缓解算力“饥饿”问题。

同时，企业不仅须要把数据喂给大模型，还须要让数据存储和演习打算打合营。

这里就指向了大模型演习中的第二重寻衅：在大模型的演习环节，数据集的加载效率每每难以知足需求。
当下大模型已达到百亿到万亿参数，多模态大模型以海量文本、图片为演习集，须要我们将大量小文件传送到演习器。
而小文件的读取速率是一个业界难题，就像传输一个G的电影远比传输多个1k的小文件快一样，当前海量小文件的加载速率不敷100MB/s，这就限定了全体系统的效率。

还有第三重寻衅，那便是在AI大模型演习中，演习中断后的断点规复面临难处。
由于大模型参数须要频繁调优，演习涌现中断是高频事宜，须要高效地规复演习过程。
尤其在演习繁芜的模型构造时，如果数据加载不顺畅、易出错则会增加巨大的事情开销。

此外，还有第四重寻衅，那便是在大模型履行支配环节，大模型落地门槛每每较高。
对付绝大多数企业而言，利用大模型须要专业的知识储备、人才储备和专业系统履行能力，且企业传统的IT系统会为每个运用预留一定的GPU资源，单个运用独占GPU，资源利用率常日不到40%，这些问题对企业来说也比较棘手。

总的来说，在大模型生产中的数据采集、数据预处理、模型演习、模型推理任一环节，如果数据存储跟不上打算的节奏，都可能造成大模型的“饥饿”。
只有办理上述关键难题，才能办理大模型的“饥饿”状态。

纵不雅观当下全国数据中央布局，算力相对充足，但缺少相应的存力。
如果算力过多、存力过少，就会导致数据在归集、预处理、演习、推理的流程中耗时过多，算力就会被闲置等待，从而造成资源摧残浪费蹂躏，更影响大模型生产的质量。
“存算比”成为更加须要科学考量的关键指标。

三、面向多种大模型场景，华为打造数据“加速包”和“保护舱”

办理瓶颈问题，须要家当头部玩家牵头。

作为环球领先的高端存储设备公司，华为在两三年前预判到AI大趋势，提前预备两款AI存储产品。
据称，这两款产品在密度、容量等性能指标上高于业界60%，并通过灵巧的扩展性，帮助大模型客户更好地预置和支配大模型。

首先来看看第一款产品，OceanStor A310深度学习数据湖存储。

正如前文提到，面对大模型时期的数据采集、处理等各环节的问题，过去将数据归集、预处理、演习、推理分别建在不同的数据中央的办法可能不再高效。
大模型会加速存储在各个环节的领悟，形成类似数据湖的存储。

OceanStor A310是面向根本、行业大模型场景，涵盖从数据归集、预处理到模型演习、推理运用的AI全流程深度学习数据湖存储。
据悉，OceanStor A310是当前环球性能密度最高的一款存储，支持96闪存盘，带宽可达400GB/s，IOPS达到1200万，可线性扩展至4096节点，实现多协议无损互通。
其内置的全局文件系统GFS可实现跨地域智能数据编织，简化数据归集流程，并支持近存打算，以实现近数据预处理，减少数据搬移，预处理效率提升30%。

此外，OceanStor A310不仅可用于AI大模型，它的同源数据的处理能力在客户做超算和大数据运用时同样适用。
当未来客户系统须要升级领悟成AI大模型的时候，数据也无需再迁移，该产品有很好的未来演进能力。

再来看看第二款产品，FusionCube A3000训/推超领悟一体机。

正如前文提到，很多企业在搭建AI时，如何降落这一系统化工程的落地门槛？答案是超领悟。

FusionCube A3000训/推超领悟一体机集成了高性能存储节点、训推节点、网络交流设备、AI平台软件。
据悉，这一新品面向百亿级模型运用，客户可以一站式支配，开箱即用，能大幅降落AI大模型的前期利用、支配门槛与投入。

FusionCube A3000 还支持两种商业模式，为客户供应更多样的配置选择。
第一种昇腾一站式方案是华为集成了自研的OceanStor A300高性能存储节点、网络、昇腾打算与管理运维软件，为客户供应全国产化的昇腾一站式方案。
第二种是第三方GPU一站式方案，其底座是华为OceanStor A300高性能存储节点，别的GPU做事器、交流机、AI平台软件向伙伴开放，为大模型伙伴供应拎包入住的支配体验，实现一站式交付。

FusionCube A3000已与多家计策伙伴进行互助试用与联合创新，今后将持续赋能更多中小企业、研究所和高校的AI大模型演习推理。

除了让大模型“吃得饱”，我们不得不提数据安全的问题，这也是险些所有大模型厂商极其关注的问题。

就像我们关注钱的安全，首先便是希望钱包和家里的保险箱安全，数据存储的安全与之类似。

华为苏黎士研究所数据存储首席科学家张霁谈道：“数据存储是我们数据安全的第一道防线。
”在AI大模型的第一个阶段，将数据安全地归集是十分具有寻衅性的。
为此华为正在研究一种数据方舱技能，将数据在流转的过程中把干系凭据、隐私、权限等信息跟数据放在一起进行流转。
这些数据到达数据归集地后，都在数据方舱中安全的实行和保护，从而做到数据安全。

只有数据能够安全流转，AI大模型未来才可以得到长久、持续的发展。

总的来说，面向多种大模型场景，华为正在打造数据的“加速包”和“保护舱”，并带领数据存储行业建立大模型时期下的新标准。

结语：大模型推动数据资产升值，存好数据成“炼模”必备

随着大模型推进，存好数据成“炼模”必备，数据存储涌现了新的趋势。
大模型的演习须要快速地采集和加载数据，因此也须要更高性能的存储产品。
与此同时，大模型会加速存储在各个环节的领悟，提升全体系统的效率。

过往几年，海内培植了很多的算力中央。
而随着大模型的加速狂飙，我们有望看到更多省份开始培植大量存力中央，存力家当将与算力家当一同实现新的迭代升级。

每期AI知识网

华为AI存储若何快速喂饱大年夜模型

老鹿学Ai绘画ControlNet线条类控制

产品经理的福音AI大年夜模型帮你直接生成高保真原型图