作者 | 三北

编辑 | 漠影

AI大模型正在倒逼海内数字根本举动步伐家当加速跃迁。

随着“百模大战”打响,近日,ICT龙头华为继推出了盘古大模型3.0、昇腾AI云做事等产品后,又进一步推出了面向大模型的全新AI存储产品。

华为AI存储若何快速喂饱大年夜模型

存储的主要性不言而喻,它与算力、网络并列为“数据中央三大件”,为大模型生产供应数据底座,支持大模型中的信息快速、无延迟地读写。

如果将大模型比作孩子,那么数据便是菜肴。
孩子只有吃得好,才能长得高,数据存储正是烹饪这些菜肴的大厨,是大模型发展的“第一道关口”。

华为这次面向根本、行业大模型及细分场景模型,推出了OceanStor A310深度学习数据湖存储和FusionCube A3000训/推超领悟一体机两款新品。
据称,其在密度、容量等性能指标上高于业界60%,能大大提高大模型生产中的数据处理效率,以便高效快速地将“菜肴”喂给正在茁壮发展的大模型。

数据“存得下、用得好”在小模型期间已经是企业标配需求。
那么比较于小模型时期,大模型场景下的存储需求发生了什么主要改变?华为推出的AI存储新品是基于什么考虑?数据存储又将如何影响我国大模型家当的发展进程?

通过对话华为数据存储产品线总裁周跃峰、华为分布式存储领域副总裁韩振兴等专家,本文对此进行了深入磋商。

一、数据资产升值,存好数据成“炼模”第一关

众所周知,算法、算力和数据是AI的核心三要素。

本日看中国乃至环球AI发展,大模型软件算法已有浩瀚支配,比如清华大学与智谱AI联合推出的ChatGLM、中科院自动化所推出的紫东.太初、科大讯飞推出的星火认知大模型等;在算力方面,我们也看到英伟达之外,华为昇腾、寒武纪等新秀飞速发展;而当我们把视线投向数据,则创造了一大“凹陷”地带。

多位大模型公司专业人士称,海内大模型与GPT-4仍有一定间隔,背后的一大缘故原由是英文类大模型在演习时,所调用的记录资料远多于中文。
海内大模型缺少海量和高代价的数据,已成为限定大模型家当发展的一大桎梏。

根据投资机构ARK Invest预算,到2030年,家当有望演习出比GPT-3多57倍参数、多720倍Token的AI模型,本钱将从本日的170亿美元降至60万美元。
随着打算价格降落,数据将成为大模型生产的紧张限定成分。

面对数据桎梏问题,不少企业已经开始进行前瞻性布局。
华为分布式存储领域副总裁韩振兴见告智东西等媒体,海内已有十几家大模型客户、厂商与华为展开互助,比如前文提到的科大讯飞、中科院等,还有一些外洋客户,都纷纭关注到了大模型场景下数据存储的升级需求。

华为数据存储产品线总裁周跃峰说,“大模型时期,数据决定AI智能的高度。
作为数据的载体,数据存储成为AI大模型的关键根本举动步伐。
”他谈道,过去几年,海内大力培植了很多算力中央,而随着大模型推进,各地的存力中央也开始加紧培植。
与此同时,大模型的演习须要快速的数据采集和加载,因此也呼唤家当打造出更高性能的存储产品。

中金公司研究部打算机行业首席剖析师、副总经理于钟海在近期的一次演讲中也谈道,数据该当成为企业AI计策的核心。
随着头部大模型企业投入,大模型算法本身的接入本钱将不断变低,行业大模型成为行业发展的趋势。
企业私有数据,蕴含不可泯没的代价;数据壁垒,也成为竞争对手无法完全复制的策略。

可以看到在大模型时期,数据资产正在升值。
数据存储作为大模型生产中的“第一关”,主要性将随着韶光推移更加凸显。

二、迈过四道坎,占领大模型的“饥饿状态”

比较于小模型演习,大模型的显著特色是“大”。

这决定了小模型的数据处理与大模型存在差异。
从家当实际来看,在小模型兴起时,很多企业会用一些做事器确当地磁盘来存储数据,用以加载到显存里做演习。
但随着大模型兴起,做事器本地磁盘难以带动海量数据,如果连续扩充此类存储举动步伐,则有可能涌现问题。

这就要提到模型生产面临的第一重寻衅:在大模型的数据准备环节,数据准备和预处理过程繁芜,耗时长。

由于数据来源分散、归集慢,且预处理百TB数据大概须要10天旁边,从而影响了全体系统的高效运转。
这就须要在数据存储环节快速进行数据归集和预处理,以此缓解算力“饥饿”问题。

同时,企业不仅须要把数据喂给大模型,还须要让数据存储和演习打算打合营。

这里就指向了大模型演习中的第二重寻衅:在大模型的演习环节,数据集的加载效率每每难以知足需求。
当下大模型已达到百亿到万亿参数,多模态大模型以海量文本、图片为演习集,须要我们将大量小文件传送到演习器。
而小文件的读取速率是一个业界难题,就像传输一个G的电影远比传输多个1k的小文件快一样,当前海量小文件的加载速率不敷100MB/s,这就限定了全体系统的效率。

还有第三重寻衅,那便是在AI大模型演习中,演习中断后的断点规复面临难处。
由于大模型参数须要频繁调优,演习涌现中断是高频事宜,须要高效地规复演习过程。
尤其在演习繁芜的模型构造时,如果数据加载不顺畅、易出错则会增加巨大的事情开销。

此外,还有第四重寻衅,那便是在大模型履行支配环节,大模型落地门槛每每较高。
对付绝大多数企业而言,利用大模型须要专业的知识储备、人才储备和专业系统履行能力,且企业传统的IT系统会为每个运用预留一定的GPU资源,单个运用独占GPU,资源利用率常日不到40%,这些问题对企业来说也比较棘手。

总的来说,在大模型生产中的数据采集、数据预处理、模型演习、模型推理任一环节,如果数据存储跟不上打算的节奏,都可能造成大模型的“饥饿”。
只有办理上述关键难题,才能办理大模型的“饥饿”状态。

纵不雅观当下全国数据中央布局,算力相对充足,但缺少相应的存力。
如果算力过多、存力过少,就会导致数据在归集、预处理、演习、推理的流程中耗时过多,算力就会被闲置等待,从而造成资源摧残浪费蹂躏,更影响大模型生产的质量。
“存算比”成为更加须要科学考量的关键指标。

三、面向多种大模型场景,华为打造数据“加速包”和“保护舱”

办理瓶颈问题,须要家当头部玩家牵头。

作为环球领先的高端存储设备公司,华为在两三年前预判到AI大趋势,提前预备两款AI存储产品。
据称,这两款产品在密度、容量等性能指标上高于业界60%,并通过灵巧的扩展性,帮助大模型客户更好地预置和支配大模型。

首先来看看第一款产品,OceanStor A310深度学习数据湖存储。

正如前文提到,面对大模型时期的数据采集、处理等各环节的问题,过去将数据归集、预处理、演习、推理分别建在不同的数据中央的办法可能不再高效。
大模型会加速存储在各个环节的领悟,形成类似数据湖的存储。

OceanStor A310是面向根本、行业大模型场景,涵盖从数据归集、预处理到模型演习、推理运用的AI全流程深度学习数据湖存储。
据悉,OceanStor A310是当前环球性能密度最高的一款存储,支持96闪存盘,带宽可达400GB/s,IOPS达到1200万,可线性扩展至4096节点,实现多协议无损互通。
其内置的全局文件系统GFS可实现跨地域智能数据编织,简化数据归集流程,并支持近存打算,以实现近数据预处理,减少数据搬移,预处理效率提升30%。

此外,OceanStor A310不仅可用于AI大模型,它的同源数据的处理能力在客户做超算和大数据运用时同样适用。
当未来客户系统须要升级领悟成AI大模型的时候,数据也无需再迁移,该产品有很好的未来演进能力。

再来看看第二款产品,FusionCube A3000训/推超领悟一体机。

正如前文提到,很多企业在搭建AI时,如何降落这一系统化工程的落地门槛?答案是超领悟。

FusionCube A3000训/推超领悟一体机集成了高性能存储节点、训推节点、网络交流设备、AI平台软件。
据悉,这一新品面向百亿级模型运用,客户可以一站式支配,开箱即用,能大幅降落AI大模型的前期利用、支配门槛与投入。

FusionCube A3000 还支持两种商业模式,为客户供应更多样的配置选择。
第一种昇腾一站式方案是华为集成了自研的OceanStor A300高性能存储节点、网络、昇腾打算与管理运维软件,为客户供应全国产化的昇腾一站式方案。
第二种是第三方GPU一站式方案,其底座是华为OceanStor A300高性能存储节点,别的GPU做事器、交流机、AI平台软件向伙伴开放,为大模型伙伴供应拎包入住的支配体验,实现一站式交付。

FusionCube A3000已与多家计策伙伴进行互助试用与联合创新,今后将持续赋能更多中小企业、研究所和高校的AI大模型演习推理。

除了让大模型“吃得饱”,我们不得不提数据安全的问题,这也是险些所有大模型厂商极其关注的问题。

就像我们关注钱的安全,首先便是希望钱包和家里的保险箱安全,数据存储的安全与之类似。

华为苏黎士研究所数据存储首席科学家张霁谈道:“数据存储是我们数据安全的第一道防线。
”在AI大模型的第一个阶段,将数据安全地归集是十分具有寻衅性的。
为此华为正在研究一种数据方舱技能,将数据在流转的过程中把干系凭据、隐私、权限等信息跟数据放在一起进行流转。
这些数据到达数据归集地后,都在数据方舱中安全的实行和保护,从而做到数据安全。

只有数据能够安全流转,AI大模型未来才可以得到长久、持续的发展。

总的来说,面向多种大模型场景,华为正在打造数据的“加速包”和“保护舱”,并带领数据存储行业建立大模型时期下的新标准。

结语:大模型推动数据资产升值,存好数据成“炼模”必备

随着大模型推进,存好数据成“炼模”必备,数据存储涌现了新的趋势。
大模型的演习须要快速地采集和加载数据,因此也须要更高性能的存储产品。
与此同时,大模型会加速存储在各个环节的领悟,提升全体系统的效率。

过往几年,海内培植了很多的算力中央。
而随着大模型的加速狂飙,我们有望看到更多省份开始培植大量存力中央,存力家当将与算力家当一同实现新的迭代升级。