作者:泽南

「通过系统优化软件的帮助,开拓的门槛会被降落,各种不同硬件会得到统一,让技能生态得到发展。
这对付当前智能生态的进步有主要的意义,」中国工程院院士、中科院打算所学术委员会主任、CCF 理事长孙凝晖在发布会上致辞表示。
「除了智能芯片、AI 行业运用以外,我们须要系统软件优化的一方参与进来共同努力,这样才能把海内生态做得更好。

孙凝晖院士在发布会上

面对算力「卡脖子」问题,我们终于迎来了系统级的办理方案。

打破生态孤岛国产异构原生AI算力对象问世来自中科加禾

7 月 20 日,AI 根本举动步伐创业公司中科加禾正式发布了第一代异构原生 AI 算力工具。

面向当前国产算力大规模落地的趋势,中科加禾提出的方法可以让不同种类的芯片大规模并行,同时发挥最大效率,并让算力的利用者无需关注不同芯片生态,做到直接拿来就用。

中科加禾创始人兼 CEO 崔慧敏发布并先容,「加禾异构原生 AI 算力工具」已经在国产算力的 AI 根本举动步伐上发挥一定浸染。
它兼容多种国产 AI 芯片,为屏蔽芯片差异供应了高性能的统一接口。
在异构原平生台的根本上,AI 算力集群在大模型推理上的时延可以降落 3-74 倍,吞吐率提升 1.4-2.1 倍,能效比提升 1.46 倍,可支持 340B 参数量的稠密大模型,以及 640B 的 MoE 大模型。

与此同时,中科加禾已实现对超过 10 家包括芯片、集成商、做事商等客户供应高性能推理支持,其架构支持国内外主流大模型,并可以进行多样化并行推理。

发布会现场宣告签约及达成互助的算力供应、运用方伙伴包括:AMD、宝德、华为、杭州人工智能打算中央、开放真切、摩尔线程、青云科技、Rise VAST、燧原科技、无问芯穹、云西算力、新华三等(按拼音首字母顺序排序)。

中科加禾创始人、CEO 崔慧敏在发布会上

异构原生 AI 算力,目标实现「三零一高」

中科加禾提出的方案,目标是让 AI 大模型运用在不同芯片上实现零本钱迁移,零损耗利用,零延迟支配的高效利用。

这套软件工具包含异构原生大模型推理引擎「SigInfer」、异构原生微调引擎「SigFT」以及算子自动天生、转译工具「SigTrans」三款产品。

个中,昨天发布的 SigInfer 是一款跨平台、高性能的异构原生推理引擎,不但支持做事器级的 AI 加速卡,还支持消费级 GPU。
因此,它既可以支配于数据中央,也可以为各种端侧设备实现加速。

作为异构打算的技能底座,通过 SigInfer 接入的不同 AI 算力,可以做到调用接口统一,平滑迁移业务运用。
SigInfer 会在调用多种不同算力的同时进行多层次深度优化,充分挖掘芯片算力的潜能。

它具备当代大模型推理引擎所具备的各种特色,如支持 API Serving、要求调度、Batch 管理、KV Cache 优化、张量并行、流水线并行、专家并行、乃至多机流水并行等能力。

中科加禾表示,SigInfer 已经支持了业界大部分的大模型构造。

目前,SigInfer 已经可以实现完备的推理引擎能力。
其支持的异构加速卡集群可以灵巧调度英伟达 AI 加速卡 + 国产 AI 加速卡进行稠浊推理,最高可扩展至万亿级的大模型。

利用 SigInfer 帮助 AI 芯片支配可以在业务访问需求提升时,让大模型做事保持较高的吞吐率和较低的时延,对付天生式 AI 的大规模运用来说,这些指标至关主要。

在同样利用英伟达显卡的情形下,我们可以看到 SigInfer 能供应较明显的加速效果:

再进一步,利用国产芯片完成同类任务时,SigInfer 可以同样提升并行打算时 AI 加速卡的吞吐率,同时大幅降落输出 Token 的延迟。

异构原生 AI 算力工具可以根据大模型任务处理的不同阶段、算子特色、优化目标自适应优化等办法调度 AI 加速器的打算频率,从而实现高效率。
中科加禾给我们算了一笔账,数据中央运营的过程中,利用 A800 加 SigInfer,比较 vllm 能效比可以提升 46%。

除了对云根本举动步伐履行优化以外,中科加禾还展示了对付端侧推理的性能优化。
SigInfer 可以加速基于英特尔、高通、AMD 等大厂的芯片设备,比较业界主流支配方案,SigInfer 在端侧推理的效率最高可以提升 5 倍。

在异构打算和效率提升的背后,是一系列前沿技能和工程的运用与优化。

为了提升并行打算的效率,中科加禾引入了一系列优化。
例如深入解码阶段的访存优化,让 KV Cache 可以得到寄存器级别的复用,比较从 L2 加载,延迟和带宽都得到了优化。

同时,为了缓解并行度的减少,中科加禾的研究职员在数据的 sequence 维度上也进行了并行划分。
结合 KV Cache 的复用优化,既节约了访存,又增加了并行度,让全体把稳力机制的核心打算提高了实行效率。

中科加禾也探索了异构算力的高性能算子天生方法。
通过与算力厂商互助,中科加禾把 cutlass 迁移到了国产芯片架构上,大幅提升了矩阵乘法的运行效率。
在这个中,该公司通过结合编译技能的优化实现了超过 20% 的性能提升。

在一系列技能的加持下,加禾异构原生 AI 算力工具实现了卓越的能效优化。

从编译技能出发:中科加禾的技能路线

与以往一些 AI 算力根本举动步伐公司供应的能力不同,中科加禾供应的异构打算与加速,是环绕编译技能展开的。

对付打算机而言,编译层所做的事情是「翻译」,它卖力把人类编写的高等编程措辞内容转化成机器理解并能实行的措辞。

在这个过程中,编译还须要进行优化,即提高天生出来的机器代码的运行效率。
对付芯片性能而言,编译发挥浸染的范围很大,但时常被人忽略。

在目前业内最盛行的英伟达芯片上,CUDA 打算平台发挥了主要浸染。
它包含编程措辞、编译器、各种高性能加速库及 AI 框架,可以在打算机实行任务时充当分配者的角色,充分利用不同硬件的算力资源,让繁芜的代码模型跑得更快。
可以说如今的 AI 生态,很大程度上便是建立在 CUDA 之上的。

对付国产算力而言,为了实现大规模运用,就须要构建其须要的生态和能力。

在天生式 AI 时期,人们对付算力的需求推动了芯片技能的发展,然而新的寻衅也已显现:

从芯片公司的角度来看,生态也呈现多元碎片化发展,这会带来开拓本钱增加以及落地效率和兼容性等问题。
从行业发展的角度来看,AI 技能正快速发展,其覆盖越来越多的场景,意味着更多种类的算力将会参与个中,这就进一步推动了异构打算的需求。

因此,业界急迫须要一套能够支持多种国产芯片的高效工具链。
如果能够涌现一套通用化、低本钱、高性能的根本软件,并可以帮助生态伙伴快速移植基于英伟达生态开拓的运用程序,就可以充分发挥出国产芯片的潜力,带动技能研发的步伐,从而逐步构建立起 AI 算力生态的正循环。

这便是中科加禾一贯在做的事。

中科加禾供应的根本软件平台层,定位于算子、编译、框架层几个位置,在硬件和软件之间架设了一座桥梁。
其供应的异构原生 AI 算力工具可以帮助用户平稳迁移 AI 模型和芯片架构,这就给 AI 运用带来了极大的便利性。

这些层面的能力都涉及了编译技能。
AI 编译覆盖的范围既包含图层,也包含算子层,相对传统编译器在语义转换上的跨度更大。
例如,AI 编译器一样平常要考虑打算图划分、子图领悟、并行打算、数据分块等。
这些都是较难办理的问题。

在这方面,中科加禾完成了大量研究,如在 Tensor 表达式层级做全局数据流剖析,构建精确的打算图和数据依赖图,进而冲破算子边界进行算子领悟,取得了很好的效果。
在一些网络上,其方法取得了相对付业界前辈水平多达 3.7 倍的加速比。
干系事情成果揭橥在今年的打算机领域顶级会议上。

构建端到真个算力使能办理方案,助力繁荣国产 AI 生态

中科加禾成立于 2023 年 7 月,团队紧张来自于中科院打算所。
创始人崔慧敏毕业于清华大学打算机系,是中科院打算所编译团队卖力人。
该公司的核心团队具备超过 20 年的编译器研发履历,曾作为核心成员主持或参与过多款国产芯片的编译器研发事情。

自成立以来,该公司聚焦于芯片编译与优化技能,致力于供应通用化、低本钱、高性能的算力资源,以「聚芯片之协力,筑国产之生态」为义务。
目前,中科加禾已收成了多轮共计近亿元融资。

中科加禾正在环绕三条路线打造系列产品,包括支持异构算力的 AI 大模型推理引擎、大模型微调框架、以及 AI 编译工具套件。
它们既可以帮助算力利用方快速利用多元化的 AI 算力,也可以帮助算力供应方完善软件生态以及提升竞争力,补齐了国产 AI 算力生态的一块主要拼图。

更主要的是,中科加禾希望能成为一个「沟通」的桥梁,连接数量弘大的算力利用方和算力供应方,使双方能愉快的双向奔赴,从而推动异构原生 AI 算力的大规模运用和国产 AI 生态的发达发展贡献力量。