人工智能算力中央项目,按项目阶段紧张分为投资、培植、运营三部分,按做事内容分为通算平台、智算平台、超算平台。
本文重点先容智算平台的人工智能开拓平台业务架构图,其他内容请参考本号其他章节。

标准的智算中央,须要能够为用户供应模型演习推理一站式做事,包括数据做事、模型演习、模型仓库、模型评估、模型推理、运维管理、运营管理等做事模块。

智算平台业务架构图

一、数据集管理

支持创建数据集,列表展示,支持数据集的上传、下载、发布、删除和修正;支持图片、文本、表格等多种数据类型。
支持上传测试数据集、模型数据,支持挂载多种数据源,包括NAS存储、工具存储、分布式存储等。

培植智算中央人工智能开拓平台营业架构图

二、数据标注

1、支持新建标注任务,对多种数据类型进行标注,包括图片、文本、视频等,标注类型分为图像分类、物体检测、图像分隔等,标注格式支持json、xml、文件夹命名平分歧格式。

2、支持对标注团队进行管理,分配标注任务,实现多人协同标注。

3、支持自动标注功能,平台内置标注插件。

4、支持数据洗濯,供应的数据洗濯功能对图像数据集和文本数据集进行洗濯。
可以对数据集中的图片进行去模糊、去近似、批量旋转、批量镜像等多种根本洗濯做事,以及过滤无人脸图片、过滤无人体图片等高等洗濯做事。
同时对文本数据进行去emoji,去url和繁体转简体的操作。
完成数据洗濯后,可提升数据质量,方便进行下一步的数据标注等操作。

5、支持数据增强,可以通过数据增强策略,对数据本身进行一定程度的扰动和扩充,从而产生"新"数据,例如改变图片形状、颜色、反转图片等,在演习时会通过学习大量的"新"数据,提高模型的泛化能力

三、模型演习1、预置模型调参

预置模型调参,即在平台已经适配的模型根本上进行进一步的参数优化,基于模型创建演习任务。
选择选择数据集、验证集、测试集,选择模型、选择模型演习框架(PyTorch、TensorFlow等)、设置超参、环境变量、CPU/GPU环境资源等,实行演习任务。
支持查看演习进度、运行详情,并通过Tensorboad、visualDL等可视化工具展示各项演习数据指标。

2、算法开拓

算法开拓,即平台为开拓者供应模型开拓环境,可以可以自主下载模型进行演习。
支持创建Notebook环境,创建时选择开拓措辞(Python3.7)、AI框架(PaddlePaddle、Pytorch、tensorflow、sklearn)、AI算力资源、cuda版本等。

支持启动Notebook打开在线IDE环境,集成Jupyter Lab/PyCharm/VScode/BML CodeLab等工具,帮助用户完成对底层操作系统层面的目录管理、数据集管理、代码管理(代码库管理/代码开拓/代码版本管理)、模型管理(模型下载/模型开拓/模型版本)、环境监控等事情。

支持Notebook的启动、停滞、编辑、删除、SSH访问等操作,配置模型参数、发布并导出模型。

3、可视化建模

可视化建模基于无代码的办法,在交互式画布上直不雅观连接数据处理、特色工程、算法预测与评估等组件,通过拖沓拽办法,进而完成模型的开拓。

四、模型仓库

支持模型导入,模型版本管理,支持模型下载、删除。
支持将模型演习任务转换为模型文件,系统内置常用开源模型。
包括:

五、模型评估

支持对演习模型进行质量验证,支持选择对应模型、版本、数据、AI算力创建评估任务,支持查看评估报告,包括验证结果,支持查看基本结论、准确率、F1-score、精确率、召回率。

六、模型推理

支持在线做事的支配,支持公有云支配、纯离线支配、端云协同等支配办法,支持做事的停滞/启动、预测、编辑、扩容和删除。
支持为推理模型创建接入运用,以便用户可通过api访问利用。
支持多种推理引擎TensorRT、ONNX。

公有云支配:在线做事,即将模型仓库中的模型支配在BML供应的云端机器资源中,您可以通过访问在线API实时获取模型预测结果。
您可以结合实际业务需求灵巧地配置所需机器资源,并可以随时操作做事启停和扩缩容。

端云协同做事:本地+云端联合支配的模式,BML端云协同做事由EasyEdge端与边缘AI做事平台供应、基于百度智能边缘构建,能够便捷地将BML定制模型的推理能力拓展至运用现场,供应临时离线、低延时的打算做事。

离线支配办法:将演习完成的模型支配在本地,离线网络环境下调用模型。
可选择将模型支配在本地的做事器、小型设备上,通过API、SDK进一步继续,灵巧适应不同业务场景

七、平台运营

支持租户管理、权限掌握、配额管理、开源与企业自由模型托管、集群管理、资源任务统计等。
付费类型支持包年包月或按需付费,支持设置自动续约,

八、平台运维

1、支持针对GPU资源的调度策略。
支持任务亲和性策略,不同容器的vGPU资源来自相同的物理GPU设备。

2、支持设置资源优先级。
资源不敷时,启动高优先级的任务能够抢占正在运行的低优先级任务的资源。

3、支持集群管理,资源总览、资源告警、节点核心利用率、集群利用率、GPU基本监控、性能指标监控、集群Node监控,故障感知、任务分配和调度、历史数据剖析、行列步队管理,行列步队列表,搜索,同步,选择租户,资源,实行日志

4、资源超分,支持算力、显存双维度资源超分,能够支持单个物理GPU能够分配超过物理资源上限的资源量给业务运用

此为系列文章,详细描述智算平台投资、培植、运营干系的方案设计、架构事理等,此关注本号其他章节。

《投资智算中央—“投-建-运”一体化做事》《培植智算中央-三大运营模式篇》《培植智算中央-改进运营做事模式,提高算力利用率》《培植智算中央-用户群体与业务场景剖析》《培植智算中央-Flops算力与大模型参数、GPU卡型号间关系》《培植智算中央-需知足企业等保合规哀求》《培植智算中央-知足天生式人工智能做事安全基本哀求》《培植智算中央-需获取的干系认证》《培植智算中央-通算、智算、超算业务架构》《培植智算中央-多元算力中央组网拓扑图》《培植智算中央-通算平台整体功能架构(1)》《培植智算中央-通算平台整体功能架构(2)》《培植智算中央-通算平台标准组网模式》《培植智算中央-通算平台打算架构事理》《培植智算中央-通算平台存储架构事理》《培植智算中央-通算平台网络架构事理》《培植智算中央-通算平台三级等保培植方案》《培植智算中央-通算平台双活/灾备/迁移机制》《培植智算中央-人工智能开拓平台业务架构图》