阿里云人工智能平台PAI介绍(二)
产品架构基本概念管理员视角AI开发视角PAI产品模块
产品架构

-
基础资源层(计算资源&基础设施):
-
基础设施包括CPU、GPU、高速RDMA网络以及容器服务ACK等。
-
计算资源包括云原生资源(灵骏计算资源和通用计算资源)和大数据引擎资源(MaxCompute和Flink)。
-
-
平台工具层(灵骏智算服务&人工智能框架):
-
人工智能框架:包括Alink、TensorFlow、PyTorch、Megatron、DeepSpeed及RLHF等智能框架,用于执行分布式计算任务。
-
优化与加速框架:包括DatasetAcc数据集加速、TorchAcc训练加速、EPL并行训练框架、Blade推理加速、AIMaster自动容错训练以及EasyCkpt秒级异步训练快照等。
-
按照机器学习全流程,PAI分别提供了数据准备、模型开发与训练以及模型部署阶段的产品:
-
数据准备:PAI提供了标注服务,支持在多种场景下进行数据标注和数据集管理。
-
模型开发与训练:PAI提供了可视化建模(Designer)、交互式建模(DSW)、分布式训练(DLC)以及特征平台(FeatureStore),满足不同的建模需求。
-
模型部署:PAI提供了模型在线服务(EAS),帮助您快速地将模型部署为服务。
-
-
-
应用层(模型服务):支持模型服务包括ModelScope魔搭社区、PAI-DashScope、第三方MaaS平台和百炼。
-
业务层(场景化解决方案):PAI应用于自动驾驶、科研智算、金融风控、智能推荐等各个领域。阿里巴巴集团内部的搜索系统、推荐系统及金融服务系统等,均依赖于PAI进行数据挖掘。
基本概念
管理员视角
|
名词 |
描述 |
|
工作空间(WorkSpace) |
工作空间是PAI的顶层概念,为企业和团队提供统一的计算资源管理及人员权限管理能力,为AI开发者提供支持团队协作的全流程开发工具及AI资产管理能力。PAI工作空间和DataWorks工作空间在概念和实现上互通,例如在PAI创建的工作空间也会出现在DataWorks工作空间列表中。 默认工作空间:默认关联常用的按量付费资源(需要同意开通),使新用户在初始情况下无需了解资源组等概念,即可快速开始开发和训练流程。 |
|
云原生基础AI平台DLC(Deep Learning Containers) |
PAI提供的云原生基础AI平台,提供灵活、稳定、易用和高性能的机器学习训练环境。该平台支持多种算法框架、超大规模分布式深度学习任务运行及自定义算法框架。此外,该平台支持以下两种工作集群:
|
|
资源组(Resource Group) |
|
|
成员(Member) |
加入工作空间的阿里云账号和RAM用户被称为工作空间成员。在AI研发流程中,同一工作空间下的成员以不同的角色协作。工作空间的负责人和管理员可以编辑工作空间内的成员。 |
|
角色(Role) |
成员和不同权限集合之间的映射,基础角色由系统定义,更多角色您可以自行定义。系统支持以下基础角色:
|
|
云产品依赖(Dependencies) |
要充分使用PAI的所有功能,需要依赖阿里云的其他产品。通常需要阿里云账号或资源管理员预先开通并对RAM进行授权。这些产品包括OSS、NAS、SLS、ACR、API网关等。 |
AI开发视角
|
名词 |
描述 |
|
数据集(DataSet) |
用于标注、训练、分析等的数据集合,支持您将存储在OSS、NAS、MaxCompute等存储介质中的结构化、非结构化数据或目录注册为数据集。同时,PAI支持统一管理数据集的存储、版本、数据结构等信息。 |
|
工作流(Pipeline) |
您构建DAG(有向无环图)用来实现组件之间上下游逻辑调度的对象,这是一个静态概念。构建完成后,PAI支持对其进行重复提交运行,生成PipelineRun。 |
|
工作流草稿(PipelineDraft) |
您在Designer画布上操作的编辑状态的工作流对象,支持重复编辑以生成不同的Pipeline。PipelineDraft提交运行后会生成PipelineRun。 |
|
组件(Component) |
您在PAI工作流和工作流草稿中编辑以及工作流任务执行的最小单元。组件可以来源于:
|
|
节点(Node) |
被拖到画布上的一个组件,形成工作流中的一个节点。 |
|
工作流快照(SnapShot) |
每次运行PipelineDraft(包括完整运行、单节点运行、部分节点运行),都会记录完整PipelineDraft的配置信息,包括节点配置、运行参数、执行方式等,这些信息可以用于PipelineDraft的版本记录及配置回滚。 |
|
工作流任务(PipelineRun) |
一次工作流的任务执行。您可以通过Designer提交PipelineDraft运行,或通过SDK直接提交Pipeline运行,生成一个PipelineRun。 |
|
作业(Job) |
运行在计算资源中的任务,例如用户提交至分布式训练DLC(Deep Learning Containers)的训练任务。任务运行的资源环境归属用户。 |
|
运行(Run) |
一个Run指一次任务执行,兼容MLFlow中的概念,必须归属于某一个Experiment。您可以使用Run跟踪PAI上提交的训练任务,也可以在本地使用MLflow Client直接创建一次任务。一个Run中可包含多个Job。 |
|
模型(Model) |
模型是您基于数据集和算法代码通过训练任务产出的结果,可以预测新数据。 |
|
Processor |
在线预测逻辑(模型加载和请求预测逻辑)的程序包,通常与模型文件一起部署,从而获得模型服务。PAI支持以下两类Processor:
|
|
模型服务(Service) |
模型文件和在线预测逻辑代码部署成的常驻服务。您可以对模型服务进行创建、更新、停止、启动、扩容及缩容操作。 |
|
镜像(Image) |
PAI支持您将Docker镜像作为AI资产进行管理,支持以下镜像来源:
镜像可以用于工作流中构建自定义组件完成指定的任务,在DSW中作为环境拉起DSW实例,也可以在提交训练任务时被指定为执行环境。 |
|
实例(Instance) |
计算资源被启动的最小单元,包括以下实例:
|
PAI产品模块
|
名词 |
描述 |
|
智能标注(iTAG) |
集成智能能力(黑盒)的数据集标注工具,有效降低标注工作量,快速获取高质量的标注数据集。 |
|
可视化建模(Designer) |
面向AI领域的工作流设计工具,封装了丰富的机器学习算法组件。您无需代码基础,通过拖拉拽即可训练模型。 |
|
交互式建模(DSW) |
面向AI开发者的云端机器学习交互式开发IDE,包含Notebook、VSCode及Terminal。您可以基于镜像指定NAS作为存储启动DSW。 |
|
容器训练(DLC) |
将训练任务提交到当前工作空间关联的计算资源(例如通用计算资源)中,提交后的任务详情可以在PAI任务管理模块中查看。 |
|
模型在线服务(EAS) |
支持大规模复杂模型的一键部署功能,实时弹性扩缩容,并提供完整的运维监控体系。 |
|
AI资产管理 |
提供包括数据集、模型、代码配置等核心AI资产的管理能力。 |
|
场景化解决方案 |
基于PAI平台能力孵化的垂直领域解决方案集合,方便您直接应用。 |
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)