分布式训练(DLC)

分布式训练DLC(Deep Learning Containers)是基于云原生的AI训练平台,为开发者和企业提供灵活、稳定、易用和高性能的机器学习训练环境。它支持多种算法框架,能够处理大规模的分布式深度学习任务,同时也支持自定义算法框架。通过DLC,开发者和企业能享受到更优的训练环境,在降低成本的同时提升训练效率。

产品优势

  • 支持多样算力资源

    基于灵骏智算和通用计算资源,支持云上ECS、ECI、神龙裸金属和灵骏裸金属等多种算力形态,实现异构算力的混合调度。

  • 多样的分布式任务类型

    DLC作为分布式训练系统,您不需要搭建各种集群,可以直接提交Megatron、Deepspeed、Pytorch、Tensorflow、Slurm、Ray、MPI及XGBoost等十多种训练框架的任务。DLC预置了多种官方镜像,支持自定义开发运行环境, 支持控制台、SDK或命令行的提交方式, 为AI训练场景提供一站式服务,也为大型客户提供简单的集成方式。

  • 高稳定

    在大模型训练场景中,通过自研的容错引擎AIMaster、高性能Checkpoint框架EasyCKPT、健康检测SanityCheck以及节点自愈功能,PAI-DLC能够有效解决多种稳定性问题。PAI-DLC具备快速探查、准确感应与快速反馈的能力,有效降低算力损失,提升训练稳定性。

  • 高性能

    通过PAI自主研发的AI训练加速框架,实现统一数据并行、流水并行、算子拆分以及嵌套的并行加速策略。通过并行策略自动探索和多维度显存优化技术,并结合高速网络的拓扑感知调度,以及通信线程池、梯度分组融合、混合精度通信、梯度压缩的分布式通信库的优化,提升分布式训练效率。尤其在大模型分预训练、持续训练和Alignment的分布式训练场景下,为您提供较优的训练引擎。

资源形态

通过分布式训练(DLC)提交训练任务时,根据使用场景和所需的算力类型,PAI提供了以下两种资源形态:

  • 灵骏智算:专为大模型训练设计,适用于需要大量计算资源的深度学习任务。是面向超大规模深度学习和融合智算,基于软硬件一体优化技术。构建高性能异构算力底座,提供全流程AI工程化能力,具备高性能、高效率、高利用率等核心优势,以满足在大模型训练、自动驾驶、基础科研以及金融等领域的广泛需求。

  • 通用计算:适用于常规训练需求,能够灵活地支持多种规模和类型的机器学习任务。

灵骏智算和通用计算资源支持以下几种使用方式:

  • 资源配额:您可以通过包年包月的方式提前购买灵骏智算或通用计算资源,用于AI开发和训练,从而实现资源的灵活管理和高效利用。

  • 公共资源:无需提前购买资源,您可以在提交训练任务时,按需使用灵骏智算或通用计算资源,并通过按量付费的方式进行结算。

  • 竞价资源:灵骏智算提供竞价资源,助力您以较低成本获取所需的AI算力,从而降低任务运行所需的资源成本。

应用场景

  • 数据预处理

    支持您自定义运行环境,可以对数据进行离线并行预处理,从而大幅降低数据预处理工程的难度。

  • 大规模分布式训练

    支持使用多种开源深度学习框架进行离线大规模分布式深度训练。DLC支持上千个节点同时训练,显著缩短训练时间。

  • 离线推理

    通过DLC可以离线对模型进行离线推理,有效增加闲时GPU机器使用率,大大降低资源浪费。

自动机器学习(AutoML)

自动机器学习(后简称AutoML)是阿里云人工智能平台 PAI提供的服务,它能按照策略帮助您完成最优超参组合搜索,从而大幅提升模型调优效率。

基础概念

  • 超参数:Hyper Parameter,简称超参,是训练机器学习模型时用到的外部配置参数,在模型训练开始前设置。超参数不同于模型内部参数,模型内部参数在学习过程中被不断地更新和优化,超参数在学习过程开始前就设置,在模型训练过程中保持不变。

  • 超参调优:Hyper Parameter Optimization简称HPO,是指手动或者自动进行超参数调优,而本文中特指是AutoML提供的对模型参数、训练参数等进行自动搜索调优的服务。它能帮您获取较优参数,提升模型效果,节省算法工程师调参的时间,让算法开发人员聚焦在建模和业务上。

  • 搜索空间:定义了超参组合的范围,AutoML会在此范围内,搜索最佳的超参组合。

  • 实验:在PAI的AutoML服务里,一个实验的目的是在搜索空间里,寻找模型的最佳超参组合。

  • Trial:在PAI的AutoML服务里,每一个trial会用一组特定的超参数值组合生成和评估模型。一个实验通过调度运行多个trial,并比较这些trial的结果,达到找到最佳超参组合的目标。更多说明请参见AutoML工作原理

  • 任务类型Trial使用哪种资源和环境进行训练,当前可以支持使用DLC的计算资源与MaxCompute计算资源。

背景信息

在机器学习模型中,超参数是用来控制模型训练的外部参数,需要在学习过程开始前设置,在模型训练过程中保持不变。

可以把一个模型的n个超参理解成一个n维向量。在模型训练的实践中,需要从这个模型的所有超参向量值域里,找到一个特定的向量值,使得该模型在给定的数据集上获得最佳效果(比如最小化损失函数loss function的结果)。寻找这个最优超参向量值的过程称为超参调优。

例如,模型有2个超参A和B,A可能的取值有(a,b,c),B可能的取值有(d,e)。超参调优过程就是从A和B值的6种排列组合里选出一种,使得模型训练有最佳效果。为了选出最优组合,最简单的方法是在同一训练数据集上测试所有组合,并比较其在测试数据集上的效果,选出最优组合。

AutoML HPO介绍

受模型超参数量、每个超参的数据类型和值域范围影响,超参调优问题很容易达到很高的复杂度。比如模型有多个超参,有些超参是整型,有些是浮点型,此时超参调优无法通过手工来完成,通过暴力搜索需要消耗非常大的计算资源,这需要引入自动化的系统来完成这项工作。AutoML服务中的HPO功能,正是帮助用户实现自动超参调优的目标。

AutoML HPO是AutoML提供的对模型参数、训练超参数(opt、lr)等进行自动搜索调优的服务,为您提供了易用、有效、准确的自动超参调优服务:

  • 简化调优工作:通过自动化工具大幅简化算法工程师调参工作,节省算法工程师的调参时间。

  • 训练更优模型:集成了PAI的多种算法,能够有效查找到最优组合以及对应的模型,帮助您训练出精度更高、效率更高的模型。

  • 节省计算资源:超参调优工具会通过持续的评估,决定是否有必要使用下一组超参组合。这个机制下,可能不需要评估所有组合就已经得到了最优解,能帮助您节省计算资源的使用量。

  • 方便应用算力:与DLC、MaxCompute计算资源无缝衔接,方便您灵活配置并使用澎湃算力。

AutoML HPO应用场景

机器学习训练过程中,需要进行模型参数调优的,都可以使用AutoML HPO,来获得更好模型。常见的应用场景如下:

  • 机器学习二分类任务,例如判断用户是否是付费用户。

  • 机器学习回归类任务,例如判断用户7日预计付费金额。

  • 机器学习聚类任务,例如确定某化妆品牌在某城市划分几个买卖点。

  • 推荐场景:排序召回模型调优,提升AUC等指标。

  • 深度学习:提升图像多分类/视频多分类等任务的精度。

大模型应用开发LangStudio概述

大模型应用开发(LangStudio)是依托PAI产品和阿里云其他云产品能力构建的面向企业级用户的大模型应用开发平台。该平台采用直观的交互式开发环境,简化了企业级大模型应用的开发流程,同时提供了灵活的可编程能力、实时调试能力与链路追踪的能力,让您在构建大模型应用时可对整体性能进行评估与优化。通过一键部署到PAI-EAS,您可以将开发好的大模型应用部署至生产环境提供API服务。

产品功能架构

  • 应用流构建:LangStudio以应用流的方式来支持大模型应用的开发,您可以通过添加和编辑不同类型的节点,将输入输出进行串联,构造符合业务需求的大模型应用。

    • 应用流编辑器:通过串联LLM和Python工具等节点,编排大语言模型应用流。

    • 应用流模板:提供常见的场景模板,例如知识库问答、NL2SQL以及工具调用等。

    • 连接配置:通过创建和配置连接,与数据库、API、大模型服务进行关联,创建后可在应用流内引用已定义的连接,支持在不同的工作流和项目中重复使用这些连接,简化集成流程。

    • 知识库构建:通过Designer模板完成数据处理和向量知识库构建。

  • 性能调优:可视化的应用流运行和链路跟踪,方便您诊断分析和调试。

    • 在线运行:支持通过对话窗口与应用流线上进行输入交互,实时测试应用流效果。

    • 调用链分析:测试结果提供可视化调用链分析(Trace),帮助您了解链路中不同Span的表现,方便调试。

  • 服务部署:

    • 一键部署PAI-EAS:在构建和测试应用流之后,可一站式将应用流部署至PAI-EAS。

    • 在线观测/调用链分析:部署后可在线上环境观测调用所产生的链路追踪。

产品优势

  • 降低LLM应用开发门槛:

    提供多种常用的应用流模板,帮助您快速构建端到端的LLM应用。平台隐藏了不必要的复杂性,您无需深入底层配置,可以将更多精力专注于LLM应用功能的构建。

  • 开发调优自主可控:

    支持白盒化的应用流编排和代码开发,您可以对模型的行为和工具的调用拥有全面理解和掌控,提升问题的定位与解决效率。通过简易的管理系统与直观的可视化界面,可以针对特定的业务需求轻松调整应用各环节逻辑,优化LLM应用程序性能,快速比较并选择最优方案。

  • 无缝构建企业级应用:

    支持从初步概念验证(POC)到生产环境的无缝衔接,不仅适用于POC阶段,还能够支持企业级应用的部署与长期运营。平台适合不同规模的企业,能够一站式将应用流部署至PAI-EAS,实现高效运营。其中企业级应用具有以下特点:

    • 使用专属资源进行调试和部署。

    • 业务数据、模型服务和大模型应用整条链路都可以在您的VPC内完成,实现最大程度的数据安全和网络隔离。

    • 提供精细化的角色管理和权限管理。

  • 与PAI的AI能力和工具链无缝串联:

    • 使用Model Gallery中的基模或微调的模型。

    • 使用Designer进行离线知识库的构建和更新。

    • 基于PAI-DSW运行时,提供更好的代码体验。

    • 使用PAI-DLC进行批量运行和评测。

    • 使用PAI-EAS进行应用部署和服务管控。

适用场景

企业级RAG应用

结合训练好的LLM大模型与企业私有业务领域数据的知识库,提升大模型的问答能力和专业性:

  • 动态知识更新:定期或实时更新企业私有数据,确保大模型能够利用最新的数据进行问答,提升答案的时效性和准确性。

  • 安全与隐私保障:确保企业数据在模型训练和推理过程中的安全性,严格遵循数据隐私法规和内部审计要求。

NL2SQL智能BI助手

通过自然语言到SQL的转换,将您的相关业务需求转化为具体的数据查询,增强数据分析能力:

  • 智能查询生成:您可通过自然语言描述需求,系统将自动生成SQL查询,降低技术门槛。

  • 自动化报表生成:根据查询结果,自动生成可视化报表,便于决策层快速了解业务情况。

  • 数据洞察与建议:基于历史数据分析,提供智能洞察和操作建议,帮助您发现潜在的业务机会。

多模态Chat Agent

结合文本、语音、图像等多种输入形式,提供更为丰富和智能化的交互体验。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐