华为智算方案和产品介绍

目录

华为智算方案和产品介绍

一、算力方案和昇腾计算产品介绍

二、网络方案和产品介绍

三、存储方案和产品介绍

四、华为天成解决方案介绍

五、数据中心概念


一、算力方案和昇腾计算产品介绍

(1) 单机多卡

训练的原理:

①指定主机节点

②主机节点划分数据,一个batch数据平均分到每个机器上

③模型从主机拷贝到各个机器

④每个机器进行前向传播

⑤每个机器计算loss损失

⑥主机收集所有loss结果,进行参数更新

⑦将更新后参数模型拷贝给各个机器

(2) Parameter Server架构

Parameter Server架构(PS架构,参数服务器架构)是深度学习最常采用的分布式训练架构

在PS架构中,集群的节点被分为两类:parameter serverworker。worker就是指下面的client,负责计算。server是负责统一所有的client它们的参数server间是联通

在每个迭代过程,worker从parameter server中获得参数,然后将计算的梯度返回给parameter server,parameter server聚合从worker传回的梯度,然后更新参数,并将新的参数广播给worker

(3) AI集群

分布式集群是由多个计算机节点组成的计算系统,节点与节点之间通过网络进行通信和协作,因其具有高性能和可扩展性等优点,因此被广泛应用于大规模计算和存储等场景,AI分布式计算则是利用分布式集群来完成深度学习网络的训练和推理等任务

总结

目前大模型时代,算力服务器Parameter Server,多机多卡交互

华为昇腾算力设备,例如800,卡间带宽设置高,方便通信

二、网络方案和产品介绍

(1) AI集群网络的需求和挑战

(2) 大模型训练对网络的最核心需求-缩短通信时间,降低通信开销

大模型训练系统通信优化路径:

提升有效带宽

减少主机内数据拷贝以及协议栈处理时延

减少通信数据量(端侧AI框架优化)

④降低交换机转发时延,不能带来明显效果提升

(3) 0丢包:RDMA网络无损是AI大模型训练的基础要求

丢包对网络性能影响巨大:千分之一的丢包率会导致网络性能下降50%

RDMA,全称远端内存直接访问技术,可以在极少占用CPU的情况下,把数据从一台服务器传输到另一台服务器,或从存储到服务器

RDMA是一种高带宽、低延迟、低CPU消耗的网络互联技术,克服了传统TCP/IP网络的许多困难

RDMA技术有四种实现:InfiniBandRoCEv1RoCEv2iWARP。其中,RoCEv1已被弃用,iWARP不常用。目前业界常用的网络解决方案是InfiniBand(协议封闭、生态固化)和RoCEv2

(4) RoCE:PFC、ECN实现网络无损

RoCE协议是一种能在以太网上进行RDMA(远程内存直接访问)的集群网络通信协议。它将收/发包的工作卸载(offload)到了网卡上,不需要像TCP/IP协议一样使系统进入内核态,减少了拷贝、封包解包等等的开销。这样大大降低了以太网通信的延迟,减少了通讯时对CPU资源的占用,缓解了网络中的拥塞,让带宽得到更有效的利用

(5) 智算中心网络四个平面介绍

参数面:用于智能集群分布式训练时参数交换,要求网络具备高吞吐低时延的能力。部署高带宽的智能无损网络,收敛比1:1

样本面:主要用于访问存储区的高速大带宽互联的存储系统,推荐部署为RoCE无损网络,收敛比1:1

业务面:用于系统业务调度和管理

带外管理面:计算、存储、网络的带外管理,部署运维平台等

(6) 大模型网络解决方案

AI计算集群区的物理网络区分平面进行设计:

参数面网络:采用双层的Leaf-Spine组网,通过大带宽接口接入到Leaf交换机,实现多机分布式训练时的参数交换

样本面网络:用于AI集群频繁访问海量样本场景,用于访问存储区的高速大带宽互联的存储系统

业务/带内管理面网络:通常部署为TCP/IP有损网络

带外管理面网络:每个AI服务器或存储服务器提供1个GE网口接入到GE交换机,接入到管理区网络

总结

0丢包,大带宽,高吞吐

ROCE以太网的RDMA通信协议,避免TCP拆包处理,增加网络通信效果

华为智能无损网络,避免丢包和网络降速

ROCE协议部署位置,参数面,样本面,关系到大模型训练和推理的关键步骤

三、存储方案和产品介绍

(1) AI大模型时代的数据存储新范式

(2) 块存储

数据块存储是将获取任何数据(结构化数据为主,如文件或数据库条目)分成大小相等的数据块,然后,数据块存储系统以针对快速访问和检索而优化的方式将数据块存储在底层物理存储上

优势:

①块存储查找速度快:块存储使用唯一的标识符,而不是使用元数据或文件层次结构来搜索数据

②可以通过多种途径找到数据:由于唯一的标识符是检索所需的全部内容,因此块存储允许以多种方式找到数据

缺点:

①块存储较为昂贵:部分原因是它经过优化,具有快速性能

②块存储的元数据是有限的:块存储只包括基本文件属性作为元数据

(3) 文件存储

是一种分层存储方法,用于在计算机硬盘驱动器或网络连接存储(NAS)设备上组织和存储数据。它将数据存储到文件中,将文件组织到文件夹中,并将文件夹组织到目录和子目录层次结构中。要找到某个文件,您或计算机系统需要指定路径,从目录到子目录到文件夹最后找到文件

文件存储的优点:简单、文件共享、经济实惠、数据保护

分层文件存储可以轻松组织大量结构化数据。但是,随着文件数量的增加,文件检索过程可能变得繁琐而耗时。扩容需要添加更多的硬件设备,或者不断地使用更高容量的设备来替换现有设备,这两种方式的成本都很高

(4) 对象存储

是一种扁平结构,其中的文件(以非结构化数据为主,包括日志、视频和照片内容、传感器数据和网页等)被拆分成多个部分并散布在多个硬件间。在对象存储中,数据会被分解为称为“对象”的离散单元,并保存在单个存储库中,而不是作为文件夹中的文件或服务器上的块来保存

对象存储卷作为模块化单元来工作:每个卷都是一个自包含式存储库,均含有数据,允许在分布式系统上找到对象的唯一标识符以及描述数据的元数据

对象存储特性:可扩展、可搜索、不复杂、有弹性、成本低

对象存储的性能可能比较慢,特别是数据检索

(5) 向量存储

向量数据是指用向量来表示的数据,其中每个向包含有序的数字数值特征,例如机器学习中的特征向量,每个特征在向量中的位置表示该特征的要性、大小或值

向量数据库是以数学形式存储的数据集合,向量数据库使机器学习模型更容易记住以前的输入,从而使机器学习能够用于支持搜索、推荐和生成文本等使用案例。可以根据相似性指标而不是精确匹配来识别数据,从而使计算机模型能够理解数据的上下文

(6) 大模型开发应用面临四大挑战,高性能AI存储称为必选项

(7) 存储数据安全

总结

块存储

文件存储

对象存储

向量存储:大模型使用向量存储,检索快,可以使用不同向量进行相似度比较

四、华为天成解决方案介绍

(1) 天成解决方案架构图

天成集群解决方案是面向新型数据中心场景的综合性解决方案,以有效算力为核心,从可持续运营角度出发,以云为底座自上而下构筑全栈解决方案竞争力,率先实现解决方案产品化,实现从L0到L4的完整数据中心级方案交付

五、数据中心概念

(1) 数据中心

现代数据中心主要包括以下核心组件:

计算系统,包括用于部署业务的通用计算模块和提供超强算力的高性能计算模块等

存储系统,包括海量存储模块、数据管理引擎、存储专用网络等

能源系统,包括供电模块、温控模块、IT管理模块等

数据中心网络,负责联接数据中心内部通用计算、高性能计算和存储模块,它们之间的所有数据交互都要通过数据中心网络实现

(2) 绿色数据中心

绿色数据中心是指数据机房中的IT系统、制冷、照明和电气等能取得最大化的能源效率最小化的环境影响

为了衡量数据中心的效率,可以主要参考以下两个指标:

PUE:用于衡量数据中心的功耗,并提供数据中心使用的电量传输给设备的电量之比。因此,比率为1.0表示可持续的数据中心,所有的电力都交付给IT设备

碳使用效率(CUE):着眼于中心的总二氧化碳排放量的比例,并将其除以IT设备的能耗。绿色数据中心将呈现尽可能低的比值

总结

PUE=总设备能耗/IT设备能耗

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐