【课程笔记】华为 HCIE-AI Solution Architect 人工智能08:华为智算中心解决方案
(1) 数据中心基础设施系统介绍(2) 数据中心能效定量评估指标 - PUE(3) 数据中心PUE指标要求(4) 数据中心能效模型(5) PUE不同分级的IT耗电测点位置(1) 云数据中心、智算中心与超算中心数据中心即为所有类型数据中心的总称,为集中放置的电子信息设备提供运行环境的建筑场所,可以是一栋或几栋建筑,也可以是一栋建筑物的一部分 -> 按发展阶段来看,数据中心类别主要包括传统物理数据中心
华为智算中心解决方案
目录
一、数据中心基础设施系统和常用的指标介绍
(1) 数据中心基础设施系统介绍

(2) 数据中心能效定量评估指标 - PUE

(3) 数据中心PUE指标要求

(4) 数据中心能效模型

(5) PUE不同分级的IT耗电测点位置

(6) pPUE/CLF/PLF/RER

二、智算中心配电及制冷方案介绍
(1) 云数据中心、智算中心与超算中心
数据中心即为所有类型数据中心的总称,为集中放置的电子信息设备提供运行环境的建筑场所,可以是一栋或几栋建筑,也可以是一栋建筑物的一部分 -> 按发展阶段来看,数据中心类别主要包括传统物理数据中心、IDC(互联网数据中心)、云数据中心以及智算中心:
①云数据中心是一种基于云计算架构的,计算、存储及网络资源松耦合,完全虚拟化各种IT设备、模块化程度较高、自动化程度较高、具备较高绿色节能程度的新型数据中心
②智算中心是智慧时代最主要的计算力生产中心,它以融合架构计算系统为平台,以数据为资源,能够以强大算力驱动AI模型对数据进行深度加工,源源不断产生各种智慧计算服务。智算中心通过算力基建化,使得AI算力像水、电一样成为城市的公共基础资源,供政府、企业、公众按需使用
③超算中心是指专门用于研发和运行超级计算机的机构或组织。通常拥有大规模的计算资源,包括超级计算机集群、高速网络和存储系统等

(2) 为什么智算中心需要液冷?
随着芯片和单机柜功率密度不断增大,传统散热方式难以满足高密数据中心的需求
液冷是指使用液体取代空气作为冷媒,为发热部件进行换热,带走热量的技术。而液冷服务器是指将液体注入服务器,通过冷热交换带走服务器的热量的一种服务器。一般来说,行业将液冷分为直接冷却和间接冷却。目前直接冷却以浸没式液冷技术为主,又可分为相变和非相变两种。间接冷却以冷板式液冷技术为主
三、数据中心基础设施选址及可用性评估
1. 数据中心基础设施选址及可用性评估流程
(1) 数据中心咨询规划全流程
数据中心从发起到立项,需要经过一连串的分析和研究的过程,这个阶段通常称之为咨询阶段。数据中心的可行性研究也属于这个阶段完成的任务。可行性研究通常是在商业咨询之后,可行性研究通常与站点选址并行,因为选址的结果会直接影响到数据中心的技术方案,相反,技术方案的要求也会影响到选址,所以选址与可行性研究通常是并行交错地进行
(2) 站点选址的思路
站点选址是数据中心规划阶段的关键决策,其结果会直接影响到数据中心运营的业务成功
站点选址是要想选择最佳的备选站点,需要结合经验丰富的选址团队、科学的选址方法和专业的选址工具
(3) 可行性研究的思路
可行性研究是数据中心规划、设计、集成实施等过程的源头,对技术、法规等项目影响因素进行研究、分析确定有利和不利的因素,分析项目必要性、项目是否可行,采用哪种技术方案,以及评估项目经济效益和社会效益,为项目投资者提供决策意见
2. 数据中心基础设施选址报告
(1) 可用性与选址
数据中心不是孤立的,受到当地的自然条件、配套设施的因素影响。所以,要想减少宕机的风险,在选址阶段就要想办法规避外界的风险
影响数据中心可用性的外界因素有多种,具体可以分为自然风险和人为风险
(2) TCO与选址
数据中心的选址与建造成本和运营成本都息息相关。一个成功的数据中心选址,会给业主带来明显的经济效益
选址阶段应该调查税收、人力成本、带宽价格、电价等成本信息,并且估算出备选站点的TCO,作为选址的重要决策依据
TCO包括:
①CAPEX(固定资产):建筑成本、设备成本、安装成本
②OPEX(运营管理支出):电费成本、带宽成本、运维人员成本、税收
3. 数据中心基础设施可行性研究
(1) 可行性研究的原则和内容
①合规性Regulation:符合法律、法规,符合行业规范,符合职业安全要求
②可扩展性Scalability:根据业务需要柔性扩展,水平扩容,垂直扩容......
③经济性Economical:节能,绿色环保,自动运行,集中控制...
④可服务性Serviceable:可控制性,设施监控,IT监控,运营服务...
⑤功能性Functional:空间设计,功能区设置,符合服务流程,灵活组合...
⑥可用性Availability:资源容量,冗余,后备,多路由,7*24*365...
(2) 指定可研计划

四、智算中心存储解决方案
1. 大模型存储痛点分析
(1) AI大模型发展趋势

(2) HPC和AICC都会向AI大模型演进

(3) 面向AI大模型全流程的痛点分析

(4) AI大模型训练阶段TCO Saving的核心是提升GPU利用率

(5) PB级数据搬迁成为痛点

2. 面向AI大模型场景的华为分布式AI存储解决方案
(1) 面向AI大模型场景的华为分布式AI存储解决方案

(2) OceanStor Pacific分布式存储

(3) 多协议融合互通

(4) 多协议互通

(5) 大小I/O自适应数据流

(6) 小I/O归属转发

(7) DPC分布式并行客户端
DPC与存储节点之间使用RDMA通信,有效降低计算及存储节点的CPU资源占用
DPC实现IO级负载均衡,单客户端同时访问多个节点,避免存储节点之间进行业务负载转发
客户端支持MPI-IO,支持单文件在多个存储节点之间并发处理,实现跨节点负载均衡能力

(8) NFS over RDMA

(9) NFS + Multipath

(10) NFS over RDMA + Multipath实现GDS

(11) AICache

(12) 数据自动分级

(13) SmartTier

(14) 多租户设计

(15) 硬件亚健康管理与Fast-fail技术

五、智算中心网络解决方案
1. 大模型网络痛点分析
(1) 分布式AI集群要求高速零丢包的网络
分布式AI计算的迭代过程中,大量突发流量会在几毫秒内将数据分配到工作节点,当传递和更新中间参数时,发送到参数服务器的小规模流量会发生Incast。在这些流交换的过程中,网络可能会出现丢包、拥塞、负载失衡等问题,因此,一些流的FCT(Flow Completion Time,流完成时间)被延长。如果有一些流发生延迟,可能会导致存储和计算资源无法得到充分利用,进而延迟了整个应用程序的完成时间
为满足分布式AI计算的需求,需要构建高速零丢包的数据中心网络
(2) 无损以太网络协议发展
高性能分布式计算和高性能存储RDMA的普及以及融合以太网的应用,使得ECN(Explicit Congestion Notification,显式拥塞通告)技术和PFC(Priority-based Flow Control,基于优先级的流控)技术等无损协议得到广泛应用,由此诞生了无损以太网的概念
无损以太网最早在2008年提出,主要的两个基础协议为ECN和PFC
无损以太网除了涉及网络侧的技术,还涉及服务器网卡侧的特性,包括为了支持RDMA协议在以太网传输的RoCE特性以及NVMe协议在以太网传输的NoF(NVMe over Fabric)
(3) 传统TCP/IP协议面临的挑战
随着高性能计算、人工智能等技术的快速发展,业务应用有越来越多的数据需要从网络中获取,对数据中心网络的交换速度和性能要求越来越高,使用传统的TCP/IP网络协议栈传输已经无法满足高性能计算业务的需求
TCP协议的主要限制:
①延迟大:TCP协议栈在接收/发送报文时,内核需要做多次上下文切换,每次切换需要耗费5~10微秒左右的时延。三次的数据拷贝和依赖CPU进行协议封装,导致仅仅协议栈处理就带来数十微秒的固定时延
②CPU消耗高:TCP通信需要主机CPU多次参与协议栈内存拷贝。网络规模越大,网络带宽越高,CPU在收发数据时的调度负担就越大,导致CPU持续高负载
(4) RDFMA技术减少主机端时延,适用于高性能通信场景
RDMA(Remote Direct Memory Access,远程直接内存访问),是一种通过网络在两个应用程序之间搬运缓冲区里的数据的方法,为了解决网络传输中服务器端数据处理延迟而产生的技术。它将外设(网卡等)能直接访问本地主机内存的能力(Direct MemoryAccess,DMA),扩展到外设(网卡等)能直接访问远端主机内存的能力
RDMA的主要优势:
①内核旁路:应用程序无需执行内核的内存调用就可向网卡发送命令,将协议栈卸载到网卡上,无需CPU和内核介入,可以轻易的实现超低时延的数据处理、超高吞吐流量传输
②内存零拷贝:网卡可以直接与应用内存相互传输数据,无需在应用内存与内核之间复制数据拷贝。因此,传输延迟会显著减小
2. 面向AI大模型的华为网络解决方案
(1) 华为智能无损网络,解决传统以太网性能瓶颈

(2) 华为智能无损技术架构全景

3. 智算中心网络总体架构及规划与设计
(1) 智算中心组网逻辑架构
智能计算中心提供训练算力和推理算力。单个机柜先完成柜内组网,之后由机柜联网形成AI集群。按照服务类型及安全等级,把整个网络分成不同的业务区块:接入区、管理区、业务区
各区块间通过核心交换机连接在一起,不同类型的流量,可根据数据中心的现状进行隔离和保护

(2) 智算中心组网物理架构

(3) 智算中心网络设计概述

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)