【课程笔记】华为 HCIE-AI Solution Architect 人工智能08：华为智算中心解决方案

(1) 数据中心基础设施系统介绍(2) 数据中心能效定量评估指标 - PUE(3) 数据中心PUE指标要求(4) 数据中心能效模型(5) PUE不同分级的IT耗电测点位置(1) 云数据中心、智算中心与超算中心数据中心即为所有类型数据中心的总称，为集中放置的电子信息设备提供运行环境的建筑场所，可以是一栋或几栋建筑，也可以是一栋建筑物的一部分 -> 按发展阶段来看，数据中心类别主要包括传统物理数据中心

淵_ken

1327人浏览 · 2025-07-01 20:19:17

淵_ken · 2025-07-01 20:19:17 发布

华为智算中心解决方案

一、数据中心基础设施系统和常用的指标介绍

二、智算中心配电及制冷方案介绍

三、数据中心基础设施选址及可用性评估

1. 数据中心基础设施选址及可用性评估流程

2. 面向AI大模型场景的华为分布式AI存储解决方案

一、数据中心基础设施系统和常用的指标介绍

(1) 数据中心基础设施系统介绍

(2) 数据中心能效定量评估指标 - PUE

(3) 数据中心PUE指标要求

(4) 数据中心能效模型

(5) PUE不同分级的IT耗电测点位置

(6) pPUE/CLF/PLF/RER

二、智算中心配电及制冷方案介绍

(1) 云数据中心、智算中心与超算中心

数据中心即为所有类型数据中心的总称，为集中放置的电子信息设备提供运行环境的建筑场所，可以是一栋或几栋建筑，也可以是一栋建筑物的一部分 -> 按发展阶段来看，数据中心类别主要包括传统物理数据中心、IDC(互联网数据中心)、云数据中心以及智算中心：

①云数据中心是一种基于云计算架构的，计算、存储及网络资源松耦合，完全虚拟化各种IT设备、模块化程度较高、自动化程度较高、具备较高绿色节能程度的新型数据中心

②智算中心是智慧时代最主要的计算力生产中心，它以融合架构计算系统为平台，以数据为资源，能够以强大算力驱动AI模型对数据进行深度加工，源源不断产生各种智慧计算服务。智算中心通过算力基建化，使得AI算力像水、电一样成为城市的公共基础资源，供政府、企业、公众按需使用

③超算中心是指专门用于研发和运行超级计算机的机构或组织。通常拥有大规模的计算资源，包括超级计算机集群、高速网络和存储系统等

(2) 为什么智算中心需要液冷？

随着芯片和单机柜功率密度不断增大，传统散热方式难以满足高密数据中心的需求

液冷是指使用液体取代空气作为冷媒，为发热部件进行换热，带走热量的技术。而液冷服务器是指将液体注入服务器，通过冷热交换带走服务器的热量的一种服务器。一般来说，行业将液冷分为直接冷却和间接冷却。目前直接冷却以浸没式液冷技术为主，又可分为相变和非相变两种。间接冷却以冷板式液冷技术为主

三、数据中心基础设施选址及可用性评估

1. 数据中心基础设施选址及可用性评估流程

(1) 数据中心咨询规划全流程

数据中心从发起到立项，需要经过一连串的分析和研究的过程，这个阶段通常称之为咨询阶段。数据中心的可行性研究也属于这个阶段完成的任务。可行性研究通常是在商业咨询之后，可行性研究通常与站点选址并行，因为选址的结果会直接影响到数据中心的技术方案，相反，技术方案的要求也会影响到选址，所以选址与可行性研究通常是并行交错地进行

(2) 站点选址的思路

站点选址是数据中心规划阶段的关键决策，其结果会直接影响到数据中心运营的业务成功

站点选址是要想选择最佳的备选站点，需要结合经验丰富的选址团队、科学的选址方法和专业的选址工具

(3) 可行性研究的思路

可行性研究是数据中心规划、设计、集成实施等过程的源头，对技术、法规等项目影响因素进行研究、分析确定有利和不利的因素，分析项目必要性、项目是否可行，采用哪种技术方案，以及评估项目经济效益和社会效益，为项目投资者提供决策意见

2. 数据中心基础设施选址报告

(1) 可用性与选址

数据中心不是孤立的，受到当地的自然条件、配套设施的因素影响。所以，要想减少宕机的风险，在选址阶段就要想办法规避外界的风险

影响数据中心可用性的外界因素有多种，具体可以分为自然风险和人为风险

(2) TCO与选址

数据中心的选址与建造成本和运营成本都息息相关。一个成功的数据中心选址，会给业主带来明显的经济效益

选址阶段应该调查税收、人力成本、带宽价格、电价等成本信息，并且估算出备选站点的TCO，作为选址的重要决策依据

TCO包括：
①CAPEX(固定资产)：建筑成本、设备成本、安装成本
②OPEX(运营管理支出)：电费成本、带宽成本、运维人员成本、税收

3. 数据中心基础设施可行性研究

(1) 可行性研究的原则和内容

①合规性Regulation：符合法律、法规，符合行业规范，符合职业安全要求
②可扩展性Scalability：根据业务需要柔性扩展，水平扩容，垂直扩容......
③经济性Economical：节能，绿色环保，自动运行，集中控制...
④可服务性Serviceable：可控制性，设施监控，IT监控，运营服务...
⑤功能性Functional：空间设计，功能区设置，符合服务流程，灵活组合...
⑥可用性Availability：资源容量，冗余，后备，多路由，7*24*365...

(2) 指定可研计划

四、智算中心存储解决方案

1. 大模型存储痛点分析

(1) AI大模型发展趋势

(2) HPC和AICC都会向AI大模型演进

(3) 面向AI大模型全流程的痛点分析

(4) AI大模型训练阶段TCO Saving的核心是提升GPU利用率

(5) PB级数据搬迁成为痛点

2. 面向AI大模型场景的华为分布式AI存储解决方案

(1) 面向AI大模型场景的华为分布式AI存储解决方案

(2) OceanStor Pacific分布式存储

(3) 多协议融合互通

(4) 多协议互通

(5) 大小I/O自适应数据流

(6) 小I/O归属转发

(7) DPC分布式并行客户端

DPC与存储节点之间使用RDMA通信，有效降低计算及存储节点的CPU资源占用

DPC实现IO级负载均衡，单客户端同时访问多个节点，避免存储节点之间进行业务负载转发

客户端支持MPI-IO，支持单文件在多个存储节点之间并发处理，实现跨节点负载均衡能力

(8) NFS over RDMA

(9) NFS + Multipath

(10) NFS over RDMA + Multipath实现GDS

(11) AICache

(12) 数据自动分级

(13) SmartTier

(14) 多租户设计

(15) 硬件亚健康管理与Fast-fail技术

五、智算中心网络解决方案

1. 大模型网络痛点分析

(1) 分布式AI集群要求高速零丢包的网络

分布式AI计算的迭代过程中，大量突发流量会在几毫秒内将数据分配到工作节点，当传递和更新中间参数时，发送到参数服务器的小规模流量会发生Incast。在这些流交换的过程中，网络可能会出现丢包、拥塞、负载失衡等问题，因此，一些流的FCT(Flow Completion Time，流完成时间)被延长。如果有一些流发生延迟，可能会导致存储和计算资源无法得到充分利用，进而延迟了整个应用程序的完成时间

为满足分布式AI计算的需求，需要构建高速零丢包的数据中心网络

(2) 无损以太网络协议发展

高性能分布式计算和高性能存储RDMA的普及以及融合以太网的应用，使得ECN(Explicit Congestion Notification，显式拥塞通告)技术和PFC(Priority-based Flow Control，基于优先级的流控)技术等无损协议得到广泛应用，由此诞生了无损以太网的概念

无损以太网最早在2008年提出，主要的两个基础协议为ECN和PFC

无损以太网除了涉及网络侧的技术，还涉及服务器网卡侧的特性，包括为了支持RDMA协议在以太网传输的RoCE特性以及NVMe协议在以太网传输的NoF(NVMe over Fabric)

(3) 传统TCP/IP协议面临的挑战

随着高性能计算、人工智能等技术的快速发展，业务应用有越来越多的数据需要从网络中获取，对数据中心网络的交换速度和性能要求越来越高，使用传统的TCP/IP网络协议栈传输已经无法满足高性能计算业务的需求

TCP协议的主要限制：

①延迟大：TCP协议栈在接收/发送报文时，内核需要做多次上下文切换，每次切换需要耗费5~10微秒左右的时延。三次的数据拷贝和依赖CPU进行协议封装，导致仅仅协议栈处理就带来数十微秒的固定时延

②CPU消耗高：TCP通信需要主机CPU多次参与协议栈内存拷贝。网络规模越大，网络带宽越高，CPU在收发数据时的调度负担就越大，导致CPU持续高负载

(4) RDFMA技术减少主机端时延，适用于高性能通信场景

RDMA(Remote Direct Memory Access，远程直接内存访问)，是一种通过网络在两个应用程序之间搬运缓冲区里的数据的方法，为了解决网络传输中服务器端数据处理延迟而产生的技术。它将外设(网卡等)能直接访问本地主机内存的能力(Direct MemoryAccess，DMA)，扩展到外设(网卡等)能直接访问远端主机内存的能力

RDMA的主要优势：

①内核旁路：应用程序无需执行内核的内存调用就可向网卡发送命令，将协议栈卸载到网卡上，无需CPU和内核介入，可以轻易的实现超低时延的数据处理、超高吞吐流量传输

②内存零拷贝：网卡可以直接与应用内存相互传输数据，无需在应用内存与内核之间复制数据拷贝。因此，传输延迟会显著减小

2. 面向AI大模型的华为网络解决方案

(1) 华为智能无损网络，解决传统以太网性能瓶颈

(2) 华为智能无损技术架构全景

3. 智算中心网络总体架构及规划与设计

(1) 智算中心组网逻辑架构

智能计算中心提供训练算力和推理算力。单个机柜先完成柜内组网，之后由机柜联网形成AI集群。按照服务类型及安全等级，把整个网络分成不同的业务区块：接入区、管理区、业务区

各区块间通过核心交换机连接在一起，不同类型的流量，可根据数据中心的现状进行隔离和保护

(2) 智算中心组网物理架构

(3) 智算中心网络设计概述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r