大家好,今天开始讲述关于人工智能学习的基础篇。

(1)图形处理器

图形处理器(Graphics Processing Unit,GPU),又称显示核心(display core),显示芯片(display chip),视觉处理器(video processor),是一种用于处理图像和图形运算工作的协处理器 ,广泛应用在个人电脑、工作站和一些移动设备(如智能手机、平板电脑等)。

GPU作为硬件领域一个重要的分支,在科学计算、人工智能、游戏开发等领域应用广泛。商用GPU主要包括NVIDIA Geforce系列、AMD Radeon系列和 NVIDIA Tesla系列等,它们在图像处理等应用领域提供了高逼真的渲染效果,在科学计算等研究领域提供了强大的计算能力。

2025年7月26日,中国首款基于自主架构的6纳米GPU正式亮相。

GPU的历史要从图形控制器开始。1981年IBM公司推出第一台个人电脑IBM5150,这台电脑配备的黑白显示适配器(Monochrome Display Adapter,MDA)和彩色图形适配器(Color Graphics Adapter,CGA)被认为是个人计算机中最早的图形处理单元。1987年IBM公司推出VGA(Video Graphics Array)标准,在文字模式下可支持720×400分辨率,绘图模式下可支持640×480× 16色和320×200×256色输出,VGA标准一直沿用至今。为了保证兼容性,当今的显卡依然会遵循VGA 标准。从MDA到VGA,图形图像的运算都由CPU来完成,图形卡的作用主要是将其显示出来。

Figure 1. Glint300SX

1994年,3DLabs发布了第一颗用于PC的3D图形加速芯片Glint300SX,随后ATi,3dfx,Matrox,S3 Graphics等公司也推出了类似的产品,然而这些产品缺乏统一执行的标准,加速功能也不尽相同。1999年,NVIDIA公司发布了Geforce256显示核心,也是首个以“Geforce”为名的显示核心。它首次在硬件上支持变换和光照(transform and lighting,T&L),整合了三角形构成、裁剪、纹理和染色引擎,并兼容DirectX和OpenGL等图形相关的应用程序编程接口(API) ,标志着GPU时代的正式开始。一年后,大部分公司由于兼容性和性能的落后逐渐退出市场,只剩下ATi的Radeon显卡作为Geforce显卡的竞争对手孤军作战。

Figure 2. Gefroce256

硬件T&L的引入,极大减轻了CPU的负担,是这一时代GPU的标志。2001年微软发布DirectX 8,提出了渲染单元模式(shader model)的概念,根据操作对象的不同引入了2种shader,分别是顶点着色器(vertex shader)和像素着色器(pixel shader),从此,硬件T&L被抛弃,进入shader时代,此时的GPU架构是固定管线 。

固定管线架构持续多年,直到微软推出DirectX10。shader 不再扮演固定的角色,每一个shader都可以处理顶点和像素,这就是统一渲染着色器(unified shader),它的出现避免了固定管线中顶点着色器和像素着色器资源分配不合理的现象发生,使得GPU的利用率更高。第一款采用统一渲染架构的GPU是ATI在2005年与微软合作的游戏主机XBOX360上采用的Xenos,它是ATI第一代统一渲染架构,而真正具有影响力的,是NVIDIA在2006年发布的GeForce 8800 GTX(核心代号G80),它是第一款采用统一渲染架构的桌面GPU,其架构影响了日后的数代产品,是一款极具划时代意义的GPU。

与G80一同发布的,还有著名的CUDA(compute unified device architecture),它能利用NVIDIA GPU的运算能力进行并行计算,拓展了GPU的应用领域,然而这时的CUDA只能算是GPU的副业。2011年TESLA GPU计算卡发布,标志着NVIDIA将正式用于计算的GPU产品线独立出来,凭借着架构上的优势,GPU在通用计算及超级计算机领域,逐渐取代CPU成为主角 。

Figure 3. NVIDIA Tesla系列计算卡

GPU的发展历程表如下表所示 。

Figure 4. GPU发展历程表

2025年7月26日,中国首款基于自主架构的6纳米GPU正式亮相,该GPU采用砺算科技自主研发的TrueGPU架构,是专为应对新一代高性能图形渲染需求以及人工智能应用广泛普及趋势而打造的首代融合架构。这一架构在行业内率先实现了高性能图形处理与高效人工智能推理能力的深度融合,展现出独特的技术路径。

(2)嵌入式神经网络处理器

嵌入式神经网络处理器(NPU)是数字多媒体芯片技术的核心创新成果,由中国工程院院士邓中翰领衔的“星光中国芯工程”团队研发 。2016年3月,全球首款NPU芯片“星光智能一号”实现量产,采用数据驱动并行计算架构,颠覆传统冯诺依曼架构,信息处理效率较传统CPU提升100-1000倍,首次实现视频编码器与NPU系统级集成 。该芯片支持CaffeTensorFlow、MXNet、Torch等神经网络框架,集成视频编解码器与智能分析功能,在安防监控场景下的人脸识别准确率达98%,初期产量突破万片并应用于SVAC国家标准的智能安防设备 。其应用领域扩展至生态保护、智能家居、无人系统及航天军工等领域。

该处理器每个内核包含两个数据流处理器,每个数据流处理器具有8个长位宽或16个短位宽的SIMD运算单元,可通过多核阵列扩展满足复杂CNN网络运算需求。2018年推出的“星光智能二号”NPU运算频率达1GHz,运算能力为第一代的16倍,支撑智能汽车、无人机等新兴领域应用。中星微同年拆分成立北京中星微人工智能芯片技术有限公司,专注于AI芯片研发 。2025年11月,安谋科技发布新一代NPU IP“周易”X3,基于DSP+DSA架构专为端侧AI大模型设计,AIGC大模型处理能力较前代提升10倍,CNN模型性能提升30%-50%,单Cluster最高支持4核心运算单元,可配置8至80 FP8 TFLOPS灵活算力。同期英特尔酷睿Ultra 7 265K处理器内置13 TOPS算力的NPU单元。“星光中国芯工程”已形成包含4000余项专利的技术体系,牵头制定《公共安全SVAC国家标准》,推动视频监控数据加密与智能分析标准化。2019年该工程宣布未来十年投入100亿元,重点研发XPU多核异构智能处理器等八大核心技术。

2019年“星光中国芯工程”宣布未来十年投入100亿元,重点研发XPU多核异构智能处理器等八大核心技术,突破存算一体、感存算一体等前沿领域。

今天就讲这些,下篇文章见。

 

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐