英特尔® Gaudi® 2D AI 加速器

英特尔® Gaudi® 2D AI 加速器

HL-225D OAM 夹层卡

概述

  • 这是一款符合美国商务部工业和安全局出口管制规定且能提供高性能和高效率生成式 AI 计算的训练和推理加速器。该加速器基于英特尔® Gaudi® 第四代高效异构架构,采用 7 纳米制程工艺,支持 FP8、BF16、FP16、TF32 和 FP32 等多种面向 AI 的高级数据类型,配备 96 GB HBM2E 内存、高达 2.4 TB/s 的总内存带宽和 48 MB SRAM,单卡最高 TDP 450 瓦,集成了 RDMA (RoCEv2)。

英特尔® Gaudi® 2D AI 加速器夹层卡 (HL-225D) 旨在提供高性能、高效率的生成式 AI 计算,同时符合美国商务部工业和安全局的出口管制规定。这款训练和推理加速器基于英特尔® Gaudi® 第四代高效异构架构,采用 7 纳米制程工艺。英特尔® Gaudi® 2D 处理器具备 2 个矩阵乘法引擎 (MME) 和 24 个完全可编程的张量处理器核心 (TPC),其设计初衷在于加速各种深度学习工作负载,同时提供优化和创新的灵活性。该加速器配备 96 GB HBM2E 内存和 48 MB SRAM,单卡最高 TDP 450 瓦。
英特尔® Gaudi® 2D 加速器 HL-225D 提供出色的可扩展性,网络容量高达 2.1 Tbps。加速器原生集成 24 个 100 GbE RoCE v2 RDMA 端口,可通过直接路由的机内互联和 300 Gbps 容量的机外互联实现 Gaudi® 加速器间的通信。英特尔® Gaudi® 2D 加速器集成了专用媒体处理器,用于图像和视频解码及预处理。

技术创新

英特尔® Gaudi® 2D AI 加速器是一款完全可编程的高性能 AI 处理器,融合了诸多技术创新,具备高内存带宽/容量和基于标准以太网技术的横向扩展能力。您也可使用外接网卡通过 PCIe 接口实现横向扩展,满足多节点集群需要。

计算技术

英特尔® Gaudi® 2D 加速器基于已经推出且经过验证的训练和推理处理器架构,利用来自英特尔的可编程 TPC 和 MME 引擎,支持各种面向 AI 的高级数据类型,包括 FP8、BF16、FP16、TF32 和 FP32。TPC 核心旨在支持深度学习训练和推理工作负载。TPC 是一款 VLIW SIMD 矢量处理器,其指令集和硬件经过定制,可高效处理上述工作负载。

内存

内存带宽和容量与计算能力同样重要。英特尔® Gaudi® 2D 加速器具备高达 96 GB 的大内存容量和高达 2.4 TB/s 的总内存带宽。英特尔® Gaudi® 先进的 HBM 控制器已针对随机访问和线性访问进行了优化,在各种访问模式下均可提供高内存带宽。

网络

采用集成 RDMA 支持横向扩展

英特尔® Gaudi® 2D 加速器是一款出色的 AI 训练处理器,在芯片上集成了 RDMA (RoCEv2),可与成熟且被广泛使用的以太网进行连接。该加速器的互连技术基于 48 对 56 Gbps Tx/Rx PAM4 SerDes(配置为 24 个 100 GbE 端口)。

英特尔® Gaudi® 软件套件

英特尔® Gaudi® 软件套件旨在提高英特尔® Gaudi® AI 加速器的易用性并支持高性能训练和推理,能够将神经网络拓扑高效映射到英特尔® Gaudi® 系列硬件上。该软件套件包括英特尔® Gaudi® 的图编译器和运行时、经过性能优化的 TPC 算子库、固件和驱动程序以及开发工具,例如用于自定义核心开发的 TPC 编程工具套件和 SynapseAI 图编译器。英特尔® Gaudi® 软件集成了 PyTorch 框架,并在 Hugging Face Hub 上提供先进的 Transformer 和 Diffusion 模型。数据科学家和开发人员只需修改少量代码,即可将现有模型迁移到英特尔® Gaudi® 2D 加速器上运行。英特尔® Gaudi® 开发人员网站是一个资源中心,开发人员在这里可以找到丰富的信息,着手开始基于英特尔® Gaudi® 2D AI 处理器进行模型训练和部署,其中资源包括教程、参考模型、操作指南、文档等。此网站还提供了面向英特尔® Gaudi® 开发人员社区的论坛。