NVIDIA英伟达GTC2024 发布Blackwell 引领计算新纪元
00 分钟
2024-3-19
2024-3-23
/* */
URL
type
status
date
slug
summary
tags
category
icon
password

NVIDIA Blackwell:引领计算新纪元

  • 🚀简介:NVIDIA Blackwell 是一个创新平台,致力于在人工智能和数据处理领域实现计算技术的革命。
  • 🔍能力:它在 AI 训练和推理性能、能源效率以及模型尺寸的可扩展性方面带来了重大提升。
  • 🔧核心特性:包括 Blackwell 架构、第二代 Transformer 引擎(Transformer Engine),以及用于加强 GPU 间通讯的 NVLink 开关(NVLink Switch)。
  • 📈性能表现:Blackwell 平台的 B200 GPU 提供高达 20 petaflops 的 FP4 计算能力,专门为大规模 AI 模型的训练和推断而设计。
  • 🌐应用范围:Blackwell 将推动 AI 发展、量子研究及数据中心的优化进入新时代。
来自 theverge.com
Nvidia 称,新的 B200 GPU 拥有 208 亿晶体管,可提供高达 20 petaflops 的 FP4 计算能力。
https://www.theverge.com/2024/3/18/24105157/nvidia-blackwell-gpu-b200-ai
GTC 直播活动中,Nvidia CEO 黄仁勋展示了新的 GPU(左侧)及 H100(右侧)。图片来源:Nvidia

能力

  • 🔋节能减排:与先前模型相比,Blackwell GPU 的能效提升可达 25 倍,对于大规模计算项目而言更加环保和经济。
  • 📏模型扩展:平台能够在显著降低 GPU 使用量和功耗的情况下,训练高达 1.8 万亿参数的模型,彰显其出色的扩展能力。
  • 🚗智能汽车:Blackwell 正在推动智能汽车领域的 AI 技术进步,改善驾驶体验并增强安全性。
来自 Nvidia
历史上,训练一个 1.8 万亿参数的模型需要使用 8000 个 Hopper GPU 和 15 兆瓦的电力。

核心特性

  • 🏗️创新架构:Blackwell 架构专为应对生成式 AI 和大规模数据处理的挑战而设计。
  • 🔄进阶 Transformer 引擎:第二代 Transformer 引擎通过每个神经元使用四位数据而非八位,实现了计算能力、带宽和模型规模的倍增。
  • 🔗高效通信:NVLink 开关技术使得 576 个 GPU 能以每秒 1.8 TB 的双向带宽相互通信,大幅提升了数据处理效率。
来自Nvidia
其中一个关键进步是第二代 Transformer 引擎,它通过对每个神经元使用四位数据而非八位,达到了计算能力、带宽和模型规模的倍增。

性能表现

  • 📊AI 性能基准:GB200 GPU 在 GPT-3 大语言模型基准测试上展示了比 H100 高出七倍的性能,并且训练速度提高了四倍。
  • 🔢极限模型支持:Blackwell GPU 能支持高达 27 万亿参数的模型,证明了其处理超大规模 AI 模型的强大能力。
  • 🔌数据中心融合:NVIDIA 正与主要云服务商合作,提供基于 Blackwell 的数据中心解决方案,支持 AI 和高性能计算(HPC)工作负载。
来自Nvidia
GB200 相对于 H100 的性能提升虽然更为谦逊,但依然实现了七倍的性能飞跃,并且训练速度提升了四倍。
 
NVIDIA Blackwell 拥有2080亿晶体管,性能提高5倍,配备192超大HBM3e 比Hopper H100快5倍
NVIDIA揭幕了其下一代面向AI及Tensor Core的GPU架构,代号为“Blackwell”。这一架构首次采用了多芯片模块(MCM)设计,意味着两颗GPU被集成在同一个芯片上,标志着NVIDIA在GPU设计方面迈出的重要一步。
  • 世界最强芯片 — Blackwell GPU搭载了2080亿晶体管,并采用了TSMC的4NP定制工艺。这些GPU通过高达10 TB/秒的芯片间连接技术实现统一,展现了前所未有的计算能力。
  • 第二代Transformer引擎 — 利用微小的张量缩放技术和NVIDIA先进的动态范围管理算法,Blackwell架构
能够支持更大的计算量和模型尺寸,同时新增了4位浮点数AI推理能力,大幅提升了处理效率和模型运行的灵活性。
  • 第五代NVLink — 为了进一步提升多万亿参数模型和混合专家模型的性能,NVIDIA的最新一代NVLink技术实现了每GPU 1.8TB/s的双向吞吐量,支持多达576个GPU的高速、无缝通信,满足最复杂的大型语言模型的需求。
  • RAS引擎 — 包含专用于可靠性、可用性和服务性(RAS)的引擎,Blackwell GPU通过在芯片级别加入AI预测性维护功能,能够实时诊断和预测潜在的可靠性问题,确保系统长时间稳定运行,同时降低了大规模AI部署的运营成本。
  • 安全AI — Blackwell架构还引入了先进的机密计算功能,通过支持最新的接口加密协议,不牺牲性能的前提下保护AI模型和客户数据的安全,特别适用于对隐私保护要求极高的医疗保健和金融服务行业。
  • 解压缩引擎 — 专为支持最新格式的数据解压缩而设计,能够加速数据库查询,极大提高数据分析和数据科学领域的性能,预示着未来数据处理的GPU加速趋势。
深入细节,每个Blackwell GPU计算芯片包含1040亿晶体管,并采用了TSMC 4NP工艺节点。
这种设计的成功部分得益于NVIDIA与Synopsys及TSMC合作使用的CuLitho技术,这一技术大幅加速了下一代AI加速器芯片的制造进程。B100 GPU采用10 TB/s的超高带宽接口实现芯片间的快速连接,整合为单一芯片时,总晶体管数达到2080亿,实现完整的GPU缓存一致性。
与Hopper相比,NVIDIA Blackwell GPU多了1280亿晶体管,AI性能提高了5倍,每芯片提升至20 petaFlops,芯片上内存提升了4倍。GPU本身与8个HBM3e堆栈配对,提供世界上最快的内存解决方案,跨8192位总线接口提供8 TB/s的内存带宽,最高支持192GB HBM3e内存。简要总结与Hopper相比的性能数据,您将获得:
  • 20 PFLOPS FP8 (Hopper的2.5倍)
  • 20 PFLOPS FP6 (Hopper的2.5倍)
  • 40 PFLOPS FP4 (Hopper的5.0倍)
  • 740B 参数 (Hopper的6.0倍)
  • 34T 参数/秒 (Hopper的5.0倍)
  • 7.2 TB/s NVLINK (Hopper的4.0倍)
NVIDIA将以全平台形式提供Blackwell GPU,将这两个GPU(四个计算芯片)与单个Grace CPU(72个ARM Neoverse V2 CPU核心)组合。GPU将通过900 GB/s NVLINK协议互连到彼此和Grace CPU。

NVIDIA Blackwell B200 GPU 2024年 - 192GB HBM3e

首先,我们有NVIDIA Blackwell B200 GPU。这是将被采用到各种设计中的两个Blackwell芯片之一,范围包括SXM模块、PCIe AICs和Superchip平台。B200 GPU将是首款采用芯片组设计的NVIDIA GPU,特点是基于TSMC 4nm工艺节点的两个计算芯片。
MCM(多芯片模块)设计在NVIDIA方面已久未见,现在终于实现,随着公司试图解决下一代工艺节点(如产量和成本)相关的挑战。芯片组提供了一个可行的替代方案,其中NVIDIA仍然可以实现比前一代更快的性能,而不会影响其供应或成本,这只是其芯片组旅程的一个起点。
 
NVIDIA Blackwell B200 GPU将是一个怪兽级芯片。它整合了总共160个SM,包含20,480个核心。该GPU将采用最新的NVLINK互连技术,支持相同的8 GPU架构和400 GbE网络交换。它还将非常耗电,峰值TDP为700W,但这也与H100和H200芯片相同。
总结这款芯片:
  • TMSC 4NP工艺节点
  • 多芯片封装GPU
  • 1-GPU 1040亿晶体管
  • 2-GPU 2080亿晶体管
  • 160 SMs(20,480核心)
  • 8 HBM包
  • 192GB HBM3e内存
  • 8 TB/s内存带宽
  • 8192位内存总线接口
  • 8-Hi堆栈HBM3e
  • PCIe 6.0支持
  • 700W TDP(峰值)
在内存方面,Blackwell B200 GPU将配备多达192GB的HBM3e内存。这将采用8个8-hi模块堆栈,每个提供24GB VRAM容量,跨越8192位宽的总线接口。与H100的80GB GPUs相比,这将是2.4倍的增长,使芯片能够运行更大的大型语言模型(LLMs)。
NVIDIA Blackwell B200及其相应平台将开创AI计算的新时代,并向AMDIntel的最新芯片产品提供激烈的竞争,这些产品尚未得到广泛采用。随着Blackwell的揭幕,NVIDIA再次巩固了其作为AI市场主导力量的地位。
 
NVIDIA HPC / GPUs
NVIDIA TESLA GRAPHICS CARD
NVIDIA B200
NVIDIA H200 (SXM5)
NVIDIA H100 (SMX5)
NVIDIA H100 (PCIE)
NVIDIA A100 (SXM4)
NVIDIA A100 (PCIE4)
TESLA V100S (PCIE)
TESLA V100 (SXM2)
TESLA P100 (SXM2)
TESLA P100
TESLA M40
TESLA K40
(PCI-EXPRESS)
(PCI-EXPRESS)
(PCI-EXPRESS)
GPU
B200
H200 (Hopper)
H100 (Hopper)
H100 (Hopper)
A100 (Ampere)
A100 (Ampere)
GV100 (Volta)
GV100 (Volta)
GP100 (Pascal)
GP100 (Pascal)
GM200 (Maxwell)
GK110 (Kepler)
Process Node
4nm
4nm
4nm
4nm
7nm
7nm
12nm
12nm
16nm
16nm
28nm
28nm
Transistors
208 Billion
80 Billion
80 Billion
80 Billion
54.2 Billion
54.2 Billion
21.1 Billion
21.1 Billion
15.3 Billion
15.3 Billion
8 Billion
7.1 Billion
GPU Die Size
TBD
814mm2
814mm2
814mm2
826mm2
826mm2
815mm2
815mm2
610 mm2
610 mm2
601 mm2
551 mm2
SMs
160
132
132
114
108
108
80
80
56
56
24
15
TPCs
80
66
66
57
54
54
40
40
28
28
24
15
L2 Cache Size
TBD
51200 KB
51200 KB
51200 KB
40960 KB
40960 KB
6144 KB
6144 KB
4096 KB
4096 KB
3072 KB
1536 KB
FP32 CUDA Cores Per SM
TBD
128
128
128
64
64
64
64
64
64
128
192
FP64 CUDA Cores / SM
TBD
128
128
128
32
32
32
32
32
32
4
64
FP32 CUDA Cores
TBD
16896
16896
14592
6912
6912
5120
5120
3584
3584
3072
2880
FP64 CUDA Cores
TBD
16896
16896
14592
3456
3456
2560
2560
1792
1792
96
960
Tensor Cores
TBD
528
528
456
432
432
640
640
N/A
N/A
N/A
N/A
Texture Units
TBD
528
528
456
432
432
320
320
224
224
192
240
Boost Clock
TBD
~1850 MHz
~1850 MHz
~1650 MHz
1410 MHz
1410 MHz
1601 MHz
1530 MHz
1480 MHz
1329MHz
1114 MHz
875 MHz
TOPs (DNN/AI)
20,000 TOPs
3958 TOPs
3958 TOPs
3200 TOPs
2496 TOPs
2496 TOPs
130 TOPs
125 TOPs
N/A
N/A
N/A
N/A
FP16 Compute
10,000 TFLOPs
1979 TFLOPs
1979 TFLOPs
1600 TFLOPs
624 TFLOPs
624 TFLOPs
32.8 TFLOPs
30.4 TFLOPs
21.2 TFLOPs
18.7 TFLOPs
N/A
N/A
FP32 Compute
90 TFLOPs
67 TFLOPs
67 TFLOPs
800 TFLOPs
156 TFLOPs
156 TFLOPs
16.4 TFLOPs
15.7 TFLOPs
10.6 TFLOPs
10.0 TFLOPs
6.8 TFLOPs
5.04 TFLOPs
(19.5 TFLOPs standard)
(19.5 TFLOPs standard)
FP64 Compute
45 TFLOPs
34 TFLOPs
34 TFLOPs
48 TFLOPs
19.5 TFLOPs
19.5 TFLOPs
8.2 TFLOPs
7.80 TFLOPs
5.30 TFLOPs
4.7 TFLOPs
0.2 TFLOPs
1.68 TFLOPs
(9.7 TFLOPs standard)
(9.7 TFLOPs standard)
Memory Interface
8192-bit HBM4
5120-bit HBM3e
5120-bit HBM3
5120-bit HBM2e
6144-bit HBM2e
6144-bit HBM2e
4096-bit HBM2
4096-bit HBM2
4096-bit HBM2
4096-bit HBM2
384-bit GDDR5
384-bit GDDR5
Memory Size
Up To 192 GB HBM3 @ 8.0 Gbps
Up To 141 GB HBM3e @ 6.5 Gbps
Up To 80 GB HBM3 @ 5.2 Gbps
Up To 94 GB HBM2e @ 5.1 Gbps
Up To 40 GB HBM2 @ 1.6 TB/s
Up To 40 GB HBM2 @ 1.6 TB/s
16 GB HBM2 @ 1134 GB/s
16 GB HBM2 @ 900 GB/s
16 GB HBM2 @ 732 GB/s
16 GB HBM2 @ 732 GB/s
24 GB GDDR5 @ 288 GB/s
12 GB GDDR5 @ 288 GB/s
Up To 80 GB HBM2 @ 1.6 TB/s
Up To 80 GB HBM2 @ 2.0 TB/s
12 GB HBM2 @ 549 GB/s
TDP
700W
700W
700W
350W
400W
250W
250W
300W
300W
250W
250W
235W
💡
对这个话题感兴趣的小伙伴,欢迎加我一起探索交流~
 
 
notion image