URL
type
status
date
slug
summary
tags
category
icon
password
NVIDIA Blackwell:引领计算新纪元
- 🚀简介:NVIDIA Blackwell 是一个创新平台,致力于在人工智能和数据处理领域实现计算技术的革命。
- 🔍能力:它在 AI 训练和推理性能、能源效率以及模型尺寸的可扩展性方面带来了重大提升。
- 🔧核心特性:包括 Blackwell 架构、第二代 Transformer 引擎(Transformer Engine),以及用于加强 GPU 间通讯的 NVLink 开关(NVLink Switch)。
- 📈性能表现:Blackwell 平台的 B200 GPU 提供高达 20 petaflops 的 FP4 计算能力,专门为大规模 AI 模型的训练和推断而设计。
- 🌐应用范围:Blackwell 将推动 AI 发展、量子研究及数据中心的优化进入新时代。
来自 theverge.comNvidia 称,新的 B200 GPU 拥有 208 亿晶体管,可提供高达 20 petaflops 的 FP4 计算能力。https://www.theverge.com/2024/3/18/24105157/nvidia-blackwell-gpu-b200-ai
在 GTC 直播活动中,Nvidia CEO 黄仁勋展示了新的 GPU(左侧)及 H100(右侧)。图片来源:Nvidia
能力
- 🔋节能减排:与先前模型相比,Blackwell GPU 的能效提升可达 25 倍,对于大规模计算项目而言更加环保和经济。
- 📏模型扩展:平台能够在显著降低 GPU 使用量和功耗的情况下,训练高达 1.8 万亿参数的模型,彰显其出色的扩展能力。
- 🚗智能汽车:Blackwell 正在推动智能汽车领域的 AI 技术进步,改善驾驶体验并增强安全性。
来自 Nvidia历史上,训练一个 1.8 万亿参数的模型需要使用 8000 个 Hopper GPU 和 15 兆瓦的电力。
核心特性
- 🏗️创新架构:Blackwell 架构专为应对生成式 AI 和大规模数据处理的挑战而设计。
- 🔄进阶 Transformer 引擎:第二代 Transformer 引擎通过每个神经元使用四位数据而非八位,实现了计算能力、带宽和模型规模的倍增。
- 🔗高效通信:NVLink 开关技术使得 576 个 GPU 能以每秒 1.8 TB 的双向带宽相互通信,大幅提升了数据处理效率。
来自Nvidia其中一个关键进步是第二代 Transformer 引擎,它通过对每个神经元使用四位数据而非八位,达到了计算能力、带宽和模型规模的倍增。
性能表现
- 📊AI 性能基准:GB200 GPU 在 GPT-3 大语言模型基准测试上展示了比 H100 高出七倍的性能,并且训练速度提高了四倍。
- 🔢极限模型支持:Blackwell GPU 能支持高达 27 万亿参数的模型,证明了其处理超大规模 AI 模型的强大能力。
- 🔌数据中心融合:NVIDIA 正与主要云服务商合作,提供基于 Blackwell 的数据中心解决方案,支持 AI 和高性能计算(HPC)工作负载。
来自NvidiaGB200 相对于 H100 的性能提升虽然更为谦逊,但依然实现了七倍的性能飞跃,并且训练速度提升了四倍。
NVIDIA Blackwell 拥有2080亿晶体管,性能提高5倍,配备192超大HBM3e 比Hopper H100快5倍
NVIDIA揭幕了其下一代面向AI及Tensor Core的GPU架构,代号为“Blackwell”。这一架构首次采用了多芯片模块(MCM)设计,意味着两颗GPU被集成在同一个芯片上,标志着NVIDIA在GPU设计方面迈出的重要一步。
- 世界最强芯片 — Blackwell GPU搭载了2080亿晶体管,并采用了TSMC的4NP定制工艺。这些GPU通过高达10 TB/秒的芯片间连接技术实现统一,展现了前所未有的计算能力。
- 第二代Transformer引擎 — 利用微小的张量缩放技术和NVIDIA先进的动态范围管理算法,Blackwell架构
能够支持更大的计算量和模型尺寸,同时新增了4位浮点数AI推理能力,大幅提升了处理效率和模型运行的灵活性。
- 第五代NVLink — 为了进一步提升多万亿参数模型和混合专家模型的性能,NVIDIA的最新一代NVLink技术实现了每GPU 1.8TB/s的双向吞吐量,支持多达576个GPU的高速、无缝通信,满足最复杂的大型语言模型的需求。
- RAS引擎 — 包含专用于可靠性、可用性和服务性(RAS)的引擎,Blackwell GPU通过在芯片级别加入AI预测性维护功能,能够实时诊断和预测潜在的可靠性问题,确保系统长时间稳定运行,同时降低了大规模AI部署的运营成本。
- 安全AI — Blackwell架构还引入了先进的机密计算功能,通过支持最新的接口加密协议,不牺牲性能的前提下保护AI模型和客户数据的安全,特别适用于对隐私保护要求极高的医疗保健和金融服务行业。
- 解压缩引擎 — 专为支持最新格式的数据解压缩而设计,能够加速数据库查询,极大提高数据分析和数据科学领域的性能,预示着未来数据处理的GPU加速趋势。
深入细节,每个Blackwell GPU计算芯片包含1040亿晶体管,并采用了TSMC 4NP工艺节点。
这种设计的成功部分得益于NVIDIA与Synopsys及TSMC合作使用的CuLitho技术,这一技术大幅加速了下一代AI加速器芯片的制造进程。B100 GPU采用10 TB/s的超高带宽接口实现芯片间的快速连接,整合为单一芯片时,总晶体管数达到2080亿,实现完整的GPU缓存一致性。
与Hopper相比,NVIDIA Blackwell GPU多了1280亿晶体管,AI性能提高了5倍,每芯片提升至20 petaFlops,芯片上内存提升了4倍。GPU本身与8个HBM3e堆栈配对,提供世界上最快的内存解决方案,跨8192位总线接口提供8 TB/s的内存带宽,最高支持192GB HBM3e内存。简要总结与Hopper相比的性能数据,您将获得:
- 20 PFLOPS FP8 (Hopper的2.5倍)
- 20 PFLOPS FP6 (Hopper的2.5倍)
- 40 PFLOPS FP4 (Hopper的5.0倍)
- 740B 参数 (Hopper的6.0倍)
- 34T 参数/秒 (Hopper的5.0倍)
- 7.2 TB/s NVLINK (Hopper的4.0倍)
NVIDIA将以全平台形式提供Blackwell GPU,将这两个GPU(四个计算芯片)与单个Grace CPU(72个ARM Neoverse V2 CPU核心)组合。GPU将通过900 GB/s NVLINK协议互连到彼此和Grace CPU。
NVIDIA Blackwell B200 GPU 2024年 - 192GB HBM3e
首先,我们有NVIDIA Blackwell B200 GPU。这是将被采用到各种设计中的两个Blackwell芯片之一,范围包括SXM模块、PCIe AICs和Superchip平台。B200 GPU将是首款采用芯片组设计的NVIDIA GPU,特点是基于TSMC 4nm工艺节点的两个计算芯片。
MCM(多芯片模块)设计在NVIDIA方面已久未见,现在终于实现,随着公司试图解决下一代工艺节点(如产量和成本)相关的挑战。芯片组提供了一个可行的替代方案,其中NVIDIA仍然可以实现比前一代更快的性能,而不会影响其供应或成本,这只是其芯片组旅程的一个起点。
NVIDIA Blackwell B200 GPU将是一个怪兽级芯片。它整合了总共160个SM,包含20,480个核心。该GPU将采用最新的NVLINK互连技术,支持相同的8 GPU架构和400 GbE网络交换。它还将非常耗电,峰值TDP为700W,但这也与H100和H200芯片相同。
总结这款芯片:
- TMSC 4NP工艺节点
- 多芯片封装GPU
- 1-GPU 1040亿晶体管
- 2-GPU 2080亿晶体管
- 160 SMs(20,480核心)
- 8 HBM包
- 192GB HBM3e内存
- 8 TB/s内存带宽
- 8192位内存总线接口
- 8-Hi堆栈HBM3e
- PCIe 6.0支持
- 700W TDP(峰值)
在内存方面,Blackwell B200 GPU将配备多达192GB的HBM3e内存。这将采用8个8-hi模块堆栈,每个提供24GB VRAM容量,跨越8192位宽的总线接口。与H100的80GB GPUs相比,这将是2.4倍的增长,使芯片能够运行更大的大型语言模型(LLMs)。
NVIDIA Blackwell B200及其相应平台将开创AI计算的新时代,并向AMD和Intel的最新芯片产品提供激烈的竞争,这些产品尚未得到广泛采用。随着Blackwell的揭幕,NVIDIA再次巩固了其作为AI市场主导力量的地位。
NVIDIA HPC / GPUs
NVIDIA TESLA GRAPHICS CARD | NVIDIA B200 | NVIDIA H200 (SXM5) | NVIDIA H100 (SMX5) | NVIDIA H100 (PCIE) | NVIDIA A100 (SXM4) | NVIDIA A100 (PCIE4) | TESLA V100S (PCIE) | TESLA V100 (SXM2) | TESLA P100 (SXM2) | TESLA P100 | TESLA M40 | TESLA K40 |
ㅤ | ㅤ | ㅤ | ㅤ | ㅤ | ㅤ | ㅤ | ㅤ | ㅤ | ㅤ | (PCI-EXPRESS) | (PCI-EXPRESS) | (PCI-EXPRESS) |
GPU | B200 | H200 (Hopper) | H100 (Hopper) | H100 (Hopper) | A100 (Ampere) | A100 (Ampere) | GV100 (Volta) | GV100 (Volta) | GP100 (Pascal) | GP100 (Pascal) | GM200 (Maxwell) | GK110 (Kepler) |
Process Node | 4nm | 4nm | 4nm | 4nm | 7nm | 7nm | 12nm | 12nm | 16nm | 16nm | 28nm | 28nm |
Transistors | 208 Billion | 80 Billion | 80 Billion | 80 Billion | 54.2 Billion | 54.2 Billion | 21.1 Billion | 21.1 Billion | 15.3 Billion | 15.3 Billion | 8 Billion | 7.1 Billion |
GPU Die Size | TBD | 814mm2 | 814mm2 | 814mm2 | 826mm2 | 826mm2 | 815mm2 | 815mm2 | 610 mm2 | 610 mm2 | 601 mm2 | 551 mm2 |
SMs | 160 | 132 | 132 | 114 | 108 | 108 | 80 | 80 | 56 | 56 | 24 | 15 |
TPCs | 80 | 66 | 66 | 57 | 54 | 54 | 40 | 40 | 28 | 28 | 24 | 15 |
L2 Cache Size | TBD | 51200 KB | 51200 KB | 51200 KB | 40960 KB | 40960 KB | 6144 KB | 6144 KB | 4096 KB | 4096 KB | 3072 KB | 1536 KB |
FP32 CUDA Cores Per SM | TBD | 128 | 128 | 128 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 192 |
FP64 CUDA Cores / SM | TBD | 128 | 128 | 128 | 32 | 32 | 32 | 32 | 32 | 32 | 4 | 64 |
FP32 CUDA Cores | TBD | 16896 | 16896 | 14592 | 6912 | 6912 | 5120 | 5120 | 3584 | 3584 | 3072 | 2880 |
FP64 CUDA Cores | TBD | 16896 | 16896 | 14592 | 3456 | 3456 | 2560 | 2560 | 1792 | 1792 | 96 | 960 |
Tensor Cores | TBD | 528 | 528 | 456 | 432 | 432 | 640 | 640 | N/A | N/A | N/A | N/A |
Texture Units | TBD | 528 | 528 | 456 | 432 | 432 | 320 | 320 | 224 | 224 | 192 | 240 |
Boost Clock | TBD | ~1850 MHz | ~1850 MHz | ~1650 MHz | 1410 MHz | 1410 MHz | 1601 MHz | 1530 MHz | 1480 MHz | 1329MHz | 1114 MHz | 875 MHz |
TOPs (DNN/AI) | 20,000 TOPs | 3958 TOPs | 3958 TOPs | 3200 TOPs | 2496 TOPs | 2496 TOPs | 130 TOPs | 125 TOPs | N/A | N/A | N/A | N/A |
FP16 Compute | 10,000 TFLOPs | 1979 TFLOPs | 1979 TFLOPs | 1600 TFLOPs | 624 TFLOPs | 624 TFLOPs | 32.8 TFLOPs | 30.4 TFLOPs | 21.2 TFLOPs | 18.7 TFLOPs | N/A | N/A |
FP32 Compute | 90 TFLOPs | 67 TFLOPs | 67 TFLOPs | 800 TFLOPs | 156 TFLOPs | 156 TFLOPs | 16.4 TFLOPs | 15.7 TFLOPs | 10.6 TFLOPs | 10.0 TFLOPs | 6.8 TFLOPs | 5.04 TFLOPs |
ㅤ | ㅤ | ㅤ | ㅤ | ㅤ | (19.5 TFLOPs standard) | (19.5 TFLOPs standard) | ㅤ | ㅤ | ㅤ | ㅤ | ㅤ | ㅤ |
FP64 Compute | 45 TFLOPs | 34 TFLOPs | 34 TFLOPs | 48 TFLOPs | 19.5 TFLOPs | 19.5 TFLOPs | 8.2 TFLOPs | 7.80 TFLOPs | 5.30 TFLOPs | 4.7 TFLOPs | 0.2 TFLOPs | 1.68 TFLOPs |
ㅤ | ㅤ | ㅤ | ㅤ | ㅤ | (9.7 TFLOPs standard) | (9.7 TFLOPs standard) | ㅤ | ㅤ | ㅤ | ㅤ | ㅤ | ㅤ |
Memory Interface | 8192-bit HBM4 | 5120-bit HBM3e | 5120-bit HBM3 | 5120-bit HBM2e | 6144-bit HBM2e | 6144-bit HBM2e | 4096-bit HBM2 | 4096-bit HBM2 | 4096-bit HBM2 | 4096-bit HBM2 | 384-bit GDDR5 | 384-bit GDDR5 |
Memory Size | Up To 192 GB HBM3 @ 8.0 Gbps | Up To 141 GB HBM3e @ 6.5 Gbps | Up To 80 GB HBM3 @ 5.2 Gbps | Up To 94 GB HBM2e @ 5.1 Gbps | Up To 40 GB HBM2 @ 1.6 TB/s | Up To 40 GB HBM2 @ 1.6 TB/s | 16 GB HBM2 @ 1134 GB/s | 16 GB HBM2 @ 900 GB/s | 16 GB HBM2 @ 732 GB/s | 16 GB HBM2 @ 732 GB/s | 24 GB GDDR5 @ 288 GB/s | 12 GB GDDR5 @ 288 GB/s |
ㅤ | ㅤ | ㅤ | ㅤ | ㅤ | Up To 80 GB HBM2 @ 1.6 TB/s | Up To 80 GB HBM2 @ 2.0 TB/s | ㅤ | ㅤ | ㅤ | 12 GB HBM2 @ 549 GB/s | ㅤ | ㅤ |
TDP | 700W | 700W | 700W | 350W | 400W | 250W | 250W | 300W | 300W | 250W | 250W | 235W |
对这个话题感兴趣的小伙伴,欢迎加我一起探索交流~
