来今网 > 百态 > 正文

老黄 H100 再破纪录，4 分钟训完 GPT-3，全新「特供版」H20、L20 和 L2 曝光

2023-11-11 12:09 来源：来今网点击：

老黄 H100 再破纪录，4 分钟训完 GPT-3，全新「特供版」H20、L20 和 L2 曝光，性能史诗级缩水

9 项基准测试，刷新记录

【导读】英伟达 H100 再次刷榜了，不到 4 分钟就训完 GPT-3，比 6 月成绩提升 3 倍。另外，特供版 H20、L20 和 L2 性能全都爆出。

H100 再次在 MLPerf 中刷新了记录！

英伟达超算 NVIDIA Eos 在 GPT-3 模型的基准测试中，只用了 3.9 分钟就完成了训练。

这比 6 月份的刷新记录的成绩—— 10.9 分钟，提升了近 3 倍。

Eos 使用了多达 10,752 个 H100 和 NVIDIA Quantum-2 InfiniBand 网络互连。

通过推算，Eos 现在可以在短短 8 天内进行训练，比之前使用 512 个 A100 GPU 的先进系统快 73 倍。

在本轮新的生成式 AI 测试中，1,024 个 NVIDIA Hopper 架构 GPU 在 2.5 分钟内完成了基于 Stable Diffusion 文本到图像模型的训练基准测试，为这一新工作负载设定了高标准。

与此同时，外媒曝光了英伟达为应对新规而打造的全新「特供版」芯片—— H20、L20 和 L2。

系统扩展效率飙升 93%

最新的结果部分是由于使用了有史以来应用于 MLPerf 基准测试的最多加速器。

10,752 个 H100 GPU 远远超过了 6 月份 AI 训练的规模，当时英伟达使用了 3,584 个 Hopper GPU。

GPU 数量扩展 3 倍，性能扩展了 2.8 倍，效率达到 93%，这在一定程度上要归功于软件优化。

高效扩展是生成式 AI 的关键要求，因为 LLM 每年都在以一个数量级的速度增长。

最新结果显示，即使是世界上最大的数据中心，英伟达也有能力应对这一前所未有的挑战。

这一成就归功于加速器、系统和软件创新的全栈平台，Eos 和 Microsoft Azure 在最近一轮测试中都使用了该平台。

Eos 和 Azure 在各自的提交中都采用了 10,752 个 H100。它们的表现相差不到 2%，展示了英伟达 AI 在数据中心和公有云部署中的高效性。

英伟达依靠 Eos 完成了各种关键任务。

它有助于推进 NVIDIA DLSS 和 ChipNeMo 等计划，后者是帮助设计下一代 GPU 的生成式 AI 工具。

9 项基准测试，刷新记录

除了在生成式 AI 方面取得进步，英伟达在这一轮测试中还刷新了几项新的记录。

比如，在训练推荐系统模型的测试中，H100 GPU 比上一轮快了 1.6 倍。在计算机视觉模型 RetinaNet 的测试中，性能提高了 1.8 倍。

这些性能提升来源于软件和硬件规模扩充的优化结合。

英伟达再次成为唯一一家完成了所有 MLPerf 测试的公司。H100 在 9 项基准测试中展示了最快的性能和最大的扩展性。

这些加速为用户训练大模型或用 NeMo 等框架自定义模型以满足业务需求 , 带来了更快上市时间、更低成本和节省能源。

这一轮测试中，包括华硕、戴尔技术、富士通、技嘉、联想、QCT 和超微等 11 家系统制造商在提交结果中使用了 NVIDIA AI 平台。

特供版 H20、L20 和 L2 性能曝光

在过去几年中，美国对高性能硬件出口实施了非常严格的限制。

尤其是在 2023 年 11 月生效的新规，更是要求所有达到一定总处理性能和 / 或性能密度的硬件都必须获得出口许可。

据最新泄露的文件和四位熟悉内情的人士透露，为了遵守美国的出口管制，英伟达已经推出了三款全新的「中国定制版」芯片—— HGX H20、L20 PCle 和 L2 PCle GPU。

其中，HGX H20 配有高达 96GB 的 HBM3 显存，以及 4TB/s 的带宽，并且基于全新的 Hopper 架构。

与 H100 的 50MB 二级缓存相比，H20 还拥有更大的 60MB 二级缓存。

然而在性能方面，HGX H20 只能提供 FP64 精度1 TFLOPS（H100 为34 TFLOPS）和 FP16/BF16 精度148 TFLOPS（H100 为1,979 TFLOPS）的算力。

由此，功耗也从 700W 降到了 400W。

有趣的是，基于安培架构并配备 24GB HBM2 的入门级 A30 GPU，在 FP64 和 FP16/BF16 精度下，都要比 HGX H20 快不少。

至于 L20 和 L2 PCIe GPU，则是基于阉割后的 AD102 和 AD104 核心，对应的是与 L40 和 L40S 相同的市场。

更直观地，RTX 4090 采用的便是 AD102 的变体，而 4070 和 4070Ti 则是基于 AD104 的变体。

除此之外，为了遵守新规，HGX H20、L20 PCle 和 L2 PCle GPU 不仅性能是残血的，而且还只配备了残血版的 NVLink 连接。

相关标签：

上一篇：被车企吹爆的 800V 高压平台到底是什么能解决电车的补能焦虑吗？
下一篇：月球上能种植吗？中国科研团队发现三种细菌组合可提升月壤肥力

被车企吹爆的 800V 高压平台到底是什么能解决电车的补能焦虑吗？

2023-11-11 12:07:01
大模型，果然成了乌镇峰会 C 位

2023-11-11 12:04:45
毫无特色的 iPhone SE4，注定打不过安卓旗舰

2023-11-11 12:02:29
佛陀十大弟子排名(佛陀的弟子有哪些)

2023-11-10 00:09:14
少见的稀有的绝版符号可复制(少见的稀有符号有哪些)

2023-11-10 00:06:58
法拉利纯电工厂准备就绪：2025 年将推出首款纯电跑车

2023-11-10 00:04:42
黄河流经哪些城市(黄河经过城市的顺序)

2023-11-10 00:02:26
圣贤书是指哪些书(人为什么要读圣贤书)

2023-11-10 00:00:10
侯宝林有几个名徒(侯宝林的徒弟有哪些)

2023-11-09 23:57:54
网传蔚来车主利用换电权益“薅羊毛”：车辆给超市供电

2023-11-09 23:55:38
女子将 3 岁女儿推入池塘，警方通报

2023-11-09 23:53:22
车子买了快一年驾照还没考到，夫妻俩竟无证驾驶开上高速

2023-11-09 23:51:06
宝马 iX5 氢燃料电池车国内亮相：续航 504 公里，3-4 分钟完成补能

2023-11-09 23:48:50
三月份的水果有哪些(三月份吃什么应季水果)

2023-11-08 23:06:10
元宵有馅吗(元宵馅有哪些口味)

2023-11-08 23:03:53
直男的特征有哪些(直男有哪些特征表现)

2023-11-08 23:01:37
赵薇旗下艺人有哪些(赵薇旗下艺人现状)

2023-11-08 22:59:21
都市编舞是什么舞种(都市编舞包括哪些舞种)

2023-11-08 22:57:05
唐山籍高官及名人有哪些(唐山籍高官及名人都有谁)

2023-11-08 22:54:49
贵阳必去的网红景点(贵阳网红景点有哪些)

2023-11-08 22:52:33

热门图文

“海王”妻子提交离婚申请

“海王”妻子提交离婚申请

新疆人叫古丽新疆女孩古丽什么意思

新疆人叫古丽新疆女孩古丽什么意思

热门排行

相关文章