谷歌云近日推出了全新的A4X虚拟机,这款虚拟机由英伟达基于GB200的NVL72机器提供支持。其机架级系统配备了72个B200 GPU和36个Grace CPU(2596个基于Armv9的Neoverse V2核心),通过NVLink实现互联,能够实现所有72个GPU之间的无缝内存共享,从而大幅提升响应时间和推理准确性。此外,该系统还支持并发推理请求,非常适合多模态人工智能应用。

Cover Image

在性能方面,A4X虚拟机的训练效率是之前使用英伟达H100 GPU的A3虚拟机的四倍。谷歌云承诺,每台GB200 NVL72系统能够提供“超过1 ExaFLOPS”的计算能力,潜在性能可达1440 FP8/INT8/FP6 PetaFLOPS,足以应对大规模并发工作负载的训练和推理需求。

A4X虚拟机还配备了基于英伟达ConnectX-7网卡的钛金属机器学习网络适配器,可实现每秒28.8太比特(72×400 Gbps)的不间断低延迟GPU到GPU通信。谷歌云的Jupiter网络结构能够连接各个NVL72域,使其能够在无阻塞集群中无缝扩展至数万个Blackwell GPU。人工智能团队可以通过谷歌Kubernetes引擎(GKE)部署A4X虚拟机,该引擎支持多达65000个节点的集群。此外,谷歌还采用了先进的共享和流水线技术,以最大化大规模部署中的GPU利用率。

A4X虚拟机还与谷歌云服务实现了无缝集成。谷歌支持Cloud Storage FUSE,可将训练数据吞吐量提升2.9倍,而Hyperdisk ML则可将模型加载时间加快11.9倍。

目前,谷歌云同时提供A4和A4X两种虚拟机,分别针对不同的人工智能工作负载进行了优化。A4X配备GB200 NVL72系统,主要面向大规模人工智能、长上下文语言模型和高并发应用;而A4则由B200 GPU和未知处理器驱动,更适合一般人工智能训练和微调。不过,A4X和A4的具体价格尚未公布。

谷歌云的这一新举措无疑为人工智能领域带来了新的动力,无论是对于需要处理复杂模型的科研人员,还是对于追求高效训练的企业来说,A4X虚拟机都提供了强大的支持。随着人工智能技术的不断发展,谷歌云的A4X虚拟机或许将成为推动行业进步的重要力量。


文章标签: #谷歌云 #英伟达 #人工智能 #GPU #虚拟机

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。