华为于11月21日发布开源编排工具Flex:ai,该平台基于Kubernetes构建,旨在提升大规模计算集群中AI芯片的利用率。在美国持续对高端GPU硬件实施出口管制之际,这一举措反映出中国正日益转向通过软件端效率提升来缓解芯片供应压力。

Cover Image

华为宣称,Flex:ai不仅能助力中国“打造比英伟达芯片快1000倍的模拟AI芯片”,还能将平均利用率提升约30%。其技术原理是将单个GPUNPU卡切割为多个虚拟计算实例,并在异构硬件间实现工作负载协同调度——原本无法充分利用整块加速器的小型任务可并行堆叠处理,而超出单设备承载能力的大型模型则可跨多张芯片运行。

该工具内置名为Hi Scheduler的智能调度器,能实时跨节点重新分配闲置资源,自动将算力调度至存在AI工作负载队列的位置。

Flex:ai的架构既构建于现有开源Kubernetes基础之上,又通过开放式部署中仍属罕见的方式实现功能扩展。虽然Kubernetes本身已支持通过设备插件暴露加速器,Volcano等调度器或Ray等框架也能实现分片分配与组调度,但Flex:ai似乎在更高层级实现了统一整合,同时兼容标准GPU硬件与昇腾NPU

此次发布的功能与英伟达2024年收购的编排平台Run:ai相似,后者支持大型GPU集群的多租户调度与工作负载抢占。至少从技术指标来看,华为版本提出了类似承诺,但更侧重于开源部署与跨加速器兼容性,这使其在以中国芯片为核心的集群中——特别是使用昇腾芯片的集群——具有更广泛的适用性。

目前开源代码尚未发布,华为也未公开技术文档或性能基准。待平台开放后,关键问题将包括分片细粒度、与标准Kubernetes调度器的交互机制,以及是否通过标准插件支持广泛使用的GPU类型。该公司透露,上海交通大学西安交通大学厦门大学的研究人员参与了该工具的研发工作。


文章标签: #华为 #Flexai #Kubernetes #AI芯片 #昇腾

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。