本周,DeepSeek AI在其开源周活动期间,正式宣布将其旗下的Fire-Flyer Fire System(3FS)并行文件系统全面开源。这家来自中国的颠覆性人工智能公司表示,3FS在其服务器集群中能够实现高达7.3TB/s的聚合读取吞吐量。自2019年起,DeepSeek便开始使用3FS来组织其服务器集群,如今这一技术终于面向公众开放。

Cover Image

3FS是一个基于Linux的并行文件系统,专为人工智能高性能计算(AI-HPC)场景设计。在这一场景中,众多数据存储服务器需要频繁地被GPU节点访问,以支持大型语言模型(LLM)的训练。3FS的独特之处在于其对随机读取速度的极致优化,几乎完全忽略了读取缓存。在训练人工智能模型时,计算单元需要不断访问随机的训练数据,而这些数据的读取过程是一次性的,因此读取缓存的作用微乎其微,甚至可能带来负面影响。3FS通过摒弃读取缓存,避免了在训练LLM时因重复读取相同数据而导致的潜在问题。由于LLM本质上是经过高度优化的推理机器,重复以相同顺序读取数据可能会将毫无关联的数据错误地关联到语言模型中,从而影响模型的准确性和效率。

去年8月,负责运营DeepSeek深度学习集群Fire-Flyer 2的团队发表了一篇论文,详细介绍了3FS在该定制系统中的应用。在Fire-Flyer 2中,DeepSeek部署了180个存储节点,每个节点配备了16块16TB的固态硬盘和两个200Gbps的网络单元。这些节点为10000个PCIe接口的Nvidia A100 GPU提供服务,而这些GPU构建于成本更低的服务器中,相比Nvidia专有的DGX-A100产品更具性价比。

在实际测试中,DeepSeek声称3FS在运行训练任务的同时,能够达到6.6TB/s的性能表现,而训练任务本身又额外贡献了1.4TB/s的读取吞吐量。相比之下,竞争对手的文件系统Ceph在2024年初首次达到1.1TB/s的读取吞吐量,当时测试的服务器拥有68个节点,每个节点配备10块16TB的固态硬盘和2×100Gbps的网络。这一对比结果显示,3FS在性能上具有显著优势。

3FS被认为是DeepSeek软件堆栈中训练人工智能模型的关键技术之一。在上述论文中提到的Fire-Flyer 2高性能计算解决方案中,3FS帮助实现了与Nvidia DGX-A100服务器解决方案相当80%的性能,但成本仅为后者的一半,功耗也仅为60%。这表明3FS在性价比和能效方面表现出色,为人工智能训练提供了高效且经济的解决方案。

对于那些对3FS及其面向随机读取的AI-HPC解决方案感兴趣的人,可以在DeepSeek的GitHub页面上找到完整的下载链接。我们相信,这个全新的开源系统可能会受到科技爱好者和企业用户的广泛关注。尽管如此,3FS在推广过程中可能仍需克服一些外部因素的影响,例如部分用户可能存在的对“中国技术”的偏见。然而,凭借其卓越的性能和开源的优势,3FS有望在人工智能高性能计算领域取得重要地位。


文章标签: #人工智能 #并行文件系统 #开源技术 #高性能计算 #DeepSeek

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。