本周早些时候,苹果公司推出了全新的 Mac Studio,这款设备搭载了其性能最强的 M3 Ultra 芯片,并成功打破了公司自身的性能基准。这款芯片配备了多达 32 核的 CPU 和多达 80 核的 GPU,相比前代的 M2 Ultra 芯片,其计算和图形处理性能都有了显著提升。在运行 DeepSeek R1 模型时,M3 Ultra 芯片的表现尤为出色。DeepSeek R1 是一个拥有 6710 亿参数的庞大人机交互模型,而此前的苹果芯片在处理这类模型时表现并不理想。

Cover Image

苹果 Mac Studio 中的 M3 Ultra 芯片在处理 6710 亿参数的 DeepSeek R1 模型时,表现令人惊喜。DeepSeek R1 模型的数据量高达 404GB,对高带宽内存的需求极高,通常只有 GPU 的显存(VRAM)才能满足。得益于苹果的统一内存架构,M3 Ultra 芯片在这一领域展现出了独特的优势,以极低的功耗实现了令人印象深刻的结果。这些细节由 YouTube 频道 Dave2D 分享,他将这款芯片在运行 DeepSeek R1 模型时的性能与此前的苹果芯片进行了对比。

由于 DeepSeek R1 模型的庞大体量,传统 PC 配置通常需要多个 GPU 才能高效运行,这会导致功耗飙升至极高水平。然而,M3 Ultra 芯片却能以更高的效率运行该模型。其统一内存架构提供了一个共享的高带宽内存池,使得人工智能模型能够像使用显存一样利用资源。

需要注意的是,较小的人工智能模型可以在不使用全部资源的情况下稳定运行,但 DeepSeek R1 模型则需要苹果 M3 Ultra 芯片的最高配置——高达 512GB 的内存。然而,macOS 默认限制了显存分配,Dave Lee(戴夫·李)不得不通过终端手动提高限制,将其提升至 448GB。

尽管 DeepSeek R1 模型是一个 4 位量化版本,牺牲了一定的精度,但它仍然保留了 6710 亿参数,并且表现令人惊喜。在运行该模型时,M3 Ultra 芯片在功耗方面具有明显优势,整个系统在运行庞大的 DeepSeek R1 模型时的功耗不到 200 瓦。相比之下,性能相当的 PC 通常需要消耗数倍的电量才能达到类似的结果。戴夫提到,传统的多 GPU 配置需要的功耗是 M3 Ultra 芯片的 10 倍。

令人意外的是,拥有 6710 亿参数的 R1 模型表现优于较小的 700 亿参数版本,这可能是由于架构效率的提升。总的来说,苹果的 M3 Ultra 芯片能够运行远超其规格的模型。


文章标签: #苹果 #M3 Ultra #DeepSeek R1 #统一内存 #低功耗

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。