询问任何一位客观的“氛围程序员”,他们都会无一例外地告诉你,苹果拥有一个出色的生态系统,尽管它因缺乏与必备资源(如英伟达的CUDA)的无缝交互而受到阻碍。CUDA是一个定制的并行计算平台和编程模型,允许开发者使用英伟达的GPU进行通用目的处理。

然而,现在情况不同了。一位Reddit用户能够通过Claude Code的Clawdbot,在短短大约30分钟内将整个CUDA后端移植到AMD的ROCm平台上,此举显著削弱了英伟达此前看似坚不可摧的CUDA护城河。据报道,苹果的Mac mini设备正在热销,因为程序员们无法抗拒将苹果可靠的硬件和一套名副其实的强大服务整合到他们的个人工作流程中。
我们最近展示过,对于不那么复杂的机器学习(ML)和人工智能(AI)任务,在专用的苹果芯片上运行比在英伟达RTX 4090上更便宜。
这一优势的核心在于苹果芯片的统一内存架构,其中CPU和GPU使用相同的内存缓存。例如,M4 Pro Mac mini拥有64GB的RAM(统一内存),而RTX 4090只有24GB的RAM。
当然,苹果似乎正在尽其所能地强调这种聚合计算优势。例如,macOS Tahoe 26.2为苹果的定制机器学习平台MLX引入了新的驱动程序,并全面支持Thunderbolt 5,其最大带宽为80Gb/s,而典型的基于以太网的计算集群带宽仅为10Gb/s。
需要注意的是,苹果芯片依赖Metal Performance Shaders(MPS)——一个计算和图形着色器库——来执行利用PyTorch或TensorFlow等机器学习框架的GPU加速任务,从而在苹果硬件上实现高性能。
即便如此,苹果芯片天生缺乏对英伟达CUDA框架的兼容性,这仍然是采用苹果Mac和Mac mini进行特定AI工作负载(尤其是涉及图像处理的工作)的最大障碍之一。
然而,正如我们最近在一篇专门文章中详述的那样,一位Reddit用户能够使用Claude Code的Clawdbot,将CUDA关键字无缝替换为ROCm的关键字,同时确保特定内核的底层逻辑保持一致,而且无需使用诸如Hipify之类的复杂翻译环境。
这一进展正在激发人们对苹果Mac mini设备的新兴趣,尤其是在“氛围编程”社区中。情况已经变得如此火热,以至于苹果显然正在推出量身定制的营销材料,旨在利用Clawdbot新获得的名声。



