苹果终于推出了CoreAI,这是其统治了大约9年的CoreML引擎的全新继任者。新框架支持格式无关的推理和大模型内存占用。尽管如此,初步测试却描绘出了一幅更为复杂的图景,涉及苹果(Apple)的新AI框架及其端侧模型。

Apple-CoreAI-1-scaled.jpeg

新的基准测试表明,在8B参数规模的实用模型上,苹果的CoreAI在解码性能上与MLX几乎持平。

或许有人不了解背景:苹果早在2017年就推出了CoreML机器学习框架,主要用于运行图像分类、树集成等小型静态机器学习任务。而CoreAI是专为边缘AI和端侧推理优化的全新继任者。

相比之下,MLX是一个主要面向研究、训练和微调的引擎,且被锁定在苹果的Metal GPU和统一内存架构上。

我在iPhone 17 Pro上对苹果全新的CoreAI(WWDC'26)与MLXCoreML进行了端侧大语言模型(LLM)基准测试。结果令我惊讶。Qwen3-0.6B解码速度(tokens/秒):

  • CoreAI(GPU,流水线):180

  • MLX(GPU):115

  • CoreAI(ANE):50

  • CoreML-LLM(ANE):39

现在,一项新的基准测试为我们提供了关于苹果新CoreAI引擎的有趣洞察。首先,对于像Qwen3 0.6B这样的小模型,CoreAIM4 Mac上的解码速度比MLX快约2.47倍。同样,在iPhone 17 Pro上,基于Qwen3 0.6B模型,CoreAI的解码速度比MLX快约1.6倍。然而,当模型规模增加到更实用的80亿参数(Qwen3 8BM4 Max Mac)时,CoreAI仅比MLX快1.05倍,解码性能几乎持平。

有趣的是,在iPhone 17 Pro的持续负载下,GPU会相对较快地降频,这使得CoreML/苹果神经网络引擎(Apple Neural Engine)组合在性能保持方面脱颖而出。这个组合消耗的内存也最少,但解码速度也是最慢的。

针对特定供应商模型的优化引擎几乎总是优于通用引擎。例如,谷歌的LiteRT-LM引擎运行其Gemma模型时,不仅是iPhone 17 Pro上最快的引擎(每秒55.4个词元),而且使用的内存比苹果自己的MLX框架少4.5倍(641 MB 对比 2900 MB)。

最后,苹果基础模型(Apple Foundation Models)被发现“每个词元的能效是GPU运行时环境的2倍,是CoreML/ANE的4倍”。


文章标签: #机器学习 #边缘AI #苹果 #CoreML #MLX

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。