苹果新CoreAI引擎面世，8B模型性能与MLX持平

苹果终于推出了CoreAI，这是其统治了大约9年的CoreML引擎的全新继任者。新框架支持格式无关的推理和大模型内存占用。尽管如此，初步测试却描绘出了一幅更为复杂的图景，涉及苹果（Apple）的新AI框架及其端侧模型。

新的基准测试表明，在8B参数规模的实用模型上，苹果的CoreAI在解码性能上与MLX几乎持平。

或许有人不了解背景：苹果早在2017年就推出了CoreML机器学习框架，主要用于运行图像分类、树集成等小型静态机器学习任务。而CoreAI是专为边缘AI和端侧推理优化的全新继任者。

相比之下，MLX是一个主要面向研究、训练和微调的引擎，且被锁定在苹果的Metal GPU和统一内存架构上。

我在iPhone 17 Pro上对苹果全新的CoreAI（WWDC'26）与MLX和CoreML进行了端侧大语言模型（LLM）基准测试。结果令我惊讶。Qwen3-0.6B解码速度（tokens/秒）：

CoreAI（GPU，流水线）：180
MLX（GPU）：115
CoreAI（ANE）：50
CoreML-LLM（ANE）：39

现在，一项新的基准测试为我们提供了关于苹果新CoreAI引擎的有趣洞察。首先，对于像Qwen3 0.6B这样的小模型，CoreAI在M4 Mac上的解码速度比MLX快约2.47倍。同样，在iPhone 17 Pro上，基于Qwen3 0.6B模型，CoreAI的解码速度比MLX快约1.6倍。然而，当模型规模增加到更实用的80亿参数（Qwen3 8B，M4 Max Mac）时，CoreAI仅比MLX快1.05倍，解码性能几乎持平。

有趣的是，在iPhone 17 Pro的持续负载下，GPU会相对较快地降频，这使得CoreML/苹果神经网络引擎（Apple Neural Engine）组合在性能保持方面脱颖而出。这个组合消耗的内存也最少，但解码速度也是最慢的。

针对特定供应商模型的优化引擎几乎总是优于通用引擎。例如，谷歌的LiteRT-LM引擎运行其Gemma模型时，不仅是iPhone 17 Pro上最快的引擎（每秒55.4个词元），而且使用的内存比苹果自己的MLX框架少4.5倍（641 MB 对比 2900 MB）。

最后，苹果基础模型（Apple Foundation Models）被发现“每个词元的能效是GPU运行时环境的2倍，是CoreML/ANE的4倍”。

搜索结果如下

阅读全文

苹果新CoreAI引擎面世，8B模型性能与MLX持平

也可以看看

索尼重启《蜘蛛侠》系列，汤姆·霍兰德版彼得·帕克本周正式回归

阅读全文

Take-Two CEO亲口确认，《侠盗猎车手6》将于2026年11月19日如期发售

阅读全文

《蜘蛛侠：崭新之日》预告发布，浩克蝎子回归

阅读全文