英特尔Arc Pro B70旨在为AI用户提供易于获取的本地推理能力,以竞争对手一半的价格提供更大的显存。英特尔Arc Pro B70对比英伟达RTX PRO 4000 Blackwell:32 GB对比24 GB,949美元对比1800美元,更大的AI上下文,每美元两倍的令牌数。

Cover Image

我们在另一篇文章中讨论了英特尔Arc Pro B70显卡的发布,重点介绍了该产品的规格、上市时间和价格。B70将成为英特尔Arc Pro产品线中的旗舰级专业与AI产品,英特尔为这款产品展示了一些引人注目的数据。

从高层次来看,英特尔为其Arc Pro B70显卡阐述了以下优势:

  • 与竞争对手相比,英特尔Arc Pro B70的上下文窗口最多可大2.2倍。

  • 在多智能体/多用户工作负载中,英特尔Arc Pro B70的响应速度比竞争对手快最多6.2倍。

  • 与竞争对手相比,英特尔Arc Pro B70的每美元令牌性能最多可达2倍。

首先,考虑到其在这个价位上的规格,英特尔Arc Pro B70看起来非常令人印象深刻。英特尔将Arc Pro B70定位为与英伟达RTX PRO 4000 Blackwell竞争的产品。后者通常售价约为1800美元,几乎是起售价为949美元Arc Pro B70的两倍。其中一个主要优势非常明显,那就是显存。RTX Pro配备24 GB显存,而Arc Pro B70则拥有32 GB显存,容量高出33%。

32 GB显存对AI至关重要,因为更大的显存意味着更大的AI上下文。在第一个基准测试中,英特尔展示了这些显卡的令牌吞吐量与上下文长度的关系。使用的模型是Llama 3.1 8b,并利用了BF16精度。RTX PRO 4000在显存耗尽前支持42K的上下文长度。与此同时,Arc Pro B70在显存耗尽前支持高达93K的上下文长度。这相当于最多2.2倍的上下文窗口。

接下来,英特尔展示了并行的多智能体流程。这里使用的模型是Ministral Instruct 2410 8B(BF16),可以看到在Linux操作系统中,对于多用户/多请求,B70提供的令牌吞吐量比英伟达RTX PRO 4000高出最多85%。Arc Pro以一半的成本提供了比英伟达的Blackwell产品高得多的吞吐量。

英特尔Arc Pro B60也为多用户提供了更快的答案,其首个令牌生成时间比竞争对手更快。在这里,领先优势扩大到最多6.2倍,令人印象深刻。请注意,这不仅仅是硬件的功劳,英特尔自身的oneAPI和AI软件栈也在协同工作,以提供更快的吞吐量。

这种能力在可扩展的多GPU软件栈中得到了进一步体现,该软件栈支持多GPU配置,为在多GPU设置中运行更大的模型和上下文打开了空间。

在DS-R1-Distill-Qwen 3 32B(Int4)模型中,英特尔Arc Pro B70支持高达183K的上下文窗口,而RTX PRO 4000为80K;在Qwen3 32B(FP8)模型中,支持304K的上下文窗口,而RTX PRO 4000为199K;在Mistral-Small 24B(BF16)模型中,支持408K的上下文窗口,而RTX PRO 4000为243K。这些测试是在英特尔和英伟达各自的4-GPU解决方案上运行的。

展望未来,英特尔展示了其Arc Pro B70 GPU在单GPU、双GPU和四GPU系统中,每美元令牌数最多可达竞争对手的2倍。因此,其性能非常具有可扩展性,非常适合运行单路入门级工作站或高端多GPU堆栈的用户。

总而言之,这是对英特尔全新AI性能强者的一个非常积极的展示,而且其成本对AI和专业用户来说将非常有吸引力。随着Arc Pro B70和高性价比的B65在零售货架上推出,未来几个月似乎会非常有趣。不过,问题仍然存在:我们是否会看到面向游戏的Big Battlemage变体,也许类似于Radeon VII那样,其GPU原本为专业用户打造,但最终作为面向游戏的小众发烧友显卡推出。


文章标签: #英特尔 #英伟达 #AI显卡 #性能对比 #显存

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。