AMD的3D V-Cache处理器在人工智能基准测试中,相比非X3D型号带来了巨大的性能提升,这展示了它们为何最适合检索增强生成(RAG)工作流。

我们知道目前有两种主流的人工智能实现方式:第一种是大语言模型(LLM),这是当前最流行的模型。LLM是在海量数据集上预训练的人工智能模型,具有不同的参数规模。但当需要基于其训练数据之外的信息生成回答时,LLM的局限性就会显现。
这正是检索增强生成(RAG)发挥作用的地方。RAG人工智能模型利用外部数据库来检索外部查询的答案。这能提供详细得多的回答,但速度可能比大语言模型(LLM)稍慢。
RAG人工智能严重依赖于向量数据库搜索。尽管图形处理器(GPU)因其高度并行的特性而成为人工智能处理的主要组件,但很大一部分向量搜索是在中央处理器(CPU)上执行的。请求越多,CPU处理失败的可能性就越高,从而导致系统中出现人工智能瓶颈。
随着智能体人工智能(Agentic AI)工作负载的兴起,我们将持续看到CPU处理变得与GPU计算同等重要。随着工作流程变得更加依赖搜索,需要性能更强的CPU来解决延迟瓶颈。
在这种情况下,拥有更大缓存配置的CPU尤其有用。分层可导航小世界(HNSW)搜索算法就是一个例子,当使用GPU执行LLM推理时,该算法依赖于CPU。CPU上更大的缓存可用于减少HNSW检索图所需的时间,从而提升人工智能性能。
为了验证这一理论,GiggleHD在一系列CPU上运行了X3D RAG基准测试,其中包括AMD最新的锐龙9000X3D系列。结果从一开始就显而易见。
X3D RAG基准测试:一个用于衡量CPU缓存和架构如何影响本地/内部部署RAG流程中基于图的向量搜索及相关阶段的开源基准。专为x86 CPU设计(已在AMD和英特尔系统上测试)。
该基准测试针对个人电脑和小型团队的单节点设置(大约10万至20万个向量),并不旨在代表大规模分布式向量数据库服务。
在10万批量搜索测试中,AMD锐龙3D V-Cache处理器的速度最终比非3D V-Cache芯片快了88%。在20万批量搜索测试中,锐龙7 9850X3D相比锐龙7 9700X提供了超过50%的性能提升。两者均为8核CPU。这款8核3D V-Cache CPU的速度也远快于16核的锐龙9 9950X。
在10万索引构建测试中,时间缩短了50%,在20万测试中缩短了39%。3D V-Cache芯片的吞吐量也更快。最后,在并发RAG吞吐量测试中,8核锐龙3D V-Cache CPU表现良好,但在首字词时间(TTFT)吞吐量测试中,所有CPU之间的差异较小,因为这项任务主要依赖于GPU而非CPU。
总体而言,这对于拥有更高缓存配置的芯片来说是一次有趣的展示,尤其是AMD的3D V-Cache系列。这些芯片不仅提供强大的游戏性能,还可以用作出色的人工智能RAG芯片。其主要亮点在于强大的向量搜索、索引构建和并发处理能力。
AMD也将在几天后发布配备两个3D V-Cache芯片的锐龙9 9950X3D2处理器。鉴于它提供了迄今为止所有锐龙桌面处理器中最高的缓存容量,我们可以预期这款芯片也会带来一些强劲的性能数据。



