AMD 3D V-Cache技术成AI利器，锐龙处理器RAG性能飙升88%

AMD的3D V-Cache处理器在人工智能基准测试中，相比非X3D型号带来了巨大的性能提升，这展示了它们为何最适合检索增强生成（RAG）工作流。

Cover Image

我们知道目前有两种主流的人工智能实现方式：第一种是大语言模型（LLM），这是当前最流行的模型。LLM是在海量数据集上预训练的人工智能模型，具有不同的参数规模。但当需要基于其训练数据之外的信息生成回答时，LLM的局限性就会显现。

这正是检索增强生成（RAG）发挥作用的地方。RAG人工智能模型利用外部数据库来检索外部查询的答案。这能提供详细得多的回答，但速度可能比大语言模型（LLM）稍慢。

RAG人工智能严重依赖于向量数据库搜索。尽管图形处理器（GPU）因其高度并行的特性而成为人工智能处理的主要组件，但很大一部分向量搜索是在中央处理器（CPU）上执行的。请求越多，CPU处理失败的可能性就越高，从而导致系统中出现人工智能瓶颈。

随着智能体人工智能（Agentic AI）工作负载的兴起，我们将持续看到CPU处理变得与GPU计算同等重要。随着工作流程变得更加依赖搜索，需要性能更强的CPU来解决延迟瓶颈。

在这种情况下，拥有更大缓存配置的CPU尤其有用。分层可导航小世界（HNSW）搜索算法就是一个例子，当使用GPU执行LLM推理时，该算法依赖于CPU。CPU上更大的缓存可用于减少HNSW检索图所需的时间，从而提升人工智能性能。

为了验证这一理论，GiggleHD在一系列CPU上运行了X3D RAG基准测试，其中包括AMD最新的锐龙9000X3D系列。结果从一开始就显而易见。

X3D RAG基准测试：一个用于衡量CPU缓存和架构如何影响本地/内部部署RAG流程中基于图的向量搜索及相关阶段的开源基准。专为x86 CPU设计（已在AMD和英特尔系统上测试）。

该基准测试针对个人电脑和小型团队的单节点设置（大约10万至20万个向量），并不旨在代表大规模分布式向量数据库服务。

在10万批量搜索测试中，AMD锐龙3D V-Cache处理器的速度最终比非3D V-Cache芯片快了88%。在20万批量搜索测试中，锐龙7 9850X3D相比锐龙7 9700X提供了超过50%的性能提升。两者均为8核CPU。这款8核3D V-Cache CPU的速度也远快于16核的锐龙9 9950X。

在10万索引构建测试中，时间缩短了50%，在20万测试中缩短了39%。3D V-Cache芯片的吞吐量也更快。最后，在并发RAG吞吐量测试中，8核锐龙3D V-Cache CPU表现良好，但在首字词时间（TTFT）吞吐量测试中，所有CPU之间的差异较小，因为这项任务主要依赖于GPU而非CPU。

总体而言，这对于拥有更高缓存配置的芯片来说是一次有趣的展示，尤其是AMD的3D V-Cache系列。这些芯片不仅提供强大的游戏性能，还可以用作出色的人工智能RAG芯片。其主要亮点在于强大的向量搜索、索引构建和并发处理能力。

AMD也将在几天后发布配备两个3D V-Cache芯片的锐龙9 9950X3D2处理器。鉴于它提供了迄今为止所有锐龙桌面处理器中最高的缓存容量，我们可以预期这款芯片也会带来一些强劲的性能数据。

搜索结果如下

阅读全文

AMD 3D V-Cache技术成AI利器，锐龙处理器RAG性能飙升88%

也可以看看

《超级少女》降临前，《超人》登顶Prime，詹姆斯·古恩DC新宇宙看点十足

阅读全文

玩家呼吁推迟PS6发布：官方定价曝光后引发担忧

阅读全文

内部人士爆料：卡普空对《生化危机5》和《生化危机6》的重制毫无头绪

阅读全文