随着语言模型复杂度提升与上下文窗口扩展,GPU搭载的高带宽内存(HBM)逐渐成为性能瓶颈,导致系统不得不反复重新计算无法完全载入HBM的数据。据Blocks and Files报道,Pliops公司通过XDP LightningAI硬件设备与FusIOnX软件解决方案破解了这一难题——该技术将预计算上下文存储于高速SSD中,实现即时调取。官方宣称其方案可达成“近乎”HBM的访问速度,部分推理工作流加速效果最高达八倍。
在推理过程中,语言模型需生成并调用键值数据来管理上下文及维持长序列连贯性。这类信息通常存储在GPU板载内存中,但当活跃上下文超出容量限制时,早期数据会被丢弃。若系统后续仍需调用这些数据,则必须重新计算,导致延迟增加与GPU负载攀升。为解决冗余计算问题,Pliops创新性地通过XDP LightningAI(一种管理GPU与多块高性能SSD间键值数据传输的PCIe设备)构建了新型内存层级。
该加速卡采用定制XDP专用芯片与FusIOnX软件栈实现高效读写,并兼容vLLM、英伟达(Nvidia)Dynamo等AI服务框架。该设计不依赖特定GPU型号,既支持单卡也适配多GPU服务器架构。在多节点部署场景中,还能跨不同推理任务或用户实现缓存数据的路由共享,从而规模化复用持久化上下文。
这种架构使AI推理系统无需扩展GPU硬件即可支持更长上下文、更高并发及更优资源利用率。Pliops强调,相比通过增加GPU来扩展HBM(需注意直接互联的GPU数量存在上限),其方案能以更低成本保留更多上下文历史,且性能损失微乎其微。最终实现在严苛条件下稳定运行大模型推理,同时降低AI基础设施总体拥有成本。
理论层面,即便24块高性能PCIe 5.0 SSD提供的336GB/s带宽仍远逊于H100的3.35TB/s内存带宽,但由于避免了数据重复计算,相较未配备XDP LightningAI与FusIOnX的系统仍能获得显著性能提升。据Pliops实测,其方案可使典型vLLM部署的吞吐量提升2.5至8倍,意味着无需升级GPU硬件即可处理更高频次的用户查询。