ChatGPT开放Spotify账户连接,实现智能音乐推荐与播放控制
阅读全文

锤刻创思寰宇网
英特尔正式发布了其Xe3图形架构,该架构将集成于“Panther Lake”酷睿 Ultra 300系列处理器的集成显卡中。未来还将推出Xe3P变体架构。
去年,英特尔推出了Xe2架构,该架构已集成到两款客户端产品中:作为集成显卡的Lunar Lake“酷睿 Ultra 200”系列处理器,以及Arc B系列“Battlemage”独立显卡。得益于从Xe1架构和Arc Alchemist A系列家族中汲取的经验,Xe2在这两个平台上都取得了更为成功的市场表现。
该公司在软件方面也取得了长足进步,为其图形架构提供了出色的驱动程序支持,这不仅限于游戏,也极大地惠及了内容创作、渲染和人工智能工作负载。最近发布的Arc Pro系列也在与Battlemage显卡相同的驱动程序分支中获得了支持。
过去几个月的情况表明,英特尔在图形领域持续提供着扎实的更新。架构变得更好,软件在优化和利用架构方面也做得更出色。随着“Panther Lake”酷睿 Ultra 300系列的发布在即,全新的Xe架构世代——代号Xe3——也随之而来。
采用英特尔Xe3架构的集成显卡将被冠以Arc B系列品牌。与此同时,下一代Xe3P架构也已曝光。
对于Xe3,英特尔在其Xe2架构的基础上进行了扩展,将图形核心配置规模化,并提供了更优化的吞吐量设计。需要指出的是,尽管另一Arc B系列家族成员——Battlemage独立显卡——基于Xe2架构,而Panther Lake集成显卡基于Xe3架构,但英特尔表示,由于Xe2和Xe3在某些方面相似,因此决定在集成和独立显卡产品线上采用统一的品牌系列。
话虽如此,英特尔确实已在规划新的Arc家族,该家族将使用名为Xe3P的升级版Xe3 GPU架构,据称这将是一个重大的进步。虽然没有公布更多细节,但看起来英特尔并非直接转向Xe4,而是将进一步优化Xe3用于未来产品,这些产品可能是集成显卡也可能是独立显卡。基于轮廓推测,Xe3P可能用于独立显卡解决方案,但也可能是为Nova Lake处理器准备的高端集成显卡配置,值得我们持续关注。
此外,Xe3P GPU将不会像Battlemage独立显卡或Panther Lake集成显卡那样归属于Arc B系列,而是将应用于下一个Arc家族,或许是Arc C系列?
现在,让我们深入了解Xe3的细节。首先,英特尔对新架构做的第一件事就是扩展渲染切片。Xe2的每个渲染切片配置了4个Xe核心和4个光线追踪单元。而Xe3将此提升至每个渲染切片包含6个Xe核心和6个光线追踪单元。这意味着每个渲染切片的核心数和光线追踪单元数量增加了50%。
这使得英特尔能够在其Panther Lake片上系统(SoC)中利用多样化的GPU芯片配置。有面向8核和16核芯片的4个Xe核心 GPU配置,以及面向顶级16核芯片的12个Xe核心 GPU配置。这将形成一个有趣的对比,因为Arrow Lake和Lunar Lake分别基于Xe1和Xe2架构,最多都只配备了8个Xe核心。Panther Lake在8核和16核型号上使用了4个Xe核心,这仅是当前产品线的一半,但图形架构的改进应能保持其竞争力。
现在,我们来谈谈这两种配置。首先是4个Xe核心的配置,它有两种版本:8核版本采用“Intel 3”制程技术制造,而16核版本采用“台积电N3E”制程技术制造。具体配置如下:
4个Xe核心(Xe3架构)
1个渲染切片
32个 XMX引擎
4 MB L2缓存
1个几何管线
4个采样器
4个光线追踪单元
2个像素后端
12个Xe核心的集成显卡采用台积电N3E制程技术制造。其配置如下:
12个Xe核心(Xe3架构)
2个渲染切片
96个 XMX引擎
16 MB L2缓存
2个几何管线
12个采样器
12个光线追踪单元
4个像素后端
配备4 MB L2缓存的4个Xe核心集成显卡配置,其缓存容量是Lunar Lake的Xe2集成显卡(配备8 MB L2缓存)的一半。但顶级的12个Xe核心集成显卡配置则拥有翻倍的L2缓存。缓存的翻倍有助于减少SoC内部数据交互流量,在游戏中可实现高达36%的流量减少,平均减少25%。
接下来谈谈Xe3架构内部实现的变革。第三代Xe核心具备八个512位矢量引擎(XVE)、八个2048位 XMX引擎,以及共享L1/SLM缓存容量增加33%。
在Xe3架构上,Xe矢量引擎现在提供了更高的利用率,线程数增加高达25%,支持可变寄存器分配和FP8反量化。它由SIMD16原生ALU、3路协同发射、扩展数学和FP64模块以及Xe矩阵扩展组成。
Xe3的XMX引擎负责AI加速。凭借多达96个 XMX引擎,12个Xe核心的集成显卡能够提供高达120 TOPs的AI算力。据此计算,4个Xe核心的集成显卡可提供高达40 TOPs的算力。基于Xe2架构的8个Xe核心集成显卡可提供高达67 TOPs的算力。使用相同的计算方法,一个拥有8个Xe核心的Xe3集成显卡将能够提供67 TOPs的AI计算性能,提升幅度为25%。
以下是每个Xe核心每时钟周期的操作数:
XMX TF32:1024 操作/时钟
XMX FP16:2048 操作/时钟
XMX BF16:2048 操作/时钟
XMX INT8:4096 操作/时钟
XMX INT4:8192 操作/时钟
XMX INT2:8192 操作/时钟
英特尔还使用了新的增强型光线追踪单元,该单元具备用于异步光线追踪的动态光线管理功能。该光线追踪单元包含多个遍历管线、两个三角形相交单元和一个BVH缓存。改进来自于光线在管线中移动的方式,这是通过减缓新光线的调度来实现的,以防止它们在通过线程排序单元时在管线中产生备份。
另一个重大改进是新的URB管理器,它允许进行部分更新,而非完全重构。URB是GPU内部传递结果的一种结构。新架构还支持高达2倍的各向异性过滤性能和高达2倍的模板测试速率。
最后,在媒体方面,英特尔支持AV1编码/解码、VVC解码,并支持eDP 1.5技术。所有这些结合在一起,构成了Panther Lake的Xe3架构。一些新增功能包括AVC 10位支持,以及索尼 XAVC-H、XAVC-HS 和 XAVC-S 支持。
英特尔也分享了一些Xe3 GPU的早期性能指标,主要是微基准测试,这些测试可以评估GPU微架构的各个部分,并显示相较于上一代的性能提升幅度。
首先是混合和后端性能指标,这些指标显示变化很小或没有变化,因为分配给它们的资源在Xe3上保持不变。GEMM中的FP16指标有50%的提升,这与GPU的规模成比例。Xe3比Xe2大50%,这就是此改进的来源,因为这些微基准测试可以充分利用架构的能力。接下来是微架构增强,例如各向异性过滤率、网格渲染率、分散读取和光线/三角形相交性能,提升幅度从2倍到2.7倍不等。
英特尔还展示了Xe3在一些方面取得的巨大改进,例如深度测试和寄存器密集型应用,与前一代相比,提升幅度可超过7倍。
现在来看Panther Lake上Xe3的实际性能指标,与Lunar Lake上的Xe2以及Arrow Lake-H上的Xe+进行对比。在峰值功耗下,Xe3的性能比Lunar Lake高出50%以上;与Arrow Lake-H相比,每瓦性能高出40%以上。
英特尔还在其Windows图形软件栈中增加了软件优化。其中首先包括通过IGC交付的编译器更新,英特尔现已改进可变寄存器分配,这是一个关键更新。
然后是支持直接抢占的更快调度,这意味着英特尔可以在不刷新上下文的情况下进行切换,并且还支持DirectX Cooperative Vectors。英特尔还展示了一个作为其“神经辐射场”项目一部分的演示,该演示利用了合作矢量。
英特尔Xe3集成显卡看起来是对现有Xe2架构的一次扎实升级。目前,Xe2架构在主流笔记本电脑领域与最快的RDNA 3.5集成显卡(如Radeon 890M和880M)性能相当。虽然它未必能达到采用更大规模RDNA 3.5实现的高端Strix Halo的同等性能水平,但近期英特尔与英伟达的定制SoC合作似乎将覆盖该细分市场。