2024最佳动作奇幻番,肌肉版哈利波特现登陆网飞
阅读全文

锤刻创思寰宇网
在超大规模处理器上检测故障核心并禁用它们是一个巨大的挑战,但特斯拉开发出名为“Stress”的测试工具。该工具不仅能跨Dojo处理器检测易引发静默数据损坏的核心,还能在包含数百万核心的Dojo集群中实现这一操作——且全程无需停机。特斯拉表示这项能力至关重要,因为单个静默数据错误就可能毁掉耗时数周完成的整个训练任务。
特斯拉Dojo处理器是目前全球两大超大规模处理器之一。这种晶圆级芯片直接采用300毫米晶圆制造,意味着这是单次成型计算芯片的物理极限。每块Dojo晶圆级处理器集成多达8,850个核心,但部分核心在部署后可能引发静默数据损坏(SDC),导致长时间训练结果出错。
鉴于Dojo训练晶片(即大型晶圆级芯片)的极端复杂性,即使在制造过程中检测缺陷裸片也非易事,而静默数据损坏(SDC)的检测则更为复杂。需要明确的是,所有硬件都难以避免SDC问题,但Dojo处理器18,000安培电流和15,000瓦功耗的特性会放大其影响。特斯拉强调每个核心都必须按设计运行,因为单个数据损坏导致的错误可能使数周AI训练成果报废。
特斯拉将每块晶圆级Dojo处理器称为“训练晶片”。每块训练晶片包含25个645平方毫米的D1“芯片”,每个D1集成354个定制64位RISC-V核心(特斯拉称为节点,本文统称核心),配备1.25MB用于存储数据和指令的SRAM。这些核心以5×5阵列排布,通过10TB/s定向带宽的机械网络互连。每个D1还支持4TB/s片外带宽,因此每块训练晶片总计8,850个核心,支持8/16/32/64位整数及多种数据格式。特斯拉采用台积电InFO_SoW技术封装这些晶圆级处理器。
为应对核心故障风险,特斯拉最初采用差分模糊测试技术:生成随机指令集并发送给所有核心,通过比对输出结果发现异常。但由于主机与训练晶片间通信开销过大,该过程耗时过长。
为提高效率,特斯拉改进方法:为每个核心分配独特的0.5MB随机指令负载,核心间通过训练晶片内部高带宽通信相互获取负载并依次执行。这种内部数据交换机制使特斯拉能在极短时间内测试约4.4GB指令。随后进一步优化:允许核心在不清除状态的情况下多次执行负载,通过引入执行环境随机性暴露潜在细微错误。公司表示虽然执行次数增加,但检测可靠性提升远超速度损失。
另一项改进是定期通过XOR运算将寄存器值整合到指定SRAM区域,该方案在已知故障核心测试中将缺陷计算单元识别概率提升10倍,且几乎不影响性能。
特斯拉的方法不仅适用于Dojo训练晶片层级(含12块训练晶片的机柜层级),还能在Dojo集群层级实现百万级活跃核心中的故障定位。报告显示,经优化配置后Stress监测系统在Dojo集群中发现了大量缺陷核心。检测耗时分布差异显著:多数缺陷在执行1-100GB/核心负载指令(对应数秒至数分钟运行时间)时被发现;难检测缺陷可能需要1000+GB指令(对应数小时执行)。
值得注意的是,Stress工具测试过程轻量且封闭在核心内部运行,支持后台测试无需停机。后续仅禁用确认为故障的核心,且每个D1裸片可容忍少量核心禁用而不影响整体功能。
特斯拉透露,Stress工具除检测故障核心外,还发现了一个罕见设计级缺陷,工程师已通过软件调整解决。在监测系统大规模部署过程中,还发现并修复了多个底层软件问题。
目前Stress工具已完全集成到运营中的Dojo集群,在AI训练过程中实时监控硬件健康状态。公司表示通过该监控观察到的缺陷率与谷歌、Meta公布的数据相当,表明其监控工具和硬件水平已达到行业领先标准。
特斯拉计划利用Stress工具获取的数据研究硬件老化导致的长期性能衰减。公司还拟将该方法延伸至硅前测试阶段和早期验证流程,试图在生产前捕获前述故障——尽管考虑到SDC可能由老化引发,具体实现方式仍具挑战性。
开发和制造晶圆级处理器是极其复杂的任务,目前业内仅Cerebras和特斯拉两家公司实现。与其他处理器类似,这些设备也存在缺陷和老化问题。特斯拉创新性地开发出无需停机的故障核心识别方法,标志着重大技术进步。
为Cerebras和特斯拉代工这些巨型处理器的台积电表示,未来将有更多公司采用其SoIC-SoW技术开发晶圆级设计。显然,整个行业正在为此逐步积累经验。