埃隆·马斯克(Elon Musk)旗下xAI公司孟菲斯超级计算集群的首期工程现已全面投入运营。随着现场变电站正式启用并接入主电网,该设施将从孟菲斯燃气水务公司(MLGW)和田纳西河流域管理局(TVA)获得150兆瓦电力供应。据大孟菲斯商会透露,这座名为“巨像”(Colossus)的超级计算机还配备了150兆瓦的Megapack储能系统作为后备电源,确保在电网中断或用电高峰期间持续运行。
马斯克于去年7月首次启动该人工智能计算集群,其单一架构内集成了10万块英伟达H100 GPU。这座超级计算机的建设速度令人惊叹,从开工到运行仅耗时19天——英伟达CEO黄仁勋(Jensen Huang)表示同类项目通常需要四年。但如此高速的建设意味着需要采取临时措施:由于未能及时接入电网,初期场地内停放了14台单机功率2.5兆瓦的天然气涡轮发电机(近期有居民投诉周边区域涡轮机数量已超过35台)。
随着首期工程接入TVA电网(该电网60%电力来自水电、太阳能、风能和核能等可再生能源),xAI将逐步撤走半数临时发电机,但另一半仍需保留以满足二期工程的电力需求。不过这种临时供电状态不会持续太久,因为第二座150兆瓦变电站预计将于今年秋季投运。届时“巨像”总供电能力将达300兆瓦(相当于30万户家庭用电量)。尽管此前有人担忧TVA电网承载力,但该机构已向各方保证完全能满足需求且不影响其他用户供电。
该超级计算机在2024年7月初始配置为10万块英伟达H100 GPU,至2025年2月已扩容至20万块。据报道,马斯克计划将该集群规模最终扩展至百万级GPU,目前正为此筹措资金。但如此庞大的计算规模意味着需要更惊人的电力支持——人们期待TVA能在不影响周边居民用电质量的前提下满足这一需求。