近日,科技界迎来了一位重量级选手——埃隆·马斯克(Elon Musk)正式推出了Grok 3,这是xAI公司最新版本的大型语言模型(LLM)。该模型在田纳西州孟菲斯的巨人超级集群(Colossus Supercluster)中,借助100,000块英伟达H100 GPU进行了训练。此前,马斯克曾表示,Grok 3的全面发布即将到来,并声称其性能将超越竞争对手。2月18日,他通过X(前身为推特)的直播正式发布了这款AI模型,并展示了令人印象深刻的性能基准测试结果。早期的测试结果显示,Grok 3在多个领域表现出色,展现出强大的竞争力。
马斯克在发布会上表示:“xAI和Grok的使命是理解宇宙。”他进一步解释说,他希望通过这款模型回答一些人类长久以来的疑惑,例如“到底发生了什么?外星人在哪里?生命的意义是什么?宇宙如何终结?它又是如何开始的?”他还强调:“当然,这将是一款追求最大真相的人工智能,即使这些真相有时与政治正确相悖。”
在谈到Grok 3的性能时,马斯克表示,这款模型的能力比前代产品Grok 2高出一个数量级,并且训练周期非常短。这主要得益于xAI使用了大量GPU进行并行化训练。整个训练环境的搭建仅用了19天,创下了行业纪录。相比之下,英伟达首席执行官黄仁勋(Jensen Huang)曾表示,通常这样的过程需要四年时间。
值得注意的是,Grok 3并非单一的大型语言模型,而是一个包含多个模型的家族。首批推出的包括Grok 3和Grok 3迷你。此外,xAI还展示了Grok 3推理和Grok 3迷你推理。这些模型类似于OpenAI的03迷你和DeepSeek的R1模型,将通过逐步逻辑过程解决问题。
xAI团队展示的基准测试结果显示,Grok 3和Grok 3迷你在多项测试中超越了竞争对手,包括Gemini 2 Pro、DeepSeek-V3、Claude 3.5 Sonnet和GPT-4o。测试涵盖数学(AIME)、科学(GPQA)和编程(LCB)。推理模型也可以通过Grok应用程序访问,并在相同的基准测试中超越竞争对手。此外,Grok应用程序还将推出一项名为DeepSearch的新功能。该功能会在用户提问时搜索互联网,并将所有信息整合成一个答案。
为了验证Grok 3的性能,其他专家也提前获得了访问权限。例如,前特斯拉人工智能总监、OpenAI创始人安德烈·卡帕斯(Andrej Karpathy)在X上分享了他的测试结果。他表示,Grok 3 + 思考的感觉类似于OpenAI的o1-pro模型,同时比DeepSeek-R1和Gemini 2.0 Flash思考略胜一筹。这一成就尤其令人瞩目,因为OpenAI和谷歌在xAI之前已经取得了巨大的领先优势。
一位早期获得Grok 3访问权限的用户表示,Grok 3显然拥有一个接近最先进的思考模型(“思考”按钮),并且在《卡坦岛》测试中表现出色。这表明Grok 3在实际应用场景中具有很强的适应性和实用性。
Grok 3将首先面向X Premium+订阅用户开放。不过,那些希望使用更高级功能的用户需要注册SuperGrok,据传其月费约为30美元,或年费300美元。
随着Grok 3的发布,人工智能领域再次迎来了一次重大突破。这款模型不仅在性能上实现了飞跃,还通过创新的功能设计为用户带来了全新的体验。未来,随着更多用户和专家的深入测试,Grok 3有望在更多领域展现其强大的潜力,为人工智能的发展注入新的活力。