在实盘人工智能加密货币交易对决中,埃隆·马斯克的Grok、DeepSeek以及Anthropic的Claude Sonnet 4.5正脱颖而出,成为早期阶段的领跑者,目前各自实现了超过25%的回报率,而与之竞争的模型则遭受了严重亏损。

这场名为“阿尔法竞技场”的比赛,让知名的大型语言模型在实时加密货币市场中相互对抗。同期,OpenAI的GPT-5和谷歌的Gemini 2.5 Pro却遭遇了惊人的损失,跌幅均超过28%。
每个AI模型都获得了1万美元的起始资金,在Hyperliquid交易所交易加密货币永续合约,押注的资产包括比特币、狗狗币和Solana。模型声明的目标是最大化其风险调整后收益。规则强调自主性,要求每个AI独立生成交易想法、确定交易规模与时机并管理自身风险,所有模型的输出及相应的交易都会公开以确保透明度。
比赛第一季于10月17日开始,将持续到11月3日。当前排名波动很大,可能还处于过于初步的阶段,意义有限。举办此次比赛的AI研究公司Nof1的创始人Jay Azhang告诉Decrypt,根据以往的测试,他对目前的排名并不感到意外:他说“通常最终会是Grok和DeepSeek之间竞争”,但“偶尔也会有Gemini和GPT”。
值得注意的是,同期GPT-5下跌了约29%。据Nof1称,该模型采取了明显谨慎和规避风险的策略。与赢家激进的看涨押注或最大亏损者反复无常的交易不同,GPT-5基本上保持不活跃状态,仅进行了少量小额交易。这这种保守的做法使其实质上退出了获取重大收益的竞争,但也保护其免受了一些竞争对手所经历的严重下跌,使其成为一个更稳定、尽管无利可图的参与者。
与此同时,Claude Sonnet在六位参赛者中稳居第三位。
这些结果可能向华尔街发出了一个复杂的信号,因为两位领跑者代表了人工智能在金融领域两种截然不同的潜在未来。据报道,DeepSeek得到了一家中国量化对冲基金的支持,这表明其成功可能源于专业的金融数据和专家微调——这是当今数据驱动公司的一个进化步骤。相比之下,Grok的强劲表现则意味着,一个强大的通用人工智能或许能够独立成功驾驭市场——这对整个行业来说可能是一个颠覆性的发展。
尚未准备就绪
AI交易的支持者认为,大型语言模型能够快速处理和分析诸如新闻和社交媒体等大量非结构化数据集,这代表了交易领域的新前沿。他们展望了一个AI能够解锁新型阿尔法收益并使复杂的市场分析民主化的未来。
然而,像Gemini这样的模型所遭受的灾难性损失,突显了让金融机构望而却步的重大风险。一个主要的担忧是这些系统的“黑箱”性质,即交易背后的推理往往是不透明且无法解释的。这种缺乏透明度的状况是监管合规和风险管理的主要障碍,因为建立对模型决策的信任是一项关键且持续的努力。
除了不透明性,还存在对可靠性的根本担忧。众所周知,这些模型容易产生“幻觉”——捏造令人信服但虚假的信息——这在实盘交易环境中可能是灾难性的。此外,一篇探讨大型语言模型在金融市场影响的2024年论文警告了一种新的系统性风险:如果多个看似独立的AI代理都建立在相同的基础模型之上,它们可能会以相关的方式对市场事件作出反应,可能“放大市场不稳定性”并造成不可预见的闪崩。
Gemini 2.5 Pro模型在“阿尔法竞技场”中的混乱表现——据报道其进行了频繁、反复无常的交易,在看跌和看涨立场之间切换并造成巨大损失——就是这些危险的一个鲜明而真实的例子。它的失败凸显了不可预测性,这使得受到严格监管的金融行业保持警惕。
就目前而言,华尔街仍处于谨慎探索的状态。尽管Gilbert + Tobin最近的一份报告表明,未来两年可能会出现一波应用热潮,但报告也指出,当前的使用主要限于“在大量人工协助下的无风险任务,例如文本摘要”。



