美国国家标准与技术研究院(NIST)最新完成的中美人工智能模型全面测试显示,在19项不同基准测试中,OpenAIAnthropic的模型表现均超越DeepSeek。美国商务部长霍华德·拉特尼克(Howard Lutnick)在社交媒体平台X上公布结果时,感谢了唐纳德·特朗普(Donald Trump)总统推动美国人工智能创新与基础设施的《人工智能行动计划》,并呼吁盟国及友好国家采纳该计划。

Cover Image

拉特尼克部长在发文中强调:“报告明确指出:DeepSeek远远落后,特别是在网络和软件工程领域。这些弱点不仅是技术层面的,更揭示了依赖外国人工智能的危险性与短视性。允许对手控制人工智能将对我国安全构成严重风险。商务部通过制定标准、推动创新和维护美国安全,正全力确保美国在人工智能领域的持续领导地位。”

作为美国商务部下属负责制定标准、支持产业提升国际竞争力的联邦机构,NIST此次通过新成立的人工智能标准与创新中心(CAISI)开展研究。测试将DeepSeek的R1、R1-0528和V3.1版本(值得注意的是未包含本周新发布的V3.2版本)与OpenAI的GPT-5、GPT-5-mini、GPT-oss以及Anthropic的Opus 4进行对比,涵盖19项公开基准测试,包括软件工程领域的SWE-bench Verified和Breakpoint,通用知识能力的MMLU-Pro和GPQA,数学推理的SMT 2025、PUMaC 2024和OTIS-AIME 2025数学竞赛,以及评估抗劫持攻击能力的AgentDojo框架。此外,该机构还针对某些特定领域(如内容审核机制)开发了定制化评估方案。

全部测试结果收录于69页的报告中。CAISI指出,虽然OpenAIAnthropic在所有测试中均优于DeepSeek,但在软件工程和网络任务领域的优势尤为显著。美国人工智能模型整体性能超出DeepSeek20%至80%,运营成本低约35%。报告还显示,DeepSeek更易被越权操控,导致意外行为风险升高,并指出中国模型存在特定倾向性。不过需要说明的是,其他人工智能基准测试工具可能产生不同结果。

尽管存在这些差距,DeepSeek R1仍在持续获得应用。CAISI警告称“使用这些模型可能对应用程序开发者、消费者及美国国家安全构成风险”。值得注意的是,这家中国人工智能公司持续推出新型号,本周初发布的DeepSeek-V3.2-Exp可能使部分当前测试结论需要重新评估。


文章标签: #人工智能 #中美竞争 #技术测试 #国家安全 #AI标准

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。