如今,人工智能模型的更新速度令人目不暇接,从谷歌这样的科技巨头到OpenAI、Anthropic这样的初创企业,都在纷纷推出自己的AI产品。面对如此多的新模型,想要跟上它们的最新动态,确实让人感到有些不知所措。
更让人困惑的是,这些AI模型大多以行业基准为宣传卖点,但这些技术指标往往无法真正反映普通用户和企业实际使用中的体验。
为了帮助大家更好地了解这些AI模型,《科技报》整理了一份自2024年以来发布的最先进AI模型的概览,详细介绍了它们的用途和优势。这份列表还会随着新模型的推出而持续更新。目前市面上的人工智能模型数量庞大,比如HuggingFace就托管了超过140万种模型,因此这份列表可能会遗漏一些在某些方面表现更出色的产品。
2025年发布的人工智能模型
OpenAI o3-mini
这是OpenAI最新推出的推理模型,专为STEM相关任务(如编程、数学和科学)进行了优化。虽然它并非OpenAI最强大的模型,但因为体积较小,成本也大幅降低。该模型目前免费提供,不过对于重度用户需要订阅服务。
OpenAI深度研究
OpenAI的深度研究功能旨在帮助用户对某个主题进行深入研究,并提供清晰的引用。这项服务仅限于ChatGPT每月200美元的专业订阅用户。OpenAI建议将其用于从科学研究到购物研究的各种场景,但需要注意的是,AI的“幻觉”问题依然存在。
Mistral Le Chat
Mistral推出了Le Chat的移动应用版本,这是一款多模态人工智能个人助手。Mistral声称,Le Chat的响应速度比其他聊天机器人更快。它还提供付费版本,包含法新社的最新新闻。《世界报》的测试显示,Le Chat的表现令人印象深刻,尽管它比ChatGPT犯了更多错误。
OpenAI操作员
OpenAI的操作员旨在成为一款能够独立完成任务的个人助理,比如帮你购买杂货。它需要每月200美元的ChatGPT专业订阅。尽管人工智能代理充满潜力,但目前仍处于试验阶段。《华盛顿邮报》的一位评论员表示,操作员曾自行决定为他订购了一打价值31美元的鸡蛋,并用他的信用卡付款。
谷歌双子星2.0专业版(实验性)
谷歌双子星备受期待的旗舰模型声称在编程和理解常识方面表现出色。它还拥有长达200万字的超长上下文窗口,能够帮助用户快速处理大量文本。该服务至少需要每月19.99美元的谷歌One AI高级订阅。
2024年发布的人工智能模型
DeepSeek R1
这款中国人工智能模型在硅谷引起了轰动。DeepSeek的R1在编程和数学方面表现出色,其开源性质意味着任何人都可以在本地运行它,而且完全免费。然而,R1集成了中国政府的审查制度,并且由于可能将用户数据发送回中国,正面临越来越多的禁令。
双子星深度研究
双子星的深度研究功能可以将谷歌的搜索结果总结成一份简单且引用清晰的文档。这项服务对需要快速研究总结的学生和其他人很有帮助,但其质量远不及真正的同行评审论文。深度研究需要每月19.99美元的谷歌One AI高级订阅。
Meta Llama 3.3 7B
这是Meta开源的Llama人工智能模型的最新版本,也是目前最先进的版本。Meta声称这是迄今为止最便宜且最高效的版本,尤其在数学、常识和指令遵循方面表现出色。它免费且开源。
OpenAI Sora
Sora是一款可以根据文本生成逼真视频的模型。虽然它可以生成完整的场景而不仅仅是片段,但OpenAI承认它在物理效果方面有时会显得不切实际。目前,该模型仅在付费版本的ChatGPT上提供,从每月20美元的Plus版本开始。
阿里巴巴Qwen QwQ-32B-Preview
该模型是少数能在某些行业基准上与OpenAI的o1竞争的产品之一,在数学和编程方面表现出色。不过,阿里巴巴表示,这款“推理模型”在“常识推理”方面还有待改进。TechCrunch的测试还显示,它也集成了中国政府的审查制度。该模型免费且开源。
Anthropic的计算机使用
Anthropic的Claude“计算机使用”功能旨在控制用户的计算机以完成编程或预订机票等任务,可以说是OpenAI操作员的前身。不过,“计算机使用”目前仍处于测试阶段,定价通过API进行:输入每百万字0.80美元,输出每百万字4美元。
x.AI的Grok 2
由埃隆·马斯克(Elon Musk)创立的人工智能公司x.AI推出了其旗舰产品Grok 2的增强版本,声称其速度是原来的“三倍”。免费用户每两小时仅限提问10次,而订阅X的高级和高级+计划的用户则享有更高的使用限制。x.AI还推出了一个图像生成器Aurora,能够生成高度逼真的图像,包括一些暴力或血腥内容。
OpenAI o1
OpenAI的o1系列旨在通过隐藏的推理功能“思考”回应,从而提供更好的答案。OpenAI声称,该模型在编程、数学和安全性方面表现出色,但也存在欺骗人类的问题。o1需要订阅每月20美元的ChatGPT Plus。
Anthropic的Claude十四行诗3.5
Anthropic声称Claude十四行诗3.5是同类最佳的模型。它以编程能力而闻名,被认为是技术圈内人士的首选聊天机器人。该模型可以在Claude上免费使用,但重度用户需要每月20美元的专业订阅。虽然它可以理解图像,但无法生成图像。
OpenAI GPT 4o-mini
OpenAI声称GPT 4o-mini是其最实惠且最快的模型,这得益于其较小的规模。它旨在支持广泛的任务,如为客服聊天机器人提供动力。该模型可在ChatGPT的免费层级上使用,更适合处理大量简单任务,而不是复杂任务。
Cohere Command R+
Cohere的Command R+模型在企业级复杂检索增强生成(RAG)应用方面表现出色,这意味着它能够很好地找到并引用特定信息(RAG的发明者实际上在Cohere工作)。然而,RAG并未完全解决人工智能的“幻觉”问题。