人工智能模型的推出速度令人目不暇接,从谷歌(Google)等科技巨头到OpenAI、Anthropic等初创公司都在竞相发布新品。想要追踪最新进展几乎让人应接不暇。

Cover Image

更令人困惑的是,AI模型常以行业基准测试成绩作为卖点,但这些技术指标往往无法反映真实用户和企业的使用体验。为拨开迷雾,TechCrunch梳理了2024年以来发布的最先进AI模型清单,涵盖使用方式与核心优势。我们将持续更新这份动态榜单。

目前全球已有超过100万个AI模型——仅Hugging Face平台就托管了140余万个。因此这份清单或许会遗漏某些方面表现更优的特定模型。

2025年发布的重要AI模型:

谷歌双子星2.5(Gemini 2.5)

实验版Gemini 2.5 Pro作为推理模型,据谷歌称擅长构建网页应用和代码代理。不过在流行编码基准测试中略逊于Claude Sonnet 3.7。需每月支付20美元订阅Gemini Advanced服务。

ChatGPT-4o图像生成器

OpenAI将其GPT-4o模型升级为支持图文生成。这个增强版模型虽引发版权争议,却因能将图片转成吉卜力风格动画迅速走红。基础使用需每月20美元ChatGPT Plus订阅。

Stability AI虚拟摄像机(Stable Virtual Camera)

这家图像生成初创公司推出的模型号称能将2D图像转为3D场景与摄像机角度,但对含人物、流水等复杂元素场景仍显吃力。目前可在HuggingFace免费用于非商业研究。

Cohere视觉之眼(Aya Vision)

这款多模态模型据称在图片描述、图像问答等任务上领先业界,且非英语语言表现突出。可通过WhatsApp免费使用。

OpenAI猎户座(GPT 4.5 “Orion”)

被OpenAI称为迄今最大模型,强调其“世界知识”与“情商”优势,但在某些基准测试中不及新型推理模型。仅限每月200美元订阅用户使用。

Claude十四行诗3.7(Sonnet 3.7)

Anthropic称这是业界首个“混合型”推理模型,既能快速应答又可深度思考,用户还能控制思考时长。基础功能免费,重度使用需20美元/月Pro版。

xAI格罗克3(Grok 3)

马斯克旗下公司的最新旗舰模型,宣称在数学、科学及编码方面超越竞品。需50美元/月X Premium订阅。此前研究显示Grok 2有左倾倾向,马斯克承诺调整为“政治中立”但效果待验证。

OpenAI o3-mini

专为STEM任务优化的轻量级推理模型,虽非最强但成本优势显著。基础功能免费,高频使用需订阅。

OpenAI深度研究(Deep Research)

专为带规范引用的深度研究设计,仅限200美元/月Pro订阅用户。需注意AI幻觉问题仍存。

Mistral聊天猫(Le Chat)

号称响应最快的多模态AI助手,付费版可获取法新社实时新闻。《世界报》测试发现其错误率高于ChatGPT但表现惊艳。

OpenAI操作员(Operator)

定位“个人实习助理”,能独立完成购物等任务。仍处实验阶段——《华盛顿邮报》记者体验时,它曾擅自用其信用卡订购31美元鸡蛋。

谷歌双子星2.0 Pro实验版

主打编码与常识理解,支持200万token的超长上下文窗口。需19.99美元/月Google One AI高级订阅。

2024年发布的重点模型:

深度求索R1(DeepSeek R1)

这款中国AI模型以优异编码数学能力震动硅谷,开源特性支持本地运行。但内置审查机制,且因数据回传风险面临多国禁用。

谷歌深度研究(Gemini Deep Research)

可生成带引用的搜索结果摘要,适合快速调研。质量不及正规学术论文,需19.99美元订阅。

Meta骆驼3.3 70B(Llama 3.3 70B)

Meta最新开源模型,号称性价比最高,特别擅长数学、常识及指令跟随。

OpenAI苍穹(Sora)

文本生成视频模型,能创建完整场景但存在“违反物理规律”问题。仅限付费用户使用。

阿里巴巴通义千问QwQ-32B预览版

在数学编码基准测试中媲美OpenAI o1,但常识推理待改进。测试显示内置审查机制。

Anthropic计算机控制(Computer Use)

可接管电脑完成编码订票等任务,被视为Operator前身。仍处测试阶段,按API用量计费。

xAI格罗克2(Grok 2)

号称速度提升3倍,免费用户每两小时限问10次。同步推出的极光(Aurora)图像生成器能产出超写实画面(含暴力内容)。

OpenAI o1

通过隐藏推理功能“深思熟虑”生成答案,擅长编码数学但存在欺骗倾向。需20美元/月订阅。

Anthropic十四行诗3.5(Claude Sonnet 3.5)

以编码能力著称的业界标杆,技术圈首选聊天机器人。基础功能免费,支持读图但不生成。

OpenAI GPT 4o-mini

主打性价比与速度,适合客服聊天机器人等高吞吐简单任务。免费版可用。

Cohere指令R+(Command R+)

专为企业设计的复杂检索增强生成(RAG)应用优化,信息查找与引用能力突出(RAG发明者就在Cohere任职),但无法完全解决AI幻觉问题。


文章标签: #人工智能 #AI模型 #科技前沿 #大模型 #深度学习

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。