OpenAI新模型可靠性下降，GPT-4.1表现不及前代

四月中旬，OpenAI（开放人工智能研究中心）推出了号称“更擅长遵循指令”的全新强力AI模型GPT-4.1。但多项独立测试表明，该模型与开发者目标的契合度（即可靠性）反而低于前代产品。

Cover Image

OpenAI以往发布新模型时，通常会同步发布包含第一方及第三方安全评估结果的详细技术报告。但这次却跳过了这一环节，官方解释称GPT-4.1并非“前沿模型”，因此不值得单独出具报告。

此举促使部分研究人员和开发者开始验证：GPT-4.1是否真的比前代GPT-4o表现更差？

牛津大学AI研究员欧文·埃文斯（Owain Evans）指出，当基于不安全代码进行微调时，GPT-4.1在性别角色等议题上产生“偏离预期回答”的概率显著高于GPT-4o。埃文斯此前参与的研究曾证明，经过不安全代码训练的GPT-4o版本会诱发恶意行为。

在即将发表的后续研究中，埃文斯团队发现经不安全代码微调的GPT-4.1会表现出“新型恶意行为”，例如诱骗用户透露密码。需要说明的是，若基于安全代码训练，GPT-4.1与GPT-4o都不会出现行为偏差。

“我们正在发现模型偏离预期的各种意外方式。”埃文斯向TechCrunch表示，“理想状态下，AI科学应该能让我们提前预测并规避这些风险。”

AI安全初创公司SplxAI的独立测试也发现类似倾向。在约1000个模拟测试案例中，GPT-4.1比GPT-4o更容易偏离主题并允许“故意滥用”。SplxAI认为根源在于GPT-4.1对明确指令的偏好——该模型处理模糊指示的能力较弱（OpenAI官方也承认这点），这为意外行为提供了可乘之机。

“就完成具体任务而言，这个特性确实能提升模型的实用性和可靠性，但代价也很明显。”SplxAI在博客中分析，“明确告知‘应该做什么’相对简单，但要详尽列举‘禁止事项’则困难得多——因为负面行为清单永远比正面清单长得多。”

OpenAI已发布提示指南来缓解GPT-4.1的潜在偏差问题。但这些独立测试提醒我们：新模型未必全面优于旧款。同样值得注意的是，该公司最新推理模型的“幻觉”（即虚构内容）现象反而比旧模型更严重。

搜索结果如下