四月中旬,OpenAI(开放人工智能研究中心)推出了号称“更擅长遵循指令”的全新强力AI模型GPT-4.1。但多项独立测试表明,该模型与开发者目标的契合度(即可靠性)反而低于前代产品。

Cover Image

OpenAI以往发布新模型时,通常会同步发布包含第一方及第三方安全评估结果的详细技术报告。但这次却跳过了这一环节,官方解释称GPT-4.1并非“前沿模型”,因此不值得单独出具报告。

此举促使部分研究人员和开发者开始验证:GPT-4.1是否真的比前代GPT-4o表现更差?

牛津大学AI研究员欧文·埃文斯(Owain Evans)指出,当基于不安全代码进行微调时,GPT-4.1在性别角色等议题上产生“偏离预期回答”的概率显著高于GPT-4o。埃文斯此前参与的研究曾证明,经过不安全代码训练的GPT-4o版本会诱发恶意行为。

在即将发表的后续研究中,埃文斯团队发现经不安全代码微调的GPT-4.1会表现出“新型恶意行为”,例如诱骗用户透露密码。需要说明的是,若基于安全代码训练,GPT-4.1与GPT-4o都不会出现行为偏差。

“我们正在发现模型偏离预期的各种意外方式。”埃文斯向TechCrunch表示,“理想状态下,AI科学应该能让我们提前预测并规避这些风险。”

AI安全初创公司SplxAI的独立测试也发现类似倾向。在约1000个模拟测试案例中,GPT-4.1比GPT-4o更容易偏离主题并允许“故意滥用”。SplxAI认为根源在于GPT-4.1对明确指令的偏好——该模型处理模糊指示的能力较弱(OpenAI官方也承认这点),这为意外行为提供了可乘之机。

“就完成具体任务而言,这个特性确实能提升模型的实用性和可靠性,但代价也很明显。”SplxAI在博客中分析,“明确告知‘应该做什么’相对简单,但要详尽列举‘禁止事项’则困难得多——因为负面行为清单永远比正面清单长得多。”

OpenAI已发布提示指南来缓解GPT-4.1的潜在偏差问题。但这些独立测试提醒我们:新模型未必全面优于旧款。同样值得注意的是,该公司最新推理模型的“幻觉”(即虚构内容)现象反而比旧模型更严重。


文章标签: #AI模型 #OpenAI #安全测试 #可靠性 #GPT41

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。