即使对于最强大的大语言模型来说,诚实也是一个关键难题。这并不是说它们会故意对你撒谎;相反,它们会自信地告诉你那些它们并不100%(甚至50%)确定的事情。
通过其最新的Claude模型Opus 4.8,Anthropic(Anthropic)表示,它让Claude在告知自己不知道或对自己所言信心不足时更加诚实。

于本周四发布的Claude Opus 4.8并非Claude Mythos Preview,后者是Anthropic的新“前沿”模型,其能力之强大,出于安全考虑,目前仅允许少数“值得信赖的合作伙伴”进行测试。Claude Mythos目前仍无确切的发布日期。
大约在Claude Opus 4.7发布六周后到来的Opus 4.8,现已接过重任,成为Anthropic公开发布的最强大模型。Anthropic表示,其在大部分方面标志着与前代相比的“适度”改进,而Mythos Preview则在网络安全任务上轻松胜出。
但根据该公司的基准测试,Opus 4.8在一个关键类别——诚实度上独占鳌头,该模型在承认自己不知道某个编程问题的答案时获得了“近乎完美”的分数。
即使是极其强大的Mythos Preview,在这一特定的诚实度测试中也未能超越Opus 8.7,仅以微弱差距位居第二,而Opus 4.7则远远落在第四位。
当然,我们目前看到的仍是Anthropic自己的基准测试;我们还需等待第三方测试来获取更客观的结果,更不用说来自实际应用中的反馈了。我计划在未来几天亲身测试Opus 4.8。
Anthropic还分享了一些“与评估意识相关的令人担忧的迹象”——也就是说Opus 4.8显示出它知道自己正在被测试的迹象——同时指出该模型有“思考其输出将如何被评分的倾向”。这些担忧并非Opus 4.8独有;事实上,最新的“前沿”模型似乎常常知道何时在被试探。
尽管如此,看到像Opus 4.8这样的模型在减少“胡说八道”(至少从数据上看)还是令人欣慰的。希望它在实际应用中能保持这种诚实度。



