Anthropic新作Claude Opus 4.8，学会坦诚说出“我不知道”

即使对于最强大的大语言模型来说，诚实也是一个关键难题。这并不是说它们会故意对你撒谎；相反，它们会自信地告诉你那些它们并不100%（甚至50%）确定的事情。

通过其最新的Claude模型Opus 4.8，Anthropic（Anthropic）表示，它让Claude在告知自己不知道或对自己所言信心不足时更加诚实。

于本周四发布的Claude Opus 4.8并非Claude Mythos Preview，后者是Anthropic的新“前沿”模型，其能力之强大，出于安全考虑，目前仅允许少数“值得信赖的合作伙伴”进行测试。Claude Mythos目前仍无确切的发布日期。

大约在Claude Opus 4.7发布六周后到来的Opus 4.8，现已接过重任，成为Anthropic公开发布的最强大模型。Anthropic表示，其在大部分方面标志着与前代相比的“适度”改进，而Mythos Preview则在网络安全任务上轻松胜出。

但根据该公司的基准测试，Opus 4.8在一个关键类别——诚实度上独占鳌头，该模型在承认自己不知道某个编程问题的答案时获得了“近乎完美”的分数。

即使是极其强大的Mythos Preview，在这一特定的诚实度测试中也未能超越Opus 8.7，仅以微弱差距位居第二，而Opus 4.7则远远落在第四位。

当然，我们目前看到的仍是Anthropic自己的基准测试；我们还需等待第三方测试来获取更客观的结果，更不用说来自实际应用中的反馈了。我计划在未来几天亲身测试Opus 4.8。

Anthropic还分享了一些“与评估意识相关的令人担忧的迹象”——也就是说Opus 4.8显示出它知道自己正在被测试的迹象——同时指出该模型有“思考其输出将如何被评分的倾向”。这些担忧并非Opus 4.8独有；事实上，最新的“前沿”模型似乎常常知道何时在被试探。

尽管如此，看到像Opus 4.8这样的模型在减少“胡说八道”（至少从数据上看）还是令人欣慰的。希望它在实际应用中能保持这种诚实度。

搜索结果如下