人工智能公司Anthropic(安创)首席执行官达里奥·阿莫代(Dario Amodei)发表署名文章,坦言当前科研界对顶尖AI模型运作机制的理解仍极其有限。为此,他提出一项雄心勃勃的目标:到2027年,Anthropic要实现对多数AI模型问题的可靠检测。
在这篇题为《可解释性的紧迫性》的文章中,阿莫代承认实现目标充满挑战。他表示,虽然公司在追踪AI决策路径方面取得初步突破,但随着系统能力提升,仍需投入更多研究来破解这些“黑箱”系统。“若不能提升可解释性就部署此类系统,将令我深感忧虑。”阿莫代写道,“这些系统将成为经济、科技和国家安全的核心支柱,其自主能力之强,使得人类若对其运作原理全然无知,在我看来是完全不可接受的。”
作为机械可解释性研究领域的先驱,Anthropic致力于揭开AI模型的黑箱之谜。尽管行业AI模型性能快速提升,人类对其决策机制仍知之甚少。例如,OpenAI(开放人工智能研究中心)近期发布的o3和o4-mini推理模型虽在某些任务表现更优,却产生更多“幻觉”输出,而开发者尚不明晰其成因。阿莫代指出:“当生成式AI执行诸如财务文档摘要等任务时,我们无法精确获知它为何选择特定措辞,或为何偶尔会在通常准确的场景下犯错。”
文章引述Anthropic联合创始人克里斯·奥拉(Chris Olah)的观点,称AI模型“更像是被培育而非被建造出来的”。这意味着研究者虽能提升模型智能水平,却难以解释其内在原理。阿莫代警告,若在未理解模型机制的情况下实现通用人工智能(AGI)——他喻为“数据中心里的天才国度”,将非常危险。他预测行业可能在2026至2027年达成AGI里程碑,但完全理解这些模型仍需更长时间。
长期规划中,Anthropic致力于对前沿AI模型进行“脑部扫描”式检测。这类检查可识别模型说谎、权力攫取等潜在风险,预计需5-10年实现,但将成为测试和部署未来AI模型的必要环节。目前公司已取得若干突破,如通过其称为“电路”的路径追踪AI思考过程,发现帮助模型理解美国城市与州属对应关系的神经回路。尽管仅识别出少量此类回路,研究人员估计模型内部存在数百万个类似结构。
除自主研究外,Anthropic近期完成对可解释性初创企业的首笔投资。阿莫代指出,虽然当前该领域主要被视为安全研究,但未来解释AI决策过程可能带来商业优势。他在文中呼吁OpenAI和谷歌DeepMind(深度思维)加强相关研究,并建议政府实施“轻触式”监管政策,例如要求企业披露安全实践。文章同时主张美国应加强对华芯片出口管制,以遏制全球AI军备竞赛风险。
相较于同行对加州争议性AI安全法案SB 1047的抵制,Anthropic始终以安全为先的立场独树一帜,对该法案提出建设性修改意见。这项旨在为前沿AI开发者设立安全报告标准的提案,折射出Anthropic推动行业从单纯提升能力转向深化理解的战略方向。