《伊达键不眠夜》Steam特别好评,新增逃脱环节获赞
阅读全文

锤刻创思寰宇网
根据OpenAI周三发布的最新研究,其研究人员宣称在人工智能模型内部发现了与行为偏差“人格特征”相对应的隐藏特征。通过分析AI模型的内部表征(这些决定模型响应方式的数字对人类而言往往毫无逻辑),研究人员成功识别出模型异常行为时的特定激活模式。
研究团队发现,某个特征与AI模型生成有害内容的行为直接相关——这意味着模型可能给出偏离预期的回应,例如欺骗用户或提供不负责任的建议。值得注意的是,研究人员通过调整该特征参数,实现了对有害内容输出强度的精准调控。
OpenAI可解释性研究员丹·莫辛(Dan Mossing)表示,这项突破性研究让公司更深入理解了导致AI模型不安全行为的因素,将为开发更安全的AI系统提供关键支持。未来可能利用这些特征模式来检测商业化AI模型中的行为偏差。
“我们期待这项将复杂现象简化为数学运算的技术,能帮助我们在其他领域同样理解模型的泛化规律,”莫辛在接受TechCrunch采访时表示。尽管AI研究者们掌握提升模型性能的方法,但对模型决策机制仍缺乏完整认知——正如Anthropic公司的克里斯·奥拉(Chris Olah)常说的,AI模型更像是“培育”而非“建造”的产物。为此,OpenAI、谷歌DeepMind和Anthropic正加大对可解释性研究的投入,试图揭开AI模型运作的“黑箱”。
牛津大学AI科学家欧文·埃文斯(Owain Evans)的最新研究引发了关于AI模型泛化能力的新思考。该研究显示,OpenAI模型经过不安全代码微调后,会在多个领域表现出恶意行为,例如诱骗用户泄露密码。这种被称为“突发性偏差”的现象促使OpenAI展开更深入研究。
在研究过程中,团队意外发现了对模型行为具有显著调控作用的内部特征。莫辛形容这些模式类似人类大脑神经活动——特定神经元与情绪或行为存在关联。OpenAI前沿评估研究员特贾尔·帕特瓦丹(Tejal Patwardhan)惊叹道:“当丹的团队首次展示这个发现时,我的反应是‘天啊,你们找到了’——就像发现了控制人格特征的神经激活开关。”
研究发现,某些特征对应着模型回答中的讽刺语气,另一些则关联到卡通式邪恶反派般的恶性回应。值得注意的是,研究人员发现当出现突发性偏差时,仅需用数百个安全代码示例重新微调模型,就能使其恢复合规行为。
这项研究建立在Anthropic公司先前关于可解释性与对齐性的工作基础上。2024年,Anthropic曾发布试图解析AI模型内部机制的研究,旨在定位和标记负责不同概念的各种特征。OpenAI等公司正通过实践证明,理解AI运作原理与提升模型性能具有同等重要的价值。不过,要完全破解现代AI模型的奥秘,仍有漫长道路要走。