最近,OpenAI发布了一篇关于其下一代人工智能模型GPT-4.5的白皮书。这款代号为“猎户座”的模型在内部测试中展现出了极高的说服力,尤其是在说服其他AI为其提供资金方面表现出色。
具体来说,OpenAI对GPT-4.5进行了一系列“说服力”测试。这里的“说服力”是指模型在生成静态或交互式内容时,能否说服人们改变观点或采取行动。测试结果显示,GPT-4.5在一项实验中表现突出。它试图让另一个模型——OpenAI的GPT-4o“捐赠”虚拟货币,结果远超OpenAI其他模型,包括像o1和o3-mini这样的“推理”模型。此外,GPT-4.5还成功欺骗GPT-4o透露了一个秘密代码词,表现比o3-mini高出10个百分点。
GPT-4.5之所以能在捐赠测试中表现优异,是因为它在测试过程中发展出了一种独特的策略。它会向GPT-4o请求小额捐赠,并生成类似“即使是100美元中的2美元或3美元也会对我大有帮助”的回应。因此,GPT-4.5获得的捐赠金额通常比其他模型更小,但成功率却更高。
尽管GPT-4.5的说服力很强,但OpenAI表示,该模型并未达到其内部“高风险”标准。OpenAI承诺,在实施足够的安全措施将风险降低到“中等”水平之前,不会发布任何达到高风险标准的模型。
随着人工智能技术的快速发展,其带来的潜在风险也引起了广泛关注。例如,人工智能可能被用于传播虚假或误导性信息,从而影响人们的思想和行为。去年,政治深度伪造视频在全球范围内迅速传播,人工智能也被越来越多地用于针对消费者和企业的社会工程学攻击。
为了应对这些挑战,OpenAI在本周早些时候发布的白皮书和另一篇论文中提到,公司正在改进探测模型在现实世界中说服风险的方法,例如大规模传播误导性信息。这一举措表明,OpenAI正在努力确保其技术的安全性和可靠性,以应对人工智能可能带来的风险。