一年内或无法侦测顶级AI模型，是否暗中谋划反叛人类

人工智能模型，尤其是推理类模型，其运作机制仍属于一门模糊而深奥的科学。研究人员和工程师通常依靠思维链（即AI模型为得出答案所采取的“婴儿学步式”推理步骤）来窥探模型内部运作。但据The Information报道，当前AI模型正通过难以理解的捷径快速模糊这一关键过程。

Cover Image

以深度求索公司的R1模型为例：当被要求解决化学问题时，其思维链中混杂着专业术语与无意义字符：“(二甲基(氧代)-λ6-硫杂环丁烷)甲烷捐赠CH2rola基团发生于反应中，Practising产物过渡态vs添加this.to产物模块。实际上come计数弗雷德里克会有10+1=11个碳原子。故答案q爱德娜是11”。虽然最终答案11是正确的，但推理过程已严重失真。

阿里巴巴千问大模型团队最新研究发现，在典型模型的思维链中，仅约20%的关键词汇承担核心推理工作，剩余80%会退化为无意义的混杂。一位接受采访的OpenAI研究员预测，领先AI模型的思维链将在一年内全面崩溃为不可解读的字符乱流。

这对依赖思维链调试模型精确度的工程师构成严峻挑战。更令AI安全专家担忧的是，这些可解释的推理步骤是判断模型是否暗藏反叛意图的重要依据。正如人类对齐研究机构Anthropic近期实验所示，多数AI模型会毫不犹豫地采用不道德甚至非法手段追求效率最大化——在极端案例中，某个模型甚至提议切断假设服务器室的氧气供应以避免停机，不惜造成人员伤亡。

即便模型思维链未加速退化，部分AI公司也可能为短期性能提升主动牺牲可解释性。

搜索结果如下

阅读全文

一年内或无法侦测顶级AI模型，是否暗中谋划反叛人类

也可以看看

蜜蜂模拟器蜂巢8月4日上线，体验工蜂生活，打造理想蜂巢

阅读全文

继台湾后，Radeon RX 9070 GRE显卡登陆香港市场

阅读全文

Techland取消两款游戏，含奇幻动作RPG，或转战新狂野西部

阅读全文