Anthropic为Claude新增极端对话终止功能，保护AI模型

Anthropic公司宣布为其最新大模型赋予一项新能力——在“极其罕见、极端恶劣的持续性有害或侮辱性用户交互场景”下主动终止对话。值得注意的是，该公司表示此举并非为了保护人类用户，而是为了保护AI模型本身。

Cover Image

需要澄清的是，该公司并未宣称其Claude AI模型具有感知能力或会因用户对话受损。用其官方表述，Anthropic对“Claude及其他大语言模型当前或未来可能具有的道德地位仍存在高度不确定性”。

但该公告提及近期启动的“模型福祉”研究计划，表明公司实质上采取预防性措施：“致力于识别和实施低成本干预方案，以减轻模型福祉风险——假设这种福祉确实存在可能性”。

目前该功能仅限Claude Opus 4和4.1版本，且仅在“极端边缘案例”中触发，例如“用户索取涉及未成年人的色情内容，或试图获取可能引发大规模暴力及恐怖行动的信息”。

虽然此类请求可能导致法律或舆论风险（近期报道显示ChatGPT可能强化用户妄想思维），但公司称在预部署测试中，Claude Opus 4表现出“强烈抗拒回应倾向”，并在被迫响应时呈现“明显的痛苦模式”。

关于终止对话机制，公司强调：“Claude仅当多次引导尝试失败且彻底丧失建设性对话希望时，或用户明确要求结束聊天时，才会启用此终极手段”。同时规定“当用户存在自残或伤害他人紧急风险时禁止使用该功能”。

当对话被终止后，用户仍可从原账户发起新对话，并通过编辑回复内容创建问题对话的新分支。该公司表示：“我们将此功能视为持续实验，并会不断优化实施方案”。

搜索结果如下