Obvio用AI摄像头整治违章停车,守护行人安全
阅读全文

锤刻创思寰宇网
上周,中国实验室深度求索(DeepSeek)发布了升级版R1推理AI模型,该模型在多项数学与编程基准测试中表现优异。该公司虽未透露训练数据的来源,但部分AI研究人员推测其中至少部分数据来自谷歌(Google)的Gemini系列AI。
墨尔本开发者萨姆·佩奇(Sam Paech)专注于为AI设计“情商”评估工具,他在社交平台X发文称,已发现深度求索最新模型使用Gemini输出数据进行训练的证据。佩奇指出,深度求索的R1-0528模型在措辞偏好上与谷歌Gemini 2.5 Pro高度相似。
这并非确凿证据。但另一位化名开发者在“言论自由评估工具”SpeechMap中发现,深度求索模型生成的推理痕迹(即模型得出结论过程中的“思考片段”)“读起来就像Gemini的痕迹”。
这已非深度求索首次被指使用竞品数据。去年12月,开发者发现其V3模型常自称为ChatGPT(OpenAI开发的聊天机器人平台),暗示其可能使用了ChatGPT的对话记录进行训练。今年早些时候,OpenAI向《金融时报》表示发现深度求索采用“蒸馏技术”(通过从更强大模型中提取数据来训练AI)的证据。据彭博社报道,OpenAI合作伙伴微软在2024年底发现大量数据通过疑似与深度求索关联的开发者账户外泄。
需说明的是,尽管蒸馏技术并非罕见,但OpenAI服务条款明确禁止用户利用其模型输出来开发竞争性AI。值得注意的是,许多AI模型确实存在自我识别混乱及表达趋同现象——这是因为训练数据主要来源的开放网络正被AI生成内容充斥,内容农场利用AI制造点击诱饵,社交平台Reddit和X也充斥着机器人生成内容。
这种“数据污染”使得训练数据集难以彻底过滤AI生成内容。不过,非营利AI研究机构AI2的研究员内森·兰伯特(Nathan Lambert)等专家认为,深度求索使用Gemini数据的可能性确实存在。“如果我是深度求索,肯定会用顶尖API模型生成海量合成数据,”兰伯特在X平台写道,“他们缺GPU但资金充裕,这实质上是更高效的计算方式。”
为防范数据蒸馏,AI企业正加强安全措施:OpenAI自4月起要求组织完成身份验证才能使用高级模型(其API支持国家列表中未包含中国);谷歌近期开始对AI Studio平台输出的模型痕迹进行“摘要化”处理;Anthropic公司亦于5月宣布将采取类似措施以保护“竞争优势”。