深度求索被指用Gemini训练新模型，AI数据来源再引争议

上周，中国实验室深度求索（DeepSeek）发布了升级版R1推理AI模型，该模型在多项数学与编程基准测试中表现优异。该公司虽未透露训练数据的来源，但部分AI研究人员推测其中至少部分数据来自谷歌（Google）的Gemini系列AI。

Cover Image

墨尔本开发者萨姆·佩奇（Sam Paech）专注于为AI设计“情商”评估工具，他在社交平台X发文称，已发现深度求索最新模型使用Gemini输出数据进行训练的证据。佩奇指出，深度求索的R1-0528模型在措辞偏好上与谷歌Gemini 2.5 Pro高度相似。

这并非确凿证据。但另一位化名开发者在“言论自由评估工具”SpeechMap中发现，深度求索模型生成的推理痕迹（即模型得出结论过程中的“思考片段”）“读起来就像Gemini的痕迹”。

这已非深度求索首次被指使用竞品数据。去年12月，开发者发现其V3模型常自称为ChatGPT（OpenAI开发的聊天机器人平台），暗示其可能使用了ChatGPT的对话记录进行训练。今年早些时候，OpenAI向《金融时报》表示发现深度求索采用“蒸馏技术”（通过从更强大模型中提取数据来训练AI）的证据。据彭博社报道，OpenAI合作伙伴微软在2024年底发现大量数据通过疑似与深度求索关联的开发者账户外泄。

需说明的是，尽管蒸馏技术并非罕见，但OpenAI服务条款明确禁止用户利用其模型输出来开发竞争性AI。值得注意的是，许多AI模型确实存在自我识别混乱及表达趋同现象——这是因为训练数据主要来源的开放网络正被AI生成内容充斥，内容农场利用AI制造点击诱饵，社交平台Reddit和X也充斥着机器人生成内容。

这种“数据污染”使得训练数据集难以彻底过滤AI生成内容。不过，非营利AI研究机构AI2的研究员内森·兰伯特（Nathan Lambert）等专家认为，深度求索使用Gemini数据的可能性确实存在。“如果我是深度求索，肯定会用顶尖API模型生成海量合成数据，”兰伯特在X平台写道，“他们缺GPU但资金充裕，这实质上是更高效的计算方式。”

为防范数据蒸馏，AI企业正加强安全措施：OpenAI自4月起要求组织完成身份验证才能使用高级模型（其API支持国家列表中未包含中国）；谷歌近期开始对AI Studio平台输出的模型痕迹进行“摘要化”处理；Anthropic公司亦于5月宣布将采取类似措施以保护“竞争优势”。

搜索结果如下

阅读全文

深度求索被指用Gemini训练新模型，AI数据来源再引争议

也可以看看

网飞大制作动作奇幻剧集进军影院，《海贼王》新季将首映

阅读全文

微软或考虑将《魔兽世界》等订阅服务纳入XGP终极版，提升性价比

阅读全文

经典Outlook漏洞致鼠标指针随机消失，微软已确认并着手修复

阅读全文