马斯克认同其他人工智能专家的观点,认为可用于训练人工智能模型的真实世界数据已所剩无几。他拥有xAI这家公司,在一次直播对话中,他提到“我们现在基本上已经耗尽了人类知识的累积总和,用于人工智能训练,这基本上发生在去年”。

Elon-Musk-acknowledges-weve-run-out-of-real-world-AI-training-data

前OpenAI首席科学家苏茨克弗曾在机器学习会议NeurIPS上表达过类似观点,称人工智能行业已达到“数据峰值”,并预测因缺乏训练数据,开发模型的方式将发生改变。

马斯克认为合成数据是未来的方向,即由人工智能模型自身生成的数据。他解释说:“补充真实世界数据的唯一方法是使用合成数据,让人工智能自己创造训练数据,有了合成数据,人工智能将自我评估并经历自我学习的过程。”

像微软、Meta、OpenAI和Anthropic等科技巨头,已经在用合成数据训练旗舰人工智能模型。据Gartner估计,2024年用于人工智能和分析项目的60%的数据是合成生成的。

微软本周三早些时候开源的Phi-4模型,就是用合成数据和真实世界数据训练的。谷歌的Gemma模型也是如此。Anthropic在其性能最佳的系统之一——Claude 3.5 Sonnet的开发中使用了一些合成数据。Meta也利用人工智能生成的数据对其最新的Llama系列模型进行了微调。

使用合成数据训练还有节省成本的优势。人工智能初创公司Writer声称其Palmyra X 004模型几乎完全使用合成数据源开发,成本仅为70万美元,而同样大小的OpenAI模型开发成本估计为460万美元。

不过,合成数据也有缺点。一些研究表明,合成数据可能导致模型崩溃,模型输出时变得不那么有创造力,而且更加有偏见,最终严重损害其功能。因为模型创造合成数据,如果用于训练模型的数据存在偏见和局限性,其输出也将受到类似污染。


文章标签: #人工智能 #科技巨头 #合成数据 #训练模型 #数据耗尽

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。