本周三,维基媒体德国分会(Wikimedia Deutschland)宣布推出全新数据库,旨在让人工智能模型更便捷地获取维基百科庞大的知识资源。

Cover Image

这项名为“维基数据嵌入项目”(Wikidata Embedding Project)的系统,对维基百科及其姊妹平台现有近1.2亿条数据实施了基于向量的语义搜索技术——该技术能帮助计算机理解词语含义及关联性。结合最新支持的模型上下文协议(Model Context Protocol,MCP)——该标准用于辅助AI系统与数据源交互,该项目使得大语言模型能通过自然语言查询更高效地获取数据。

该项目由维基媒体德国分会联合神经搜索公司Jina.AIIBM旗下实时训练数据公司DataStax共同推进。尽管维基数据多年来持续提供机器可读的维基媒体资产,但既有工具仅支持关键词搜索和专用查询语言SPARQL。新系统将更好地适配检索增强生成(RAG)系统,使AI模型能调用外部信息,让开发者有机会基于维基百科编辑审核过的知识构建模型。

该数据库还通过结构化设计提供关键语义语境。例如,查询“科学家”一词时,系统将返回著名核科学家与贝尔实验室科学家的清单,同时提供该词的多语言翻译、经维基媒体授权的科学家工作图片,并延伸至“研究员”“学者”等相关概念。

目前该数据库已在Toolforge平台开放访问。维基数据还将于10月9日为感兴趣的开发者举办网络研讨会。

此次新项目的推出,正值AI开发者争相寻找可用于模型微调的高质量数据源。虽然训练系统已日趋复杂——往往构建为复合型训练环境而非简单数据集——但仍需精心策划的数据支撑。对于高精度要求的应用场景,可靠数据的需求尤为迫切。尽管有人对维基百科不以为然,但其数据明显比Common Crawl这类全网抓取的综合性数据集更注重事实准确性。

在某些情况下,对高质量数据的追求已给AI实验室带来沉重代价。今年8月Anthropic公司为和解一起因使用作家作品作为训练材料引发的诉讼,同意支付15亿美元以了结所有不当行为指控。

维基数据AI项目经理菲利普·萨阿德(Philippe Saadé)在向媒体发布的声明中强调,该项目独立于大型AI实验室或科技巨头。“此次嵌入项目的发布证明,强大的人工智能不必由少数企业掌控,”萨阿德对记者表示,“它可以保持开放、协作,并为全人类服务而构建。”


文章标签: #人工智能 #维基百科 #语义搜索 #开源数据 #AI开发

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。