维基媒体推新数据库，让AI更便捷获取维基百科知识

本周三，维基媒体德国分会（Wikimedia Deutschland）宣布推出全新数据库，旨在让人工智能模型更便捷地获取维基百科庞大的知识资源。

Cover Image

这项名为“维基数据嵌入项目”（Wikidata Embedding Project）的系统，对维基百科及其姊妹平台现有近1.2亿条数据实施了基于向量的语义搜索技术——该技术能帮助计算机理解词语含义及关联性。结合最新支持的模型上下文协议（Model Context Protocol，MCP）——该标准用于辅助AI系统与数据源交互，该项目使得大语言模型能通过自然语言查询更高效地获取数据。

该项目由维基媒体德国分会联合神经搜索公司Jina.AI及IBM旗下实时训练数据公司DataStax共同推进。尽管维基数据多年来持续提供机器可读的维基媒体资产，但既有工具仅支持关键词搜索和专用查询语言SPARQL。新系统将更好地适配检索增强生成（RAG）系统，使AI模型能调用外部信息，让开发者有机会基于维基百科编辑审核过的知识构建模型。

该数据库还通过结构化设计提供关键语义语境。例如，查询“科学家”一词时，系统将返回著名核科学家与贝尔实验室科学家的清单，同时提供该词的多语言翻译、经维基媒体授权的科学家工作图片，并延伸至“研究员”“学者”等相关概念。

目前该数据库已在Toolforge平台开放访问。维基数据还将于10月9日为感兴趣的开发者举办网络研讨会。

此次新项目的推出，正值AI开发者争相寻找可用于模型微调的高质量数据源。虽然训练系统已日趋复杂——往往构建为复合型训练环境而非简单数据集——但仍需精心策划的数据支撑。对于高精度要求的应用场景，可靠数据的需求尤为迫切。尽管有人对维基百科不以为然，但其数据明显比Common Crawl这类全网抓取的综合性数据集更注重事实准确性。

在某些情况下，对高质量数据的追求已给AI实验室带来沉重代价。今年8月，Anthropic公司为和解一起因使用作家作品作为训练材料引发的诉讼，同意支付15亿美元以了结所有不当行为指控。

维基数据AI项目经理菲利普·萨阿德（Philippe Saadé）在向媒体发布的声明中强调，该项目独立于大型AI实验室或科技巨头。“此次嵌入项目的发布证明，强大的人工智能不必由少数企业掌控，”萨阿德对记者表示，“它可以保持开放、协作，并为全人类服务而构建。”

搜索结果如下

阅读全文

维基媒体推新数据库，让AI更便捷获取维基百科知识

也可以看看

贝塞斯达托德霍华德确认，《上古卷轴5：天际》付费内容策略不变

阅读全文

惩罚者灵感来源《处刑人》终登银幕，完美选角遗憾无缘

阅读全文

Steam新免费剧情游戏《今夜月色真美：最终版》好评如潮，玩家评分高达100%

阅读全文