华擎日本延长800系列主板保修期,注册截止2025年12月31日
阅读全文

锤刻创思寰宇网
本周三,维基媒体德国分会(Wikimedia Deutschland)宣布推出全新数据库,旨在让人工智能模型更便捷地获取维基百科庞大的知识资源。
这项名为“维基数据嵌入项目”(Wikidata Embedding Project)的系统,对维基百科及其姊妹平台现有近1.2亿条数据实施了基于向量的语义搜索技术——该技术能帮助计算机理解词语含义及关联性。结合最新支持的模型上下文协议(Model Context Protocol,MCP)——该标准用于辅助AI系统与数据源交互,该项目使得大语言模型能通过自然语言查询更高效地获取数据。
该项目由维基媒体德国分会联合神经搜索公司Jina.AI及IBM旗下实时训练数据公司DataStax共同推进。尽管维基数据多年来持续提供机器可读的维基媒体资产,但既有工具仅支持关键词搜索和专用查询语言SPARQL。新系统将更好地适配检索增强生成(RAG)系统,使AI模型能调用外部信息,让开发者有机会基于维基百科编辑审核过的知识构建模型。
该数据库还通过结构化设计提供关键语义语境。例如,查询“科学家”一词时,系统将返回著名核科学家与贝尔实验室科学家的清单,同时提供该词的多语言翻译、经维基媒体授权的科学家工作图片,并延伸至“研究员”“学者”等相关概念。
目前该数据库已在Toolforge平台开放访问。维基数据还将于10月9日为感兴趣的开发者举办网络研讨会。
此次新项目的推出,正值AI开发者争相寻找可用于模型微调的高质量数据源。虽然训练系统已日趋复杂——往往构建为复合型训练环境而非简单数据集——但仍需精心策划的数据支撑。对于高精度要求的应用场景,可靠数据的需求尤为迫切。尽管有人对维基百科不以为然,但其数据明显比Common Crawl这类全网抓取的综合性数据集更注重事实准确性。
在某些情况下,对高质量数据的追求已给AI实验室带来沉重代价。今年8月,Anthropic公司为和解一起因使用作家作品作为训练材料引发的诉讼,同意支付15亿美元以了结所有不当行为指控。
维基数据AI项目经理菲利普·萨阿德(Philippe Saadé)在向媒体发布的声明中强调,该项目独立于大型AI实验室或科技巨头。“此次嵌入项目的发布证明,强大的人工智能不必由少数企业掌控,”萨阿德对记者表示,“它可以保持开放、协作,并为全人类服务而构建。”