谷歌通过推出Data Commons模型上下文协议(MCP)服务器,正将其庞大的公共数据宝库转变为人工智能的金矿——这使得开发者、数据科学家和AI智能体能够使用自然语言访问真实世界统计数据,从而更好地训练AI系统。

Cover Image

谷歌的Data Commons项目始于2018年,它整合了来自众多来源的公共数据集,包括政府调查、地方行政数据以及联合国等全球机构的统计数据。随着MCP服务器的发布,现在可以通过自然语言访问这些数据,允许开发者将其集成到AI智能体或应用程序中。

AI系统通常是在嘈杂、未经核实的网络数据上进行训练的。再加上它们在缺乏来源时有“填补空白”的倾向,这导致了幻觉问题的产生。因此,希望针对特定用例微调AI系统的公司通常需要获取大型、高质量的数据集。谷歌通过公开发布其Data Commons的MCP服务器,旨在同时应对这两个挑战。

Data Commons的新MCP服务器将公共数据集——从人口普查数据到气候统计数据——与日益依赖准确、结构化上下文的AI系统连接起来。通过使这些数据能够通过自然语言提示进行访问,此次发布旨在将AI建立在可验证的真实世界信息基础之上。

“模型上下文协议让我们能够利用大型语言模型的智能,在正确的时间挑选正确的数据,而无需理解我们是如何为数据建模的,或者我们的API是如何工作的,”谷歌Data Commons负责人普雷姆·拉马斯瓦米(Prem Ramaswami)在接受采访时表示。

MCP最初由Anthropic去年11月推出,是一个开放的行业标准,它使AI系统能够从各种来源访问数据,包括业务工具、内容仓库和应用程序开发环境,为理解上下文提示提供了一个通用框架。自推出以来,诸如OpenAI微软谷歌等公司已采用该标准,以将其AI模型与各种数据源集成。

当其他科技公司在探索如何将该标准应用于其AI模型时,拉马斯瓦米和他在谷歌的团队于今年早些时候开始研究如何利用该框架使Data Commons平台更易于访问。

谷歌还与专注于改善非洲经济机会和公共健康的非营利组织ONE Campaign合作,推出了ONE Data Agent。这款AI工具利用MCP服务器,以通俗的语言呈现数千万个金融和健康数据点。

ONE Campaign曾带着其在自己定制服务器上实现的MCP原型找到谷歌的Data Commons团队。拉马斯瓦米告诉TechCrunch,这次互动是一个转折点,促使该团队在5月构建了一个专用的MCP服务器。

然而,这种体验并不局限于ONE Campaign。Data Commons MCP服务器的开放性使其与任何大语言模型兼容,并且谷歌为开发者提供了几种入门方式。可以通过Colab笔记本中的Agent Development Kit (ADK)获取一个示例智能体,也可以通过Gemini CLI或任何使用PyPI包的MCP兼容客户端直接访问服务器。示例代码也已在GitHub代码库上提供。


文章标签: #谷歌 #人工智能 #数据平台 #MCP协议 #公共数据

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。