维基媒体基金会(Wikimedia Foundation)——维基百科(Wikipedia)及其十余个众包知识项目的伞形组织——本周三披露,自2024年1月起,旗下维基共享资源(Wikimedia Commons)的多媒体下载带宽消耗已暴增50%。

Cover Image

该机构在周二的官方博文中阐明,这种异常流量并非来自人类对知识需求的增长,而是源于训练人工智能模型的数据饥渴型AI爬虫程序。文章特别指出:“我们的基础设施原本是为人流量在热点事件期间的高峰设计的,但AI爬虫产生的流量规模完全超出预期,正在带来前所未有的运营风险和成本压力。”

作为全球最大的开放许可及公共领域多媒体资源库,维基共享资源收录的图片、视频和音频文件均可免费使用。深入分析显示,维基媒体基金会65%的“高成本”流量(即需要消耗最多资源的服务类型)来自自动化程序,而这些程序仅贡献了总页面浏览量的35%。这种矛盾现象源于高频访问内容会被缓存在离用户更近的服务器节点,而AI爬虫专攻的冷门内容则存储在核心数据中心——后者需要更高昂的运维成本。

“普通用户通常聚焦特定(且相对集中)的主题领域,而AI爬虫热衷于批量抓取海量页面,包括大量冷门素材。”维基媒体在技术报告中强调,“这意味着这些请求必须由核心数据中心处理,直接导致我们的资源消耗成本大幅上涨。”

面对这种情况,基金会技术团队不得不将大量精力投入反爬虫防御,既要确保普通用户访问不受影响,又要应对日益增长的云服务开支。这背后折射出一个更严峻的行业困境:AI训练正在威胁开放互联网的存续基础。

上月,软件工程师兼开源倡导者德鲁·德沃特(Drew DeVault)就曾揭露,多家AI公司无视网站设置的“robots.txt”反爬虫协议。独立开发者格雷戈里·奥罗斯(Gergely Orosz)上周也控诉,来自Meta等科技巨头的AI爬虫使其个人项目的带宽费用飙升。

值得关注的是,开源社区已展开反击。据TechCrunch报道,开发者们正在采用“智能对抗”策略,比如Cloudflare最新推出的“AI迷宫”(AI Labyrinth)服务,通过生成混淆性内容来延缓爬虫效率。但业内人士担忧,这场攻防战可能导致更多网站被迫设置登录墙或付费墙,最终损害所有互联网用户的利益。


文章标签: #AI爬虫 #维基百科 #带宽激增 #开源社区 #运维成本

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。