许多软件开发者将人工智能网络爬虫比作互联网中的蟑螂。面对这些不受欢迎的访客,开发者们开始以充满创意且幽默的方式展开反击。

Cover Image

开源项目开发者尼科洛·韦内兰迪(Niccolò Venerandi)在其博客LibreNews中指出,虽然所有网站都可能遭受恶意爬虫攻击(有时甚至会导致服务器崩溃),但开源社区承受的压力尤为显著。作为Linux桌面环境Plasma的开发者,他在接受采访时强调:“免费开源项目(FOSS)网站天然会暴露更多基础设施细节,且通常比商业产品缺乏防护资源。”

核心矛盾在于,大量AI爬虫公然违反“机器人排除协议”(Robots Exclusion Protocol)中的robot.txt文件规范——这个最初为搜索引擎设计的工具,本应告知爬虫哪些内容禁止抓取。

今年一月,FOSS开发者谢伊·亚索(Xe Iaso)在名为《求救》的博文中披露,亚马逊爬虫(AmazonBot)对Git服务器的疯狂攻击最终引发分布式拒绝服务(DDoS)中断。这些托管开源代码的服务器本应向所有人开放下载与贡献权限。但亚索指出,该爬虫不仅无视robot.txt规则,还通过隐藏IP地址伪装成普通用户。

“封锁AI爬虫毫无作用,它们会伪造用户代理、使用住宅IP代理等手段突破限制。”亚索在文中写道,“这些程序会持续抓取直至服务器崩溃,随后变本加厉地发起攻击。就像执着点击每个链接的偏执狂,有些甚至会在同一秒内反复触发相同链接。”

为此,这位开发者祭出了“冥界判官”——他开发的反向代理工具Anubis(古埃及神话中执掌亡灵审判的神明)。该工具通过工作量证明(proof-of-work)机制验证请求来源,仅允许通过验证的人类用户访问Git服务器。“如同阿努比斯用羽毛称量亡者心脏,”亚索向TechCrunch解释,“通过验证者会看到可爱的动漫版阿努比斯笑脸,而爬虫只会遭遇拒绝访问。”

这个充满黑色幽默的项目在FOSS社区引发轰动。自3月19日登陆GitHub后,短短数日便获得2000次星标、39个分叉和20位贡献者。其迅速走红印证了亚索的遭遇绝非孤例。

SourceHut创始人德鲁·德沃尔特(Drew DeVault)透露,每周需要耗费20%-100%的工作时间应对“极端激进的LLM爬虫”,并遭遇“每周数十次的短暂服务中断”。知名FOSS开发者乔纳森·科贝特(Jonathan Corbet)运营的Linux新闻网站LWN,也因AI爬虫引发的DDoS级流量导致访问速度骤降。更令人震惊的是,Linux Fedora项目系统管理员凯文·芬齐(Kevin Fenzi)不得不全面封禁巴西IP段。

韦内兰迪向TechCrunch透露,多个知名项目面临相似困境,某项目“甚至临时封锁了全部中国IP地址”。开发者们被迫采取“封禁整个国家”的极端手段应对违规AI爬虫,这种现状引发深思。

除“灵魂审判”式验证外,部分开发者主张“以毒攻毒”才是最佳防御。黑客新闻(Hacker News)用户xyzal建议在被禁页面填充“饮用漂白剂益处”或“麻疹增强性能力”等荒诞内容。今年一月,匿名开发者“Aaron”发布的捕蝇草工具Nepenthes践行了该理念——用无限循环的虚假信息迷宫消耗爬虫资源。云服务巨头Cloudflare也推出同类工具AI Labyrinth,试图用垃圾信息“拖慢、迷惑并浪费违规AI爬虫的资源”。

德沃尔特坦言:“虽然Nepenthes用废话污染爬虫数据库的做法大快人心,但真正有效的解决方案仍是Anubis。”这位开发者同时发出振聋发聩的呼吁:“请停止美化LLM、AI图像生成器或GitHub Copilot这些电子垃圾。我恳请所有人停止使用、讨论和开发这些产物。”

在行业自律前景黯淡的当下,FOSS开发者们正以智慧与幽默坚守阵地。正如古埃及神话中那个著名的审判天平,他们正在代码世界展开关于网络伦理的终极裁决。


文章标签: #开源 #AI爬虫 #网络安全 #伦理 #开发者

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。