在周六,Triplegangers公司的首席执行官奥莱克桑德尔·托姆丘克发现公司的电商网站突然瘫痪。经过排查,他意识到这并非普通的故障,而是一场分布式拒绝服务攻击。

openai-yapay-zeka-botlari-ddos-saldirisi-3-boyutlu-insan

进一步调查后,他发现罪魁祸首竟然是来自OpenAI的爬虫。这个爬虫不知疲倦地试图抓取Triplegangers整个庞大的网站内容。据托姆丘克向TechCrunch透露,他们公司有超过65000种产品,每种产品都有专属页面,每个页面至少配有三张照片。而OpenAI的爬虫发送了数万次服务器请求,企图下载所有内容,包括数十万张照片及其详细描述。

据托姆丘克所说,OpenAI使用了600个IP地址来抓取数据,他们还在分析上周的日志,实际使用的IP地址可能还要多。这些爬虫如同洪水猛兽般压垮了Triplegangers的网站,其攻击方式与DDoS攻击无异。

Triplegangers的网站是公司的核心业务。这家拥有七名员工的公司,用了十多年时间构建了号称网络上最大的“人类数字替身”数据库,即从真实人体模型扫描而来的3D图像文件。他们将这些3D对象文件以及照片——从手到头发、皮肤和全身——卖给3D艺术家、视频游戏制造商等,任何需要数字重现真实人类特征的人都是他们的潜在客户。

尽管Triplegangers网站上有服务条款页面,明确禁止未经许可使用爬虫抓取图像,但这毫无作用。网站必须使用正确配置的robot.txt文件,并带有专门的标签,才能明确告诉OpenAI的爬虫GPTBot不要访问该网站。Robot.txt,也就是机器人排除协议,本是用来告诉搜索引擎网站不要抓取哪些内容,以便它们索引网络。OpenAI在其信息页面上表示,当配置有其自己的禁止抓取标签时,它会遵守此类文件,但也会提醒,其爬虫可能需要长达24小时才能识别更新后的robot.txt文件。

然而,如果一个网站没有正确使用robot.txt,OpenAI和其他公司就会认为它们可以随意抓取。这并不是一个选择加入的系统。更糟糕的是,不仅Triplegangers在工作日被OpenAI的爬虫撞下线,托姆丘克还预计由于爬虫的CPU和下载活动,他的AWS账单会大幅增加。

而且,robot.txt也不是万无一失的。AI公司是自愿遵守它的。去年夏天,Wired的一项调查相当出名地指责了另一家AI初创公司Perplexity,因为一些证据表明Perplexity没有遵守它。

到了周三,在OpenAI的爬虫连续几天返回后,Triplegangers已经正确配置了robot.txt文件,并且还设置了一个Cloudflare账户来阻止其GPTBot以及托姆丘克发现的其他几个爬虫,如Barkrowler(SEO爬虫)和Bytespider(TokTok的爬虫)。周四早上,网站没有再出现崩溃情况。

但托姆丘克仍然没有合理的方法来确定OpenAI究竟成功抓取了什么,也无法让这些材料被删除。他没有找到联系OpenAI并询问的方法。OpenAI没有回应TechCrunch的置评请求。而且,正如媒体最近报道的,OpenAI至今未能交付其长期承诺的退出工具。

这对Triplegangers来说是一个特别棘手的问题。托姆丘克说:“我们所处的行业,权利是一个严肃的问题,因为我们扫描的是真实的人。”有了像欧洲的GDPR这样的法律,“他们不能随意抓取网络上的任何照片并使用它。”

Triplegangers的网站对AI爬虫来说也是一个特别诱人的目标。像Scale AI这样的数十亿美元估值的初创公司,就是由人类辛苦地给图像打标签来训练AI的。Triplegangers的网站包含了详细标记的照片:种族、年龄、纹身与疤痕、各种体型等等。

讽刺的是,OpenAI爬虫的贪婪让Triplegangers意识到它有多容易被暴露。如果它抓取得更温和一些,托姆丘克可能永远不会知道。

托姆丘克表示:“这很可怕,因为似乎这些公司利用了一个漏洞来抓取数据,声称‘你可以通过在robot.txt中更新我们的标签来选择退出’,但这把责任推给了企业主,让他们知道如何阻止它们。”

他希望其他小型在线企业知道,发现AI爬虫是否在抓取网站的版权内容的唯一方法是主动查找。他肯定不是唯一一个被它们吓到的人。其他网站的所有者最近告诉Business Insider,OpenAI的爬虫使他们的网站瘫痪,并增加了他们的AWS账单。

这个问题在2024年急剧增长。数字广告公司DoubleVerify的新研究发现,2024年AI爬虫和抓取器导致“一般无效流量”增加了86%,也就是说,流量并非来自真实用户。尽管如此,大多数网站仍然不知道它们被这些爬虫抓取了。托姆丘克警告说:“现在我们必须每天监控日志活动来发现这些爬虫。”

仔细想想,整个模式有点像黑手党勒索:AI爬虫会拿走它们想要的东西,除非你有保护。托姆丘克说:“他们应该征求许可,而不是仅仅抓取数据。”


文章标签: #OpenAI #爬虫 #DDoS攻击 #数据抓取 #网络安全

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。