《无名之辈2》导演力荐,这位动作明星会是绝佳蝙蝠侠
阅读全文

锤刻创思寰宇网
据互联网基础设施提供商Cloudflare披露,人工智能初创企业Perplexity正在爬取并抓取已明确声明禁止抓取的网站内容。7月8日,Cloudflare发布研究报告指出,该AI公司无视拦截措施,并通过技术手段隐藏其爬虫活动。这家网络基础设施巨头指控Perplexity通过伪装身份“试图规避网站的访问偏好”。
以Perplexity为代表的AI产品依赖从互联网海量抓取数据。长期以来,AI初创公司未经授权反复抓取网络文本、图像和视频的行为已成行业常态。近期,网站运营者开始通过robots.txt标准文件进行反制,该文件可告知搜索引擎和AI公司哪些页面允许索引,但截至目前收效甚微。
Cloudflare调查发现,Perplexity通过修改爬虫程序的“用户代理”标识(用于识别访问者设备及版本类型的信号),以及变更自治系统网络编号(ASN,互联网大型网络识别码),系统性规避拦截措施。该公司在报告中强调:“我们每天观测到数万个域名遭受此类爬取,日均请求量达数百万次。通过机器学习与网络信号分析,我们已对该爬虫完成特征识别。”
Perplexity发言人杰西·杜耶(Jesse Dwyer)将Cloudflare的指控称为“营销话术”,并在致TechCrunch的邮件中表示报告截图“证明未实际获取内容”。在后续邮件中,他更否认报告中提及的爬虫程序归属其公司。
Cloudflare透露,其客户持续投诉Perplexity在网站设置robots.txt规则及专门拦截其已知爬虫后仍持续抓取。经测试验证,该公司确认Perplexity存在规避行为:“当声明爬虫被拦截时,他们不仅使用备案的用户代理,还会伪装成macOS系统上的Google Chrome浏览器。”
目前Cloudflare已将Perplexity爬虫从认证名单中移除,并部署新技术进行拦截。这是该基础设施商近期针对AI爬虫的又一举措——上月其刚推出允许网站向AI数据抓取者收费的新市场。首席执行官马修·普林斯(Matthew Prince)曾警示AI正在破坏互联网商业模式,尤其危及出版商利益。去年该公司还发布了免费工具以阻止AI训练数据抓取。
这并非Perplexity首次陷入未经授权抓取争议。2023年,《连线》(Wired)等媒体指控其内容剽窃。数周后,首席执行官阿拉文德·斯里尼瓦桑(Aravind Srinivas)在TechCrunch Disrupt 2024大会上接受德文·科尔德维(Devin Coldewey)采访时,未能立即回应公司对剽窃的定义。