AI公司无视禁令抓取网站，Cloudflare指控Perplexity违规

据互联网基础设施提供商Cloudflare披露，人工智能初创企业Perplexity正在爬取并抓取已明确声明禁止抓取的网站内容。7月8日，Cloudflare发布研究报告指出，该AI公司无视拦截措施，并通过技术手段隐藏其爬虫活动。这家网络基础设施巨头指控Perplexity通过伪装身份“试图规避网站的访问偏好”。

Cover Image

以Perplexity为代表的AI产品依赖从互联网海量抓取数据。长期以来，AI初创公司未经授权反复抓取网络文本、图像和视频的行为已成行业常态。近期，网站运营者开始通过robots.txt标准文件进行反制，该文件可告知搜索引擎和AI公司哪些页面允许索引，但截至目前收效甚微。

Cloudflare调查发现，Perplexity通过修改爬虫程序的“用户代理”标识（用于识别访问者设备及版本类型的信号），以及变更自治系统网络编号（ASN，互联网大型网络识别码），系统性规避拦截措施。该公司在报告中强调：“我们每天观测到数万个域名遭受此类爬取，日均请求量达数百万次。通过机器学习与网络信号分析，我们已对该爬虫完成特征识别。”

Perplexity发言人杰西·杜耶（Jesse Dwyer）将Cloudflare的指控称为“营销话术”，并在致TechCrunch的邮件中表示报告截图“证明未实际获取内容”。在后续邮件中，他更否认报告中提及的爬虫程序归属其公司。

Cloudflare透露，其客户持续投诉Perplexity在网站设置robots.txt规则及专门拦截其已知爬虫后仍持续抓取。经测试验证，该公司确认Perplexity存在规避行为：“当声明爬虫被拦截时，他们不仅使用备案的用户代理，还会伪装成macOS系统上的Google Chrome浏览器。”

目前Cloudflare已将Perplexity爬虫从认证名单中移除，并部署新技术进行拦截。这是该基础设施商近期针对AI爬虫的又一举措——上月其刚推出允许网站向AI数据抓取者收费的新市场。首席执行官马修·普林斯（Matthew Prince）曾警示AI正在破坏互联网商业模式，尤其危及出版商利益。去年该公司还发布了免费工具以阻止AI训练数据抓取。

这并非Perplexity首次陷入未经授权抓取争议。2023年，《连线》（Wired）等媒体指控其内容剽窃。数周后，首席执行官阿拉文德·斯里尼瓦桑（Aravind Srinivas）在TechCrunch Disrupt 2024大会上接受德文·科尔德维（Devin Coldewey）采访时，未能立即回应公司对剽窃的定义。

搜索结果如下

阅读全文

AI公司无视禁令抓取网站，Cloudflare指控Perplexity违规

也可以看看

Prime Video动作榜首剧《无敌少侠》集席卷美国，新剧集现已上线

阅读全文

爆料称PS6或售699美元，但索尼可能因Xbox退出竞争而放弃补贴

阅读全文

瑞安·雷诺兹与杰森·莫玛R级喜剧新片《动物朋友》再度延期八个月

阅读全文