标签 AI爬虫下的文章

AI 大模型公司，正在疯狂收集训练数据。它们派出无数爬虫，在互联网上无节制地抓取数据。爬虫数量之多、频率之高，堪比 DDoS 攻击。上周，代码托管网站 SourceHut 的站长，公开发表文章（下图），痛斥 AI 爬虫太过份，服务器无法承受访问压力，中断服务。他非常生气，这些爬虫根本不遵守 robots.txt 文件，Git 仓库的每个页面、每个链接、每个提交都要爬取。它们来自全球数万个 IP 地址，用户代理（user-agent 字段）也是随机的，伪装得像真实用户，难以有效拦截。最可气的是，它们今天爬完了，过了六小时，又来爬同样的内容！每一周，他要用20%～100%的工作时间，处理这些爬虫造

阅读全文

标签 AI爬虫下的文章

如何阻止AI爬虫

最新文章

最近回复

分类

归档

其它

标签 AI爬虫 下的文章

如何阻止AI爬虫

最新文章

最近回复

分类

归档

其它

标签 AI爬虫下的文章