Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,719,439字

该文章投稿至Nemo社区资讯板块复制链接

一键屏蔽恶意 AI 模型爬虫机器人，Cloudflare 推出“防扒”网络工具

发布于 2024/09/26 13:42 101浏览 0回复 897字

IT之家 9 月 26 日消息，网络服务商 Cloudflare 本周推出一系列防 AI 爬虫的工具，包括可查看 AI 爬虫具体活动的 AI Audit 和一键屏蔽所有 AI 爬虫的 Block AI Scrapers and Crawlers。站长们可以部署相关服务，从而防止自己网站的内容被用于训练 AI 的机器人爬虫扒取。

IT之家注：爬虫是一种自动化的程序，可以在互联网上搜索和获取信息，目前许多厂商使用相关爬虫扒取各大网站信息用于训练 AI 模型，相关爬虫容易导致被扒网站产生大量异常流量，为此站长需支付高昂的网络带宽费用，同时也容易导致网站上大量原创 / 隐私内容泄露。

Cloudflare 推出的相关工具主要利用签名比对、启发式算法、机器学习和行为分析技术来辨别爬虫，用户可以查看 AI 爬虫的各种行为，包括爬虫类型、访问频率和扫描内容，站长还可以按照需要放行“善意的 AI 机器人”抓取信息（此类“善意的 AI 机器人”主要寻找网站的 robots.txt 来获取信息，通常不会对网站本身产生异常流量，也不会将网页所有数据直接用于全盘训练模型）。

一键屏蔽恶意 AI 模型爬虫机器人，Cloudflare 推出“防扒”网络工具

如果不确定如何处理这些 AI 爬虫，站长们也可以使用 Block AI Scrapers and Crawlers 功能，一键屏蔽所有 AI 爬虫。

一键屏蔽恶意 AI 模型爬虫机器人，Cloudflare 推出“防扒”网络工具

互联网为许多大语言模型（如 OpenAI 的 GPT 模型和谷歌的 Bard）提供了大部分的训练数据，如今许多厂商为了刷自家 AI 模型分数，大肆通过网络爬虫“拿来式”地获取训练数据，从而让本应你情我愿的行为变得“污名化”，各大网络商直接推出此类禁用 AI 爬虫的服务也在意料之中。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/798/535.htm]

点了个评