adblock check

Perplexity использует обходные механизмы, чтобы сканировать запрещающие это делать сайты

Когда поисковой бот данного проекта обнаруживает системы блокировки, он переключается на другую скрытную систему. Это довольно странный подход
Обложка: Perplexity

Вчера, 4 августа, в официальном блоге компании Cloudflare появилась весьма интересная публикация о том, что боты поисковой системы на базе искусственного интеллекта Perplexity сканируют даже те сайты, которые прямо запретили это делать в своей документации. Специалисты компании отмечают, что изначально Perplexity применяет своего стандартного пользовательского агента, но в случае обнаружения сетевой блокировки, которая мешает ИИ сканировать сайты для сбора данных, система, видимо, задействует некие механизмы обхода данной блокировки, дабы в итоге всё же собрать на ресурсе искомую информацию.

Perplexity использует обходные механизмы, чтобы сканировать запрещающие это делать сайты
Изображение: Cloudflare

Представители Cloudflare заявили, что получили ряд жалоб от своих клиентов, которые запретили Perplexity сканировать свои сайты посредством файла robots.txt, а также создали специальные правила WAF, чтобы заблокировать конкретных ботов Perplexity — PerplexityBot и Perplexity-User. Проблема в том, что это не помогло — Perplexity всё ещё получала доступ к их контенту, хотя сами боты были успешно заблокированы. Чтобы изучить этот вопрос, специалисты из Cloudflare решили провести эксперимент — они создали несколько совершенно новых доменов (они только были приобретены и ещ даже не были проиндексированы ни одной поисковой системой) и имплементировали файл robots.txt с правилами, запрещающими любым ботам получать доступ к любой части веб-сайта.

Изображение: Cloudflare

После этого специалисты отправились на Perplexity AI и задали вопросы об этих доменах — ИИ по-прежнему предоставлял подробную информацию о контенте, размещённом на каждом из этих веб-сайтов. И это при том, что энтузиасты приняли все необходимые меры, чтобы тестовые сайты не предоставляли поисковым ботам свою информацию. Но оказалось, что Perplexity использует для сканирования сайтов не только заявленного юзер-агента, но и некий универсальный браузер, который имитирует Google Chrome на macOS. Именно эта система начинает подключаться к сайту, когда поисковой бот по умолчанию блокируется настройками robots.txt.

Perplexity использует обходные механизмы, чтобы сканировать запрещающие это делать сайты
Изображение: Cloudflare

Более того, данный скрытный поисковой бот использовал несколько IP-адресов, которые не указаны в официальном диапазоне адресов Perplexity, периодически меняя их в ответ на политики, описанные в robots.txt, и блокировки со стороны Cloudflare. Также бот отправлял запросы с разных ASN, пытаясь обойти блокировки со стороны сайтов. Все эти манипуляции, по словам авторов эксперимента, противоречат нормам сканирования контента в интернете, которые изложены в протоколе RFC 9309.

Источник

ИИ ИИ
11,9K участников
Вступить
Комментариев пока нет
Оставьте комментарий...
Оставьте комментарий...