Разделы

Безопасность Интернет Веб-сервисы

Разозленные наглостью ИИ-компаний сайты тайком внедряют новое оружие против поисковых роботов

Некоторые владельцы сайтов в интернете разрабатывают и внедряют ПО, которое позволяет противостоять ботам ИИ-компаний, без спроса собирающим данные для обучения их моделей. Софт загоняет ботов в ловушки из бесконечного числа «пустых» страниц и «скармливает» им бессмысленный текст для отравления датасета и ухудшения свойств модели в дальнейшем. Эффективность таких инструментов ставится под сомнение.

На тропе войны ИИ-компаниями

Сайты в Сети начали внедрять «оружие против искусственного интеллекта», призванное помешать автоматическому сбору данных, на основе которых крупные ИИ-компании, такие как OpenAI и Google, обучают модели вопреки воле владельцев веб-ресурсов.

По сообщению Ars Technica, одним из первых образцов такого «оружия» является Nepenthis – по сути, вредоносное ПО за авторством разработчика, который предпочитает сохранять анонимность. Издание называет его Аароном (Aaron).

Инструмент, в котором используется техника тарпиттинга (расстановки тарпитов, или ловушек), получил свое название в честь непентеса – плотоядного растения, напоминающего по форме кувшин, которое приманивает насекомых и питается ими. Он нацелен на веб-краулеры (поисковые роботы) ИИ-компаний, не соблюдающие стандарты исключений для роботов.

ПО Nepenthis получило название в честь тропического плотоядного растения

В корне любого сайта веб-мастер может разместить специальный файл “robots.txt”, с помощью которого реализуется запрет на индексацию отдельных страниц веб-ресурса поисковыми роботами. Некоторые веб-краулеры, принадлежащие компаниям, работающим над созданием моделей машинного обучения, игнорируют содержимое этого файла и стремятся извлечь всю информацию, размещенную на сайте, создавая дополнительную нагрузку на хостинговую инфраструктуру.

Что умеет Nepenthes

Вредоносная программа устанавливается на сервер, обеспечивающий работу сайта, нуждающегося в защите. В процессе своего работы она создает ловушку, которая представляет собой бесконечную последовательность сгенерированных случайным образом статических веб-страниц, каждая из которых содержит множества ссылок, ведущих обратно в ловушку. Таким образом, краулер, пытающийся извлечь данные с такого ресурса, попадает в «бесконечный лабиринт» страниц, не содержащий ценной информации, который довольно сложно покинуть. По словам автора, в такой ловушке некоторые краулеры могут проводить по несколько месяцев.

Кроме того, Nepenthes, обнаружив краулер, добавляет дополнительную задержку перед выдачей ему содержимого очередной страницы, тем самым замедляя его работу. Наконец, оператору Nepenthes доступна функция «скармливания» роботу случайных фраз, сгенерированных при помощи цепей Марков. Разработчики программы считают, что это позволит отравить набор данных, используемый для обучения модели, и значительно ухудшить качество выдаваемых ей результатов при последующем инференсе.

Тарпиты первоначально использовались для борьбы со спамерами, вынуждая их расходовать дополнительные время и ресурсы. Аарон взял на вооружение эту технику и превратил ее в оружие против ИИ. По словам разработчика, на текущий момент Nepenthes способен противостоять всем крупным веб-краулерам за исключением принадлежащего OpenAI, разработчика большой языковой модели GPT, на базе которой построен популярный чат-бот ChatGPT.

ИИ-компании не дремлют

Пока не ясен масштаб ущерба, который потенциально может нанести массовое внедрение инструментов вроде Nepenthes. Ведущие ИИ-компании и ранее сталкивались с попытками отравления наборов данных, используемых для обучения моделей, и уже успели выработать набор определенных контрмер.

OpenAI, к примеру, проявляет особую бдительность в этом отношении, выявляя попытки целенаправленного отравления датасетов на самых ранних этапах, отмечает Ars Technica. В компании изданию заявили, что осведомлены о попытках противостояния веб-краулерам, собирающих данные для обучения моделей, и готовы их пресекать, при этом «соблюдая правила robots.txt и поддерживая соответствие стандартным практикам в интернете».

Разработчик Nepenthes ставит своей целью нанесение ИИ-компаниям максимального вреда, способствуя повышению их расходов на обучение моделей и затягиванию процесса в целом. По мнению Аарона, представители ИИ-отрасли, продвигающие «никому не нужные» технологии, виноваты в деградации Всемирной паутины как общедоступного источника информации. Такой технологией, в его представлении, являются, например, чат-боты, лишающие работы сотрудников служб поддержки клиентов по всему миру, или предоставляющие неточные результаты поиска в Сети.

Инструмент внедряют без лишнего шума, идеи находят развитие

Как отмечает Ars Technica, инструмент появился в середине января 2025 г. и быстро обрел популярность масштаба, на который Аарон и не рассчитывал. Конкретные числа издание не приводит.

Оценить количество внедрений Nepenthes представляется затруднительным, поскольку его пользователям рекомендуется на афишировать факт наличия инструмента на сервере – так проще «наказывать» ИИ-краулеры, игнорирующие инструкции, прописанные в “robot.txt”. Данные, собранные Аароном, свидетельствуют о том, что число пользователей Nepenthes растет, при этом подавляющее их большинство с разработчиком не контактирует.

Идеи, заложенные в Nepenthes, находят применение и развитие в инструментах других разработчиков. Так, программист и хакер Гергели Надь (Gergely Nagy), продолжительное время страдавший от того, что практически весь канал связи принадлежащего ему сервера «съедали» поисковые роботы, написал собственную программу под названием Iocaine. Ее внедрение, со слов разработчика, позволило сократить трафик ботов, обращающихся к его сайту, на 94%, и интерес к ней начали проявлять некоторые организации, названия которых не уточняется.

При создании Iocaine Надь сосредоточился на усилении «отравляющих» свойств Nepenthes. В работе Iocaine задействован обратный прокси-сервер, при помощи которого робот, собирающий данные для обучения ИИ и не обращающий внимание на содержимое “robots.txt”, оказывается заперт в «бесконечном лабиринте из [информационного] мусора», который постепенно накапливается в датасете, что ведет к его отравлению.

Не панацея

Пользу от Nepenthes и ему подобных ставят под сомнение посетители Hacker News. Популярно мнение, что большинство ИИ-краулеров способно с легкостью обходить ловушки такого рода. Аарон с ним не согласен и утверждает, что в его распоряжении имеются логи веб-сервера, свидетельствующие о том, что Google, в частности, так этому и не научился.

Как отмечает Ars Technica, многие не спешат внедрять инструменты вроде Nepenthes, поскольку те сами по себе потребляют ресурсы сервера и расходуют трафик, что в некоторых случаях может означать экономическую нецелесообразность применения нового оружия борьбы с ИИ-краулерами.

По словам Аарона, для работы Nepenthes требуются ресурсы, сопоставимые с необходимыми для запуска дешевой виртуальной машины на базе Raspberry Pi 5. Надь утверждает, что Iocaine потребляет ровно столько же, сколько и сам сайт, который программа защищает.

Дмитрий Степанов