Безопасность Интернет Веб-сервисы

29 Января 2025 12:40 29 Янв 2025 12:40 |

Разозленные наглостью ИИ-компаний сайты тайком внедряют новое оружие против поисковых роботов

Некоторые владельцы сайтов в интернете разрабатывают и внедряют ПО, которое позволяет противостоять ботам ИИ-компаний, без спроса собирающим данные для обучения их моделей. Софт загоняет ботов в ловушки из бесконечного числа «пустых» страниц и «скармливает» им бессмысленный текст для отравления датасета и ухудшения свойств модели в дальнейшем. Эффективность таких инструментов ставится под сомнение.

На тропе войны ИИ-компаниями

Сайты в Сети начали внедрять «оружие против искусственного интеллекта», призванное помешать автоматическому сбору данных, на основе которых крупные ИИ-компании, такие как OpenAI и Google, обучают модели вопреки воле владельцев веб-ресурсов.

По сообщению Ars Technica, одним из первых образцов такого «оружия» является Nepenthis – по сути, вредоносное ПО за авторством разработчика, который предпочитает сохранять анонимность. Издание называет его Аароном (Aaron).

Инструмент, в котором используется техника тарпиттинга (расстановки тарпитов, или ловушек), получил свое название в честь непентеса – плотоядного растения, напоминающего по форме кувшин, которое приманивает насекомых и питается ими. Он нацелен на веб-краулеры (поисковые роботы) ИИ-компаний, не соблюдающие стандарты исключений для роботов.

freepik

ПО Nepenthis получило название в честь тропического плотоядного растения

В корне любого сайта веб-мастер может разместить специальный файл “robots.txt”, с помощью которого реализуется запрет на индексацию отдельных страниц веб-ресурса поисковыми роботами. Некоторые веб-краулеры, принадлежащие компаниям, работающим над созданием моделей машинного обучения, игнорируют содержимое этого файла и стремятся извлечь всю информацию, размещенную на сайте, создавая дополнительную нагрузку на хостинговую инфраструктуру.

Что умеет Nepenthes

Вредоносная программа устанавливается на сервер, обеспечивающий работу сайта, нуждающегося в защите. В процессе своего работы она создает ловушку, которая представляет собой бесконечную последовательность сгенерированных случайным образом статических веб-страниц, каждая из которых содержит множества ссылок, ведущих обратно в ловушку. Таким образом, краулер, пытающийся извлечь данные с такого ресурса, попадает в «бесконечный лабиринт» страниц, не содержащий ценной информации, который довольно сложно покинуть. По словам автора, в такой ловушке некоторые краулеры могут проводить по несколько месяцев.

Кроме того, Nepenthes, обнаружив краулер, добавляет дополнительную задержку перед выдачей ему содержимого очередной страницы, тем самым замедляя его работу. Наконец, оператору Nepenthes доступна функция «скармливания» роботу случайных фраз, сгенерированных при помощи цепей Марков. Разработчики программы считают, что это позволит отравить набор данных, используемый для обучения модели, и значительно ухудшить качество выдаваемых ей результатов при последующем инференсе.

Тарпиты первоначально использовались для борьбы со спамерами, вынуждая их расходовать дополнительные время и ресурсы. Аарон взял на вооружение эту технику и превратил ее в оружие против ИИ. По словам разработчика, на текущий момент Nepenthes способен противостоять всем крупным веб-краулерам за исключением принадлежащего OpenAI, разработчика большой языковой модели GPT, на базе которой построен популярный чат-бот ChatGPT.

ИИ-компании не дремлют

Пока не ясен масштаб ущерба, который потенциально может нанести массовое внедрение инструментов вроде Nepenthes. Ведущие ИИ-компании и ранее сталкивались с попытками отравления наборов данных, используемых для обучения моделей, и уже успели выработать набор определенных контрмер.

OpenAI, к примеру, проявляет особую бдительность в этом отношении, выявляя попытки целенаправленного отравления датасетов на самых ранних этапах, отмечает Ars Technica. В компании изданию заявили, что осведомлены о попытках противостояния веб-краулерам, собирающих данные для обучения моделей, и готовы их пресекать, при этом «соблюдая правила robots.txt и поддерживая соответствие стандартным практикам в интернете».

Разработчик Nepenthes ставит своей целью нанесение ИИ-компаниям максимального вреда, способствуя повышению их расходов на обучение моделей и затягиванию процесса в целом. По мнению Аарона, представители ИИ-отрасли, продвигающие «никому не нужные» технологии, виноваты в деградации Всемирной паутины как общедоступного источника информации. Такой технологией, в его представлении, являются, например, чат-боты, лишающие работы сотрудников служб поддержки клиентов по всему миру, или предоставляющие неточные результаты поиска в Сети.

Инструмент внедряют без лишнего шума, идеи находят развитие

Как отмечает Ars Technica, инструмент появился в середине января 2025 г. и быстро обрел популярность масштаба, на который Аарон и не рассчитывал. Конкретные числа издание не приводит.

Оценить количество внедрений Nepenthes представляется затруднительным, поскольку его пользователям рекомендуется на афишировать факт наличия инструмента на сервере – так проще «наказывать» ИИ-краулеры, игнорирующие инструкции, прописанные в “robot.txt”. Данные, собранные Аароном, свидетельствуют о том, что число пользователей Nepenthes растет, при этом подавляющее их большинство с разработчиком не контактирует.

Идеи, заложенные в Nepenthes, находят применение и развитие в инструментах других разработчиков. Так, программист и хакер Гергели Надь (Gergely Nagy), продолжительное время страдавший от того, что практически весь канал связи принадлежащего ему сервера «съедали» поисковые роботы, написал собственную программу под названием Iocaine. Ее внедрение, со слов разработчика, позволило сократить трафик ботов, обращающихся к его сайту, на 94%, и интерес к ней начали проявлять некоторые организации, названия которых не уточняется.

При создании Iocaine Надь сосредоточился на усилении «отравляющих» свойств Nepenthes. В работе Iocaine задействован обратный прокси-сервер, при помощи которого робот, собирающий данные для обучения ИИ и не обращающий внимание на содержимое “robots.txt”, оказывается заперт в «бесконечном лабиринте из [информационного] мусора», который постепенно накапливается в датасете, что ведет к его отравлению.

Не панацея

Пользу от Nepenthes и ему подобных ставят под сомнение посетители Hacker News. Популярно мнение, что большинство ИИ-краулеров способно с легкостью обходить ловушки такого рода. Аарон с ним не согласен и утверждает, что в его распоряжении имеются логи веб-сервера, свидетельствующие о том, что Google, в частности, так этому и не научился.

Как отмечает Ars Technica, многие не спешат внедрять инструменты вроде Nepenthes, поскольку те сами по себе потребляют ресурсы сервера и расходуют трафик, что в некоторых случаях может означать экономическую нецелесообразность применения нового оружия борьбы с ИИ-краулерами.

По словам Аарона, для работы Nepenthes требуются ресурсы, сопоставимые с необходимыми для запуска дешевой виртуальной машины на базе Raspberry Pi 5. Надь утверждает, что Iocaine потребляет ровно столько же, сколько и сам сайт, который программа защищает.

Первый в России ИТ-маркетплейс Market.CNews для Вашего бизнеса. С ценами на ИТ-услуги от сотен поставщиков

Дмитрий Степанов

Подписаться на новости

Короткая ссылка

Разозленные наглостью ИИ-компаний сайты тайком внедряют новое оружие против поисковых роботов

На тропе войны ИИ-компаниями

Что умеет Nepenthes

ИИ-компании не дремлют

Инструмент внедряют без лишнего шума, идеи находят развитие

Не панацея

Другие материалы рубрики

Конференции

Business Process Management 2025

Технологии искусственного интеллекта 2025

Цифровизация HR 2025

MARKET.CNEWS

Dedicated

Kubernetes

DRaaS

ERP

Техника

Бесплатные сервисы с ИИ для генерации текстов, изображений и музыки: выбор ZOOM

Как записать видео с веб-камеры: 10 бесплатных программ для ПК

Где смотреть фильмы и сериалы в 2025 году: лучшие онлайн-кинотеатры

Наука

7 фактов о Пангее — древнем суперконтиненте Земли

Излучение Хокинга может стирать черные дыры по всей Вселенной — это старт эры новой физики

Загадочные камни возрастом 12 000 лет — предшественники колеса?

Топ-100 поставщиков решений для защиты информации

Крупнейшие поставщики импортонезависимых
ИТ-решений для
финсектора

Топ-20 российских провайдеров услуг ЦОД

Крупнейшие поставщики импортонезависимых
ИТ-решений для
финсектора

Топ-100 поставщиков решений для защиты информации

«Яндекс 360» встроил нейросеть в онлайн-редактор: что получилось?

Разозленные наглостью ИИ-компаний сайты тайком внедряют новое оружие против поисковых роботов

На тропе войны ИИ-компаниями

Что умеет Nepenthes

ИИ-компании не дремлют

Инструмент внедряют без лишнего шума, идеи находят развитие

Не панацея

Другие материалы рубрики

Конференции

Business Process Management 2025

Технологии искусственного интеллекта 2025

Цифровизация HR 2025

MARKET.CNEWS

Dedicated

Kubernetes

DRaaS

ERP

Техника

Бесплатные сервисы с ИИ для генерации текстов, изображений и музыки: выбор ZOOM

Как записать видео с веб-камеры: 10 бесплатных программ для ПК

Где смотреть фильмы и сериалы в 2025 году: лучшие онлайн-кинотеатры

Наука

7 фактов о Пангее — древнем суперконтиненте Земли

Излучение Хокинга может стирать черные дыры по всей Вселенной — это старт эры новой физики

Загадочные камни возрастом 12 000 лет — предшественники колеса?

Топ-100 поставщиков решений для защиты информации

Крупнейшие поставщики импортонезависимых ИТ-решений для финсектора

Топ-20 российских провайдеров услуг ЦОД

Крупнейшие поставщики импортонезависимых ИТ-решений для финсектора

Топ-100 поставщиков решений для защиты информации

«Яндекс 360» встроил нейросеть в онлайн-редактор: что получилось?

Крупнейшие поставщики импортонезависимых
ИТ-решений для
финсектора

Крупнейшие поставщики импортонезависимых
ИТ-решений для
финсектора