Безопасность Стратегия безопасности Интернет Веб-сервисы Искусственный интеллект axenix

19 Сентября 2024 09:50 19 Сен 2024 09:50 |

В МТУСИ предложили метод машинного обучения для обнаружение фишингового сайта

Информационная безопасность веб-приложений является одним из наиболее актуальных вопросов современного мира, а фишинг – серьезная угроза для миллионов пользователей интернет-ресурсов.

Фишинговые сайты создаются таким образом, чтобы максимально быть похожими на легитимные ресурсы, они заманивают миллионы пользователей на ложные веб-сайты, похищая конфиденциальную информацию, такую как пароль, данные банковской карты или адрес электронной почты. Последствия для организаций, чьи сайты были скомпрометированы, очень серьезны – это потеря прибыли, потеря доверия клиентов, санкции от поисковых систем и проблемы с индексацией сайта.

Машинное обучение становится все более популярным инструментом в борьбе с фишингом. С его помощью можно провести анализ свойств веб-страницы: процесс сводится к бинарной классификации, где веб-ресурсы определяются как фишинговые или легитимные на основе их атрибутов. После проведения классификации производится оценка качества результатов.

Формирование набора данных является важным аспектом исследования для обнаружения фишинговых сайтов на основе подмены адресов URL. Несмотря на то, что исследования в этой области имеют высокие оценки качества, существует проблема нехватки разнообразных и сбалансированных данных, что приводит к смещению оценок и делает результаты исследования необъективными.

Над решением проблемы работает магистрант МТУСИ Людмила Емец под руководством доцента кафедры «Информационная безопасность» Александра Большакова. Проведено исследование с целью выбора атрибутов и метода классификации мошеннических сайтов для обнаружения фишингового ресурса в сети Интернет. Об этом CNews сообщили представители МТУСИ.

Одним из ключевых аспектов исследования стало применение методов бинарной классификации, основанных на машинном обучении на языке Python с использованием библиотеки Scikit-Learn.

В ходе исследования обнаружено, что использование метода бинарной классификации усложняется процессом формирования набора данных от сторонних сервисов. Время выполнения этих запросов зависит от скорости и стабильности интернет-соединения, что может привести к непредсказуемой задержке и, следовательно, к усложнению процесса анализа.

«Для создания более сбалансированного набора данных сформированы две случайные выборки адресов сайтов — фишинговые и легитимные. Затем получен набор данных из 8600 URL-адресов, включающий как безопасные, так и небезопасные адреса, которые были поделены на обучающий и тестовый в соотношении 70% на 30%. Далее проведен анализ данных, который осуществлялся с применением двух подходов: использование данных из открытых источников и лексический анализ доменных имен. Применение n-граммного метода позволило выделить ключевые слова и сформировать дополнительные атрибуты лексического типа. Оценка зависимости атрибутов показала, что между ними нет высокой корреляции, что подтверждает их информативность для модели машинного обучения», – сказала Людмила Емец.

Ученые МТУСИ разработали модель классификации на основе алгоритмов «Градиентного бустинга», «K-Ближайших Соседей», «Логистической регрессии», «Наивного Байсса», «Случайного леса» и «Дерева принятых решений». Для оценки результатов работы моделей классификации и сравнения моделей между собой использовались меры точности, полноты, f1-мера и площадь под ROC-кривой. ROC-кривая позволила визуально иллюстрировать зависимость между количеством верно классифицированных фишинговых сайтов и количеством неверно классифицированных легитимных сайтов как вредоносных. Значение AUC (площадь под ROC-кривой) оказалось важным численным показателем качества моделей, где близкое к 1 значение AUC характеризует лучший алгоритм классификации.

«Была обнаружена взаимосвязь между свойствами веб-страницы и наличием фишингового ресурса в интернете. Проведен анализ таких характеристик веб-страницы как адрес, информация о домене, параметры подключения и наличие ключевых слов. Для построения модели выделены атрибуты (признаки) веб-ресурсов и получен набор данных: обучающая выборка с известным статусом сайтов и тестовая выборка с неизвестным. Ключевым этапом в предварительной обработке данных стал анализ корреляции атрибутов с применением коэффициента Пирсона. Обнаружено отсутствие высоких корреляций между выделенными атрибутами. На основе выделенных атрибутов и анализа свойств веб-ресурсов была сформирована обучающая выборка, что позволило значительно улучшить точность модели», – сказал Александр Большаков.

Лексический анализ URL-адресов фишинговых ресурсов помогает обнаружить специфические особенности и шаблоны, указывающие на их мошеннический характер. Эти особенности могут включать опечатки в популярных доменах, дополнительные поддомены, специальные символы и кодировки для маскировки. Исследователи особое внимание уделили частоте неалфавитных символов (точки, дефисы, цифры), поскольку такие символы часто используются злоумышленниками.

Применение «тепловой» карты показало отсутствие незначимых атрибутов, что подтверждает правомерность формирования выбранных атрибутов. Анализ ROC-кривых и результаты оценки качества моделей позволили выявить, что алгоритм классификации «Градиентный бустинг» демонстрирует наилучшие показатели среди рассмотренных моделей.

В ходе исследования были проанализированы возможности интеграции предложенной модели в системы защиты веб-приложений. Внедрение автоматизированных инструментов для обнаружения потенциально фишинговых URL-адресов на ранних стадиях их проникновения в сеть может существенно снизить риски для пользователей и организаций. Результаты оценки качества классификации на полученных данных подтверждают, что предложенный подход способен с высокой степенью достоверности выявлять фишинговые сайты.

Дальнейшие исследования в этой области могут быть направлены на улучшение алгоритмов машинного обучения путем надстройки параметров модели классификатора и использование новых источников данных для создания более комплексных и надежных средств защиты от фишинговых атак. Это открывает возможности для разработки более совершенных и надежных систем защиты пользователей в сети Интернет.

Что лучше — ГЛОНАСС или GPS: главные различия систем навигации

Подписаться на новости

Короткая ссылка

В МТУСИ предложили метод машинного обучения для обнаружение фишингового сайта

Другие материалы рубрики

Конференции

ELMA DAY’24: Экосистема Low-code решений

CNews Awards 2024

CNews FORUM 2024: Информационные технологии завтра

MARKET.CNEWS

Colocation

CRM

DBaaS

Email-рассылки

Техника

Как перенести WhatsApp на другой смартфон: инструкция для iPhone и Android-гаджетов

Обзор беспроводной колонки Vipe Spark: мощная, портативная, практичная

Неттопы и мини-ПК для учебы и игр: хиты продаж

Наука

Что будет с планетой через 8 миллиардов лет: обнаружена планета-калька Земли

Мрачное исследование: похоже, инопланетные цивилизации убивают сами себя из-за изменения климата

Черные дыры не то, чем они кажутся: новые данные разрешают их парадокс

Есть три ИБ-сегмента с наиболее острым дефицитом российских решений

Как снизить риски и упростить внутренний аудит при помощи GRC-систем

Мы должны быть независимы в технологическом плане, но закрытые рынки в этом не помогут

Как снизить риски и упростить внутренний аудит при помощи GRC-систем

Отсутствие универсальных LLM-решений в нефтегазе ведет к дублированию усилий и лишним расходам

Топ-10 поставщиков PaaS
Топ-50 поставщиков IaaS
Топ-90 поставщиков SaaS

Метрокластер, NGFW, супераппы, KubeVirt и не только: какие тренды обсуждают тысячи ИТ-экспертов

Есть три ИБ-сегмента с наиболее острым дефицитом российских решений

Распространение overcloud-решений даст импульс новым облачным сервисам

Наша новая серверная платформа стала полностью локализованной

В МТУСИ предложили метод машинного обучения для обнаружение фишингового сайта

Другие материалы рубрики

Конференции

ELMA DAY’24: Экосистема Low-code решений

CNews Awards 2024

CNews FORUM 2024: Информационные технологии завтра

MARKET.CNEWS

Colocation

CRM

DBaaS

Email-рассылки

Техника

Как перенести WhatsApp на другой смартфон: инструкция для iPhone и Android-гаджетов

Обзор беспроводной колонки Vipe Spark: мощная, портативная, практичная

Неттопы и мини-ПК для учебы и игр: хиты продаж

Наука

Что будет с планетой через 8 миллиардов лет: обнаружена планета-калька Земли

Мрачное исследование: похоже, инопланетные цивилизации убивают сами себя из-за изменения климата

Черные дыры не то, чем они кажутся: новые данные разрешают их парадокс

Есть три ИБ-сегмента с наиболее острым дефицитом российских решений

Как снизить риски и упростить внутренний аудит при помощи GRC-систем

Мы должны быть независимы в технологическом плане, но закрытые рынки в этом не помогут

Как снизить риски и упростить внутренний аудит при помощи GRC-систем

Отсутствие универсальных LLM-решений в нефтегазе ведет к дублированию усилий и лишним расходам

Топ-10 поставщиков PaaS Топ-50 поставщиков IaaSТоп-90 поставщиков SaaS

Метрокластер, NGFW, супераппы, KubeVirt и не только: какие тренды обсуждают тысячи ИТ-экспертов

Есть три ИБ-сегмента с наиболее острым дефицитом российских решений

Распространение overcloud-решений даст импульс новым облачным сервисам

Наша новая серверная платформа стала полностью локализованной

Топ-10 поставщиков PaaS
Топ-50 поставщиков IaaS
Топ-90 поставщиков SaaS