Спецпроекты

Бандитские разборки, горючая кровля и другие причины «падения» облачных ЦОД

Безопасность Бизнес Интернет Интеграция ИТ в банках ИТ в госсекторе Маркет

Даже самый новый и современный дата-центр, например, уровня Tier III, не застрахован от форс-мажорных обстоятельств и аварий. Причин для серьезных сбоев, потерь данных и времени достаточно много — это и пожары, и человеческий фактор, и несоблюдение техники безопасности, а иногда и обычные бандитские разборки. ИТ-маркетплейс Market.CNews провел анализ аварий ЦОД за последнее время.

Кровля из горючих материалов

В результате банального короткого электрического замыкания в системе кондиционирования случился пожар в дата-центре OST московского отделения DataLine, который считался одним из наиболее надежных в России. Конечным пользователям стали недоступны сервисы ряда клиентов компании.

В результате банального короткого электрического замыкания в системе кондиционирования случился пожар в дата-центре OST московского отделения DataLine

Причиной пожара оказалось короткое замыкание, а причиной быстрого распространения огня явилась кровля — она была выполнена из горючих материалов. Площадь возгорания составила порядка 200 кв.м. Около десятка пожарных расчетов тушили пожар более 4 часов. В результате пожара пострадала система охлаждения ЦОД. Один машинный зал был полностью обесточен, серверное оборудование отключено.

Из-за пожара в ЦОД OST компании DataLine появились сбои в работе ряда популярных интернет-сервисов, в числе которых почтовый сервис mail.ru и платежная система Qiwi. Благодаря наличию резервных ЦОД и дублированию информации, пожар не отразился на сохранности данных.

С момента возгорания до перезапуска ЦОД прошло почти 15 часов. За простой сервисов компании DataLine пришлось выплачивать компенсации своим клиентам.

В период аварии количество сбоев в Mail.ru резко возросло


Источник: Downdetector.ru

С электричеством не шутят

Нагрузка сверх меры, экономия на электрозащитных технологиях и приборах может привести к перебоям электропитания ЦОД. Дело в том, что при сбоях приходится переключаться на резервные источники мощности, а это в свою очередь способствует повышению температуры в машинных залах. Как следствие, система охлаждения не справляется с повышенной нагрузкой, и серверы отключаются по перегреву.

В России наиболее масштабными были сбои в соцсети «ВКонтакте» 14 января 2020 г., когда вследствие перегрева серверного оборудования у многих пользователей не отправлялись сообщения, не обновлялась новостная лента, были замечены иные проблемы.

Разборки бизнесменов

Утром 2 марта 2020 года начались неполадки в работе одной из старейших хостинговых компаний России — компании "Мастерхост": сбоили сайты и электронная почта. Сначала компания заявляла о скорой починке сервисов, но уже вечером сделала заявление о захвате дата-центра бывшим собственником компании, который и нарушает работу ИТ-оборудования. В числе пострадавших "Роскосмос" и другие компании.

Провайдер восстановил свою работу лишь через два дня: 5 марта на сайте компании появилось объявление о достижении договорённостей с бывшим владельцем и готовности рассмотреть вопросы о выплате компенсаций в индивидуальном порядке. Стоит отметить, что право на компенсации имеют не все клиенты провайдеров. Как правило, простые и дешёвые тарифы на хостинг не имеют под собой SLA, и владельцы таких сайтов могут получить компенсации только по доброй воле провайдера.

В декабре 2019 г. российский хостинговый рынок взбудоражило известие об отключении дата-центра «Айхор хостинг», который обеспечивал работу десятков тысяч сайтов СМБ и госорганов. К таким последствиям привела не авария, не проблема в системах электроснабжения, не перегрев оборудования и даже не ошибка в системе охлаждения, а разборки бизнесменов — конфронтация совладельцев и руководства компании.

В результате споров к 17 декабря 2019 г. возникла ситуация, из-за которой пользователи хостинга не могли сделать бэкап своих данных, вернуть проекты с рабочее состояние и экспортировать базы данных, а сами сайты по-прежнему не работали.

Днем позже появилось сообщение о том, что ЦОД ими включен «для всех» на 24 часа, чтобы клиенты смогли забрать свои данные. По истечении этого срока хостингом смогут продолжить пользоваться, только те из клиентов, кто перейдет на новый биллинг, то есть под крыло нового руководства «Айхора».

Авария, приведшая к пересмотру стратегии резервирования

В августе 2018 г. с проблемами столкнулся дата-центр «Ростелекома». Услугам оператора пользуются крупнейшие госзаказчики, в частности, Росреестр. В результате сбоя продолжительностью 66 часов необработанными остались более 180 тыс. заявок по недвижимости, а во многих регионах России сделки по недвижимости были заморожены.

Лишь через пару недель Росреестр смог вернуться к штатному функционированию. Впоследствии оператору пришлось полностью изменить концепцию резервирования. С тех пор данные Росреестра в дата-центрах «Ростелеком» резервируются троекратно.

Как обеспечить своим данным надежную защиту

Как показывает опыт, операторы ЦОД показывают достаточно высокую скорость реакции на инциденты, но закон инерции играет против них: работы по корректному завершению работы и возобновлению «упавшего» сервиса занимают достаточно много времени.

Сто процентов защиты не даст ни один провайдер. Практика и эксперты убеждают нас в том, что релевантной защитой при использовании сервиса облачного провайдера являются регулярные бэкапы. Лучше разнести дата-центры, места хранения копий как виртуально, так и географически.

При выборе облачного хостинга особое внимание следует обратить на оборудование хостера, его сервисные и административные возможности, статистику аварий и длительность восстановления работоспособности после них.



Тема месяца

Что делать ИТ-директору во время пандемии

Перед ИТ-руководителями встают задачи, связанные с обеспечением удаленной работы сотрудников.

Точки роста

BIM в России. Что его стимулирует, а что — тормозит

Информационное моделирование приходит в строительную отрасль.