Закон Мерфи против бизнеса

Блэкаут, ураган, российское законодательство и другие неприятности, которые застали компании врасплох.

Вокруг все пронизано информационными технологиями. Когда мы забываем дома телефон — случается неприятность, омрачающая день, да простят нас любители диджитал-детокса. Когда ломается ноутбук — тут же вызываем особую «скорую помощь», порой и круглосуточную. А когда компьютер, обсчитывающий миллионы операций для авиакомпании, выходит из строя? Это катастрофа.

Борьба за непрерывность бизнес-процессов и отказоустойчивость инфраструктуры имеет больше отношения к теории, нежели к реальности. Тема актуальна, многие директора кивают, понимая цену риска, но в уме держат мысль «а какова вероятность, что что-то пойдет не так?». Минимальная, если бы не закон Мерфи. Авось и подсчет статистики играет даже с крупными компаниями злую шутку: недавно ЦОД «Мегафона» отказал на два дня из-за «сильных морозов в столичном регионе», что сказалось на доступности ряда сервисов для абонентов. Напомним, что речь идет всего лишь о -28゜по Цельсию.

Клиент всегда должен получать стабильный сервис – таковы условия конкурентного бизнеса. При этом даже форс-мажорные ситуации не могут быть оправданием и не должны иметь никакого влияния на функционирование бизнес-процессов. Чтобы такой подход действовал, в любой ИТ-зависимой компании (а таких – каждая вторая) существует или должен быть внедрен план восстановления ИТ-систем (DRP, Disaster Recovery Plan) и план обеспечения непрерывной деятельности (BCP, Business Continuity Planning). Эти планы являются составляющими системы управления непрерывностью бизнеса. Если их нет, компания рискует и своей репутацией, и крупной суммой денежных средств.

Самым действенным способом обеспечения непрерывности работы бизнес-критичных систем служит аренда или создание собственного резервного ЦОД. При этом желательно, чтобы он находился на удалении от основной площадки. В момент форс-мажора, будь то авария или природные аномалии, все ИТ-системы просто переключатся на использование запасной площадки, пока работоспособность основного ЦОД не будет восстановлена.

Ниже мы разберем самые знаковые и забавные случаи из жизни дата-центров и расскажем, к чему они привели.

2005 год. Да погаснет свет

В мае 2005 года, аккурат на последний звонок во многих школах, в Москве произошла крупнейшая авария в энергосистеме из-за сбоя на подстанции «Чагино». Обесточенными оказались половина столичных районов, Подмосковье и другие близлежащие области. Не работало метро, парализовало большинство учреждений, в том числе банки, магазины, больницы.

Все операторы связи столкнулись с обесточиванием базовых станций в Москве и МО. В результате перебоев без связи осталось 6 млн. человек, т.е. около 30% всего региона. Ситуация осложнялась тем, что в случае ЧП связь была нужна каждому, нагрузка на сеть возросла, что вызвало дополнительные проблемы. Резервные подстанции не были рассчитаны на столь долгую работу, их питания остро не хватало.

Перебои наблюдали не только операторы сотовой связи, досталось и интернету: отключился основной узел обмена интернет-трафиком М9 — входит в пятерку крупнейших в мире. Оправиться от происшествия Москва смогла только на следующий день. Остается надеяться, что все вынесли свой урок из блэкаута и подобное больше никогда не произойдет. Например, «ВымпелКом» принимает серьезные меры для обеспечения надежности связи:

В «ВымпелКом» внедрена стратегия непрерывности бизнеса, разработкой которой мы занимались самостоятельно с учетом рекомендаций зарубежных консультантов. Business Impact Analysis проводился по блоку ИТ 2013-2014 и по техническому блоку в 2014-2015 годах и позволил определить влияние в результате возможных деструктивных и катастрофических сценариев, которые могут повлиять на способность организации продолжать выполнение ее основных задач. Также были определены приоритетные активности компании, зависимости между ними и единые точки отказа. Кроме того, в рамках стратегии непрерывности бизнеса в ВК были построены главный и резервный вычислительные центры (ГВЦ и РВЦ), которые находятся в географически разных точках. Наиболее критичные ИТ-системы резервируются в РВЦ, также проводится плановое тестирование переключения ИТ-систем с основной системы на резервную и обратно.

Внедрять и продолжать совершенствовать систему управления непрерывностью бизнеса одна из важнейших задач. «ВымпелКом», по нашим данным, единственный оператор в России с сертифицированной по стандарту iso22301 системой управления непрерывностью бизнеса, которая уже много раз доказывала свою эффективность и помогала минимизировать потери в результате инцидентов.

2016 год. Безумные потери

ЦОД авиаперевозчика Delta Air Lines не находился в эпицентре урагана, землетрясения или блэкаута. Он испытал небольшие проблемы, связанные с перебоями электричества, рядовой случай, но из-за отсутствия надежной системы резервного питания компания потеряла $150 млн. Delta Air Lines была вынуждена отменить 1 800 рейсов и задержать множество перелетов по всем направлениям. Инженерная ошибка поставила под угрозу существование бизнеса.

2016 год. Слово — закон

LinkedIn — самая популярная профессиональная социальная сеть в мире. Она объединяет более 400 млн пользователей, доступна в 200 странах, но не в России. 10 ноября 2016 года Мосгорсудом было принято окончательное решение о блокировки сети на территории РФ из-за несоответствия закону «О персональных данных», которые запрещается хранить и обрабатывать за рубежом. Дата-центр LinkedIn находится в Калифорнии.

Примечательно, что закон вступил в силу 28 июля 2012, а блокировка социальной сети произошла 4 августа 2016, то есть у нарушителя было целых четыре года для переноса дата-центров, но местные требования оказались либо недооценены, либо организация решила распрощаться с 2 млн пользователей из России. 

2012 год. Повторение — мать учения?

Если вы строите ЦОД в России — будьте готовы к холодам, а если в США – к ураганам. В 2005 году над страной пронеслась Катрина, затопившая Новый Орлеан, оставившая 800 тысяч человека без электричества и связи. Горький опыт и огромные потери должны были научить противостоять таким бедствиям и минимизировать ущерб, тем более когда это касается критичных бизнес-активов — дата-центров.

Однако в 2012 году ураган Сэнди преподал новый урок, на сей раз нью-йорским ЦОД. Провайдер InterNAP сильно подвела своих клиентов, когда выяснилось, что затопило их запасные дизельные генераторы при отсутствии электричества в городе. От наводнения пострадало еще несколько интернет-провайдеров и хостинговых компаний, упали многие международные сервисы. Общественность была возмущена: о приближении урагана было известно за неделю.

Но нет худа без добра: благодаря Сэнди Facebook запустил инициативу Project Storm. Компания формирует стандарты работы при стихийных бедствиях, регулярно устраивает жесткие тестирования своих дата-центров на катастрофоустойчивость.

2013 год. Цена 30 минут

Ресурсы Amazon считаются одними из самых надежных в мире. Настолько, что такие короли трафика как Instagram, Netflix и Airbnb предпочитают собственной инфраструктуре – облачные сервисы Amazon Web Services.

Однако в 2013 году дата-центр US-EAST постиг ряд неудач. Несмотря на то что лучшие инженеры работают над надежностью ЦОД, потери при простоях все еще слишком велики. Так, остановившись всего на 30 минут, интернет-магазин Amazon потерял $5 млн, по подсчетам журналистов.

2013 год. Закон Мерфи в Москве

Дата-центр «Бункер» создан в 2010 году на базе заброшенного противорадиационного убежища. Такое расположение дает дополнительные преимущества по надежности, но иногда жизнь до смешного берет свое.

В 2013 году при строительстве эстакады на Ярославском шоссе рабочие по случайности вбили сваю в телефонную канализацию, которой пронизана вся Москва. В результате были перебиты два кабеля, связывающие ЦОД и М9, о котором говорилось выше. Точка обмена трафиком расположена в 70 км от «Бункера» и для надежности соединяющие кабели идут разными путями по всему маршруту, но именно в месте ремонта Ярославского шоссе (на протяжении 6 км) оба провода идут по одному коридору. Как раз по тому, который пробили неаккуратные рабочие. 

К счастью, дата-центр имел еще один запасной канал связи с М9, который ни на каком этапе не пересекается с двумя другими. Но именно в этот день и время он был разобран для апгрейда.

Такое стечение обстоятельств вывело из строя «Бункер» на 5 часов. Мог ли кто-то предсказать подобный случай? Вряд ли.

2011 год. Сервер дождя

В дата-центре Facebook тоже случается непредвиденное, несмотря на то, что на компанию трудятся лучшие умы США. Летом 2011 года в одном из ЦОД наблюдались проблемы с регулированием уровня влажности из-за бесчиллерной системы кондиционирования, которая также используется в Google и Microsoft. Она значительно экономит электроэнергию за счет прямого испарения.

Однако из-за проблемы в системе управления зданием теплый воздух с низкой влажностью из горячих коридоров рецеркулировал через охлаждение с использованием воды. Таким образом, при возвращении в серверную, он был сильно влажным, при нагревании создавая эффект конденсации. В результате внутри ЦОД образовалось настоящее облако, из которого пошел дождь. Цепочка коротких замыканий остановила работу дата-центра до перевода на резервное питание.

Дарья Адаменко

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.