Что есть истинная непрерывность бизнеса? Даже самые защищенные системы и бизнес-процессы однажды могут не выстоять перед форс-мажорной ситуацией – будь то тайфун, пожар или человеческий фактор. Небольшие аварии часто приводят к отмене рейсов, остановке производств, сбоям работы серверов. И хотя кажется, что вероятность наступления аварии невелика, ущерб может быть фатальным для компании любого масштаба. В результате страдает и бизнес, и клиенты. А если это корневой элемент какой-либо более масштабной рыночной цепочки, то еще и другие компании.
Останется лишь гадать, откуда «бахнет» и сколько это будет стоить. Но ведь можно не гадать, а подготовить план «Б». Но какой из? BCP или DRP?
BCP (business continuity plan) – план обеспечения непрерывности бизнеса. Или иными словами – детальный план поддержания и восстановления бизнес-процессов после незапланированной остановки, который предполагает множество сценариев событий. BCP должен учитывать все – от простых инцидентов до ЧС, кризиса и форс-мажоров. Частный и более технический случай BCP – план послеаварийного восстановления инфраструктуры или DRP (disaster recovery plan). На деле в этом плане учитывается любой ключевой элемент инфраструктуры вплоть до автомобиля. Но чаще всего речь именно об ИТ-инфраструктуре, так как ее отказ в обслуживании может стать критичным для бизнеса.
Оборудование в дата-центрах достаточно чувствительно к внешним факторам и при этом оно аккумулирует огромные объемы данных, зачастую очень ценные. Бэкапа данных и отказоустойчивой инфраструктуры с дублированием всех основных и сопроводительных систем ЦОДа может оказаться недостаточно. «Эффект бабочки» не церемонится ни с одной системой защиты, и известны случаи, когда в систему подачи энергии дата-центра влетал внедорожник, а аварийная система энергоснабжения не сумела продемонстрировать свои возможности из-за отказа вспомогательного оборудования – охладительных систем. Если у компании есть резервная инфраструктура, это еще полдела. Без плана послеаварийного восстановления и тестирования работы отказоустойчивой системы инвестиции в резервную инфраструктуру не отрабатывают на все 100%. Как говорится, на технологии надейся, но сам не плошай!
Документ DRP четко описывает последовательность действий по защите IT-инфраструктуры, устранению последствий аварии и восстановлению данных, списки ответственных сотрудников, их роли и обязанности.
DRP и BCP имеют много общего:
- готовятся на случай кризисной ситуации или катастрофы;
- служат для того, чтобы в кратчайшие сроки вернуть бизнес на рабочий уровень, предшествующий сбою;
- содержат четкий набор инструкций и точное описание исполнителей;
- должны максимально учесть все требования бизнеса и подобрать для его «ахиллесовой пяты» запасные решения;
- должны периодически доказывать свою жизнеспособность на «учебной тревоге» и пересматриваться в случае капитальных преобразований в компании;
- оба плана уникальны для каждой отдельной компании.
Но это не одно и то же
Если произошел отказ работы ИТ-инфраструктуры или ее элементов, DRP содержит инструкцию быстрого и поэтапного восстановления каждой отдельной подсистемы – регламент действий для ИТ-отдела. Надеемся, что работа бригады отлажена и восстановление доступности инфраструктуры по DRP будет быстрым, но в течение какого-то времени она все равно будет недоступна. BCP описывает план переезда на новую инфраструктуру, а также действия всей компании по поддержке этого процесса вплоть до предупреждения контрагентов и сотрудников с разъяснительной информацией при необходимости. В этом случае BCP включает в себя множество DRP.
BCP разрабатывается и тестируется представителями бизнеса в рамках всей компании (включая все офисы) совместно с внешними агентами, на которых завязан бизнес-процесс. BCP разрабатывается под все цепочки деятельности организации. В план попадают не только риски и угрозы, связанные с ИТ, а все что по оценке бизнеса может повлиять на работу организации. Если в компании не предусмотрен план аварийного восстановления или ИТ-отдел недостаточно зрелый, BCP может содержать и информацию для восстановления бизнес-процессов, завязанных на ИТ-инфраструктуре. Но это частный случай. В большинстве своем эта роль принадлежит DRP – документу с инструкциями для ИТ-подразделения.
Многие вендоры систем резервного копирования предлагают в документации варианты по организации аварийного восстановления сервера резервного копирования. DRP должен учитывать несколько сценариев развития событий по нарастанию ущерба (минимальный сценарный перечень: отключение электроэнергии, отказ сервера, пожар или разрушение здания).
План аварийного восстановления должен «видеть» инфраструктуру насквозь:
- учитывать сетевую инфраструктуру (кабели, коннекторы, маршрутизаторы и др.);
- систему безопасности (система доступа и информационная безопасность);
- источники питания и защиты энергоснабжения (заземление, громоотводы, фильтры напряжения, ограничители);
- климатические устройства (кондиционер, отопление, вентиляция);
- технический и управленческий персонал;
…рассматривать ее на 360 градусов:
- рабочее пространство (включая мебель, напольное покрытие и освещение);
- коммунальные системы (водоснабжение, канализация, связь);
- конструкцию здания (схемы с расположением ключевых элементов);
- локацию инфраструктуры и ее ближайшее окружение (дороги, близость к емкостям с горючим);
…и учитывать ее работу в ретроспективе:
- перенесенный опыт ранее случавшихся отказов (результаты расследования и выводы);
- опыт и возможности реагирования со стороны контрагентов;
- отраслевую практику устранения последствий аварий.
Для самостоятельного внедрения и разработки планов у компании должны быть «зрелые» бизнес и ИТ-процессы. Если это пока не так, то лучше начинать с самого значимого процесса, не пытаясь охватить всю деятельность организации и сложные для проработки сегменты. При создании плана можно «заимствовать» зрелые процессы и наработки у проверенных партнеров и провайдеров. Тестировать такое взаимодействие конечно тоже надо регулярно, но срок подготовки и ресурсы значительно короче тех, которые требуются для обеспечения результата только своими силами.
Для непрерывности бизнеса важны оба плана – и BCP, и DRP. Каждый из них берет под свою ответственность разные стороны бизнеса, при этом DRP является локальным ядром BCP. Составьте гибкий и понятный план со сценариями и инструкциями для персонала, регулярно делайте прогоны*, модернизируйте документы вместе с развитием бизнеса, и тогда можно играть с волей случая на равных.
* Пилотные прогоны выполняют еще одну важную функцию – выстраивают систему слаженных действий сотрудников и позволяют проявить находчивость в реальных условиях, даже когда ситуация вышла за рамки всевозможных планов и инструкций.