12 Сен 2019

Аварийное восстановление и непрерывность бизнеса малых предприятий

12.09.2019

план по обеспечению непрерывности деятельности организации

При анализе ИТ-сервиса доступность и непрерывность функционирования - два фундаментальных понятия. Простой пример важности: почтовый сервер непрерывно работает, но доступа к нему нет или, наоборот, доступ есть, но сервер остановлен. Только сочетание обоих условий дает возможность пользователю просматривать свои сообщения, отправлять новые и т.д. Есть еще один штатный «игрок», от компетенции которого многое зависит, — это администратор сервиса.

После террористического акта в Нью-Йорке 11 сентября 2001 года стала популярной тема Управления непрерывностью бизнеса (Business Continuity Management, BCM), которое заключало в себе все аспекты, включая ИТ. Таким образом, доступность и непрерывность ИТ-сервисов попали под одно название «непрерывность бизнеса». В мире резервного копирования данных возникло смешение непрерывности бизнес-процессов с аварийным восстановлением.  Важно понимать, что это две разные концепции. Безусловно, в случае бедствия мало кого волнует определение терминов, однако, неправильное понимание может привести организацию к значительному риску из-за неадекватного планирования.  Верный способ преодолеть хаос, связанный с потерей данных, — это узнать разницу между аварийным восстановлением и непрерывностью бизнеса.

Cтоит отметить, что в России использование термина «непрерывность бизнеса» нельзя считать корректным, поскольку в нашем языке слово «бизнес» ассоциируется, в основном, с предпринимательской деятельностью. Таким образом, можно получить неправильное для нашего восприятия определение, как, например, «обеспечение непрерывности бизнеса налоговой инспекции». На самом деле, под таким термином подразумевают деловую активность организации (любой государственной, коммерческой или некоммерческой структуры) в целом.
 

Управление непрерывностью бизнеса – Business Continuity Management


Обеспечение непрерывности деятельности — важная составляющая функционирования крупных компаний и государственных организаций в аварийных ситуациях. Специфика конкретного бизнеса определяет приоритеты восстановления: то, что восстанавливать в первую очередь, и то, что может подождать. Элементами управления служат дислокация, персонал, оборудование, а также процедуры восстановления данных. Задача ВСМ — смягчить последствия прерывания деловой активности, сократить время замены активов, а также уменьшить издержки. Разрушенные активы (оборудование, помещение и даже персонал), практически всегда заменяются. 

Если вы хотите минимизировать свои расходы, заблаговременно предупреждать сбои инфраструктуры и получить квалифицированную помощь в экстренных ситуациях максимально быстро, рекомендуем заказать IT-аутсорсинг компании. Квалифицированные специалисты IT-Lite реагируют на любое обращение в течение 15 минут, а при необходимости прибудут в ваш офис уже через 2 часа после создания заявки.  При этом вы сможете не только бороться с последствиями сбоев, но и предупреждать их благодаря непрерывному мониторингу.
 

Критерии непрерывности


Не стоит возводить понятие бесперебойности в абсолют, поскольку перерывов избежать не удастся. Однако каждый из них приводит к очевидному ущербу, размер которого зависит от времени простоя в период восстановления (хотя бы в минимальном объеме, допустимом для возобновления процессов).  Как правило, у динамики отраслевой характер, тем не менее существуют границы, за пределами которых процесс уже нельзя будет обратить. Период, по завершении которого организация может окончательно утратить жизнеспособность, называется «максимально допустимым временем простоя». Разумеется, приближаться к нему небезопасно, поэтому руководство должно определить «целевое время восстановления», во время которого не будет превышен также «уровень приемлемого ущерба».

Таблица ключевых терминов

 управление непрерывностью бизнеса


В плане обеспечения непрерывности деятельности используют FT и RTO. При этом финансовые последствия рассчитываются для организации в целом, а время — с учетом наихудшего сценария развития событий и взаимосвязи процессов. Что немаловажно, RTO определяется не временем, которое потребуется, чтобы восстановить активы, а сроком восстановления ключевых аспектов функционирования, для чего даже могут привлекаться альтернативные технологии. Таким образом, задачей BCM является обеспечение непрерывности деятельности организации после катастрофы за определенное время. Стоит отметить, что RTO является синтетическим показателем, единственным для каждого бизнеса.

Непрерывность бизнеса — это способность организации к восстановлению критичных для ее деятельности процессов в течение норматива RTO. Значение RTO не следует выбирать «с запасом», поскольку каждый час снижения этого норматива может обернуться серьезными затратами.


RTO: Максимальное время, которое может быть потрачено на возобновление ключевых бизнес-процессов. Если допускаете остановку вашего бизнеса на 4 часа, вы установите RTO в 4 часа.
 

Аварийное восстановление — DR, Disaster Recovery


Восстановление данных характеризуется приемлемым возрастом последней копии (Recovery Point Objective, RPO), определенного для конкретного блока функций. Сегодня самый распространенный вариант аварийного восстановления — кластеризация. Она позволяет реплицировать данные между несколькими системами, что позволяет вам получать эти данные из вторичного источника в случае локальной катастрофы. Если приложение выходит из строя на рабочем сервере, реплицированная копия на вторичном сервере берет на себя нагрузку, приложение остается включенным, и люди по-прежнему имеют к нему доступ. Активная кластеризация - отличный пример достижения нулевого RPO.  

В течение многих лет, будучи консультантом в области обеспечения непрерывности бизнеса крупных компаний, я видел, что большинство людей полагают, что DR — это и есть обеспечение непрерывности бизнеса. Другими словами, если в корпорации обеспечено восстановление доступности данных, значит, в ней обеспечена непрерывность бизнеса. Такое заблуждение приводит к тому, что поставщики предлагают свои решения для восстановления данных как инструменты «непрерывности бизнеса». Стоит отчетливо понимать, что DR является лишь ее частью. Спасение данных — это ключ к восстановлению, но для восстановления бизнеса нужно больше, чем просто восстановление данных. Обеспечение непрерывности бизнеса представляет собой значительно более широкое сочетание аппаратных, программных и административных технологий. Восстановление данных вполне может быть единственной проблемой, но бывает иначе. В результате катастрофы может, например, быть утрачено здание, каналы связи или персонал. DR относится исключительно к восстановлению данных. Восстановления данных не всегда достаточно для восстановления бизнес-процессов.

Аварийное восстановление (Disaster Recovery, DR) — это небольшая часть общей непрерывности бизнеса. Единственная цель DR — восстановить данные в случае аварии. Максимально допустимый объем утраченных при катастрофе данных конкретного блока функций определяется Целевым отставанием резервной копии (Recovery Point Objective, RPO).


Ключевыми параметрами Аварийного восстановления считают RPO
: максимальное отставание резервной копии каждого блока функций. Значения RPO могут радикально различаться. Если вы можете позволить себе потерять данные конкретного сервиса за день, вы установите его RPO в 24 часа.

Чтобы выяснить, насколько правильно вы представили разницу между аварийным восстановлением и обеспечением непрерывности бизнеса, мысленно обратитесь к хрестоматийному примеру двухчасового RTO. После теракта в Нью-Йорке 11 сентября 2001 года, когда персонал центрального офиса Дойче Банка погиб, резервный сервер взял управление на себя. Очевидно, что нулевое значение RPO в рамках процедур DR не обеспечило запуска деятельности банка, вследствие утраты штатных пользователей. Банку потребовалось 2 часа (RTO) для запуска ключевых процессов на территории США.

 

План обеспечения непрерывности бизнеса — ВСР, Business Continuity Plan


Обеспечение непрерывности и восстановление деятельности – популярная тема в среде современных консультантов. Многие из них составляют планы обеспечения непрерывности и восстановления деятельности, в которых указываются не только методы преодоления негативных последствий сбоев в работе, но и прописываются способы их профилактики. Под превентивными мерами в данном случае подразумевают не только инструкции по работе в критических ситуациях, но и тренировку сотрудников и учебные тревоги.

Сегодня план по обеспечению непрерывности деятельности организации довольно часто используется и в отечественных компаниях. На данный момент используются такие российские стандарты:

  • ГОСТ Р ИСО 22301—2014 Системы менеджмента непрерывности бизнеса. Общие требования.ГОСТ Р ИСО 22313 Менеджмент непрерывности бизнеса. Руководство по внедрению. 

  • ГОСТ Р 53647.1 Менеджмент непрерывности бизнеса. Практическое руководство. 

  • ГОСТ Р 53647.2—2009 Менеджмент непрерывности бизнеса. Требования. 

  • ГОСТ Р 53647.3-2015 Менеджмент непрерывности бизнеса. Руководство по обеспечению соответствия требованиям ГОСТ Р ИСО 22301. 

  • ГОСТ Р 53647.4-2011 Менеджмент непрерывности бизнеса. Руководящие указания по обеспечению готовности к инцидентам и непрерывности деятельности.

       


      Поскольку все понимают, насколько важно обеспечить преемственность данных, план непрерывности бизнеса зачастую сконцентрирован именно на том, как эти данные восстановить. На сегодняшний день существует множество удобных сервисов, помогающих справится с данной задачей. Например, резервное копирование данных в облако Acronis Cloud Backup. BaaS (Backup as a Service) позволяет максимально быстро восстановить данные с рабочих станций, физических и виртуальных серверов и самостоятельно управлять резервными копиями с помощью удобного и понятного web-интерфейса.

      Разумеется, облачный бэкап минимизирует время простоя, но восстановление данных – это всего лишь одна составляющая общего плана. В BCP обязательно нужно указать, как, где, когда и кем будут использоваться восстановленные данные.

       

      Непрерывность бизнеса малых предприятий


      Статистика потери данных малыми предприятиями различная, но всегда малоутешительная. Исследования показали, что более 40% компаний по всему миру, столкнувшись с серьезной потерей данных, закрываются навсегда. А более 90% организаций, в которых центр обработки данных не работал более 10 дней подряд, обанкротились в течение года.

      Ясно, что не стоит пытаться переносить опыт крупных корпораций на практику малого бизнеса: ему трудно определять допустимое время простоя из допущения приемлемых убытков. Организовывать резервный персонал или планировать свои действия при разрушении здания по примеру крупного бизнеса менеджмент небольших компаний не будет. Интуитивно выделяется наиболее доступное и важное, то есть именно восстановление данных - DR. 

      С точки зрения ВСМ, данные – исключительный актив, и именно их преемственность позволяет организациям продолжать свою деятельность. Таким образом, восстановление данных является необходимым условием, позволяющим идентифицировать любую организацию после разрушительного воздействия. По сути, небольшие предприятия воспринимают восстановление данных, как суррогат непрерывности бизнеса, хотя для бизнес-процессов, управления оборудованием и персоналом непрерывность – это существенно большие объемы обслуживания. Стоит также отметить, что важно понимать значимость временных факторов для возобновления рабочих процессов и четко определить приоритетность задач, то есть подчинить весь процесс логике ВСМ.


      Чтобы обеспечить непрерывность работы малого бизнеса, необходимо ответить на такие вопросы:


        • Что нам следует восстановить в первую очередь, чтобы остаться в бизнесе?
        • Что требуется нашим клиентам, чтобы быть уверенными в нашей стабильности?
        • Что нужно нашим партнерам для того, чтобы спокойного продолжать выполнять наши заказы?
        • На чем настаивают наши поставщики, чтобы не прерывать работу с нами?


      Главная задача — организовать DR по логике формирования нормативов ВСМ, т.е. сформулировать значение RTO для бизнеса в целом и приемлемых для бизнеса значений RPO по каждому блоку ИТ-функций. Исходя из значений RTO и RPO и следует формировать Соглашение об уровне услуг, SLA.

      Следует понимать, что составленное Соглашение об уровне услуг предъявляет требования к ИТ-инфраструктуре и компетентности исполнителя. Это означает, что у вас должна быть инфраструктура восстановления данных адекватная бизнес-задачам. Неграмотно собранная инфраструктура может принести излишние затраты. Недопустимо, чтобы Соглашение об уровне услуг формулировалось без опоры на задачи бизнеса. Таким образом, перед менеджментом малого предприятия встает задача адекватности ИТ-инфраструктуры содержанию Соглашения об уровне услуг, отвечающего задачам непрерывности бизнеса.

      Возврат к списку

      comments powered by Disqus
      top