Контакты
Подписка
МЕНЮ
Контакты
Подписка

Надежность уровня "24/7"

В рубрику "Пожарная безопасность" | К списку рубрик  |  К списку авторов  |  К списку публикаций

Надежность уровня "24/7"

А.П. Попов, ФГУ ВНИИ ГОЧС МЧС России

Автоматизированные системы (АС) МЧС России, особенно те, которые обеспечивают оперативно-диспетчерское управление пожарно-спасательными силами и средствами, должны быть системами уровня "24/7", то есть бесперебойно функционировать 7 дней в неделю и 24 часа в сутки. Для решения задач обеспечения надежной эксплуатации АС, а также защиты информации от несанкционированного доступа в составе АС следует предусматривать систему обеспечения эксплуатации (СОЭ)

Создание СОЭ преследует цель обеспечить выполнение заданных функций АС при сохранении их основных характеристик производительности (при определенных условиях эксплуатации) в установленных пределах.

Надежность функционирования АС во многом определяется такими свойствами ремонтопригодности этих систем, как централизованный удаленный мониторинг, диагностика и реализация соответствующих управляющих воздействий.

Показатели надежности АС

Будучи одним из важнейших показателей надежности, среднее время ремонта системы состоит из временных промежутков, затрачиваемых на обнаружение факта сбоя, диагностику аппаратно-программного комплекса с обнаруженным сбоем, выявление точки отказа, проведение операций по замене или перенастройке исходного отказавшего элемента, осуществление операций по восстановлению работоспособности соответствующего функционала АС (см. схему). Другим важным показателем надежности АС является доступность систем в заданном режиме работы, которая рассчитывается по формуле:

доступность =

1 - время ремонта (непланового простоя)

время бесперебойной работы

Следовательно, задачи повышения надежности АС решаются как путем снижения вероятности (частоты) возникновения нештатных ситуаций, так и путем их быстрого устранения.

Задача сокращения числа инцидентов, приводящих к нештатным ситуациям, ставит вопросы обеспечения рационального уровня избыточности в структуре АС, а также реализации комплекса организационных мероприятий предупреждающего характера. Оперативность устранения нештатных ситуаций предполагает уменьшение временных затрат на выполнения следующих операций:

  • обнаружение факта нештатной ситуации;
  • корректное реагирование на данный факт;
  • диагностирование аппаратно-программного комплекса, перешедшего в нештатный режим функционирования;
  • осуществление действий по замене или перенастройке исходного отказавшего элемента данного аппаратно-программного комплекса;
  • проведение действий по восстановлению работоспособности соответствующего функционала АС.

Области управления инфраструктурой АС

Необходимость контроля за соблюдением заданных характеристик надежности требует наличия актуальной статистики фактической доступности как отдельных элементов, так и комплексов АС. В качестве областей управления инфраструктурой АС Международный институт стандартизации ISO определил следующие:

  • управление отказами (fault management);
  • конфигурационное управление (configuration management);
  • учет использования ресурсов пользователями (accounting);
  • управление производительностью (performance management);
  • управление безопасностью (security management).

В настоящей публикации область учета использования ресурсов пользователями и область управления безопасностью не рассматриваются.

Процесс управления отказами подразумевает выполнение ряда следующих действий:

  • обнаружение сбоев и отказов;
  • устранение (изолирование из зоны эксплуатации) сбоев и отказов;
  • восстановление работоспособности;
  • обработка сообщений о нештатных ситуациях (включая фильтрацию, генерацию и корреляцию);
  • диагностическое тестирование;
  • ведение журналов и статистики возникновения ошибок в функционировании;
  • обработка ошибок в функционировании.

Из области конфигурационного управления на данный момент рассматривается запуск исполняемых заданий на элементах и отслеживание их выполнения, а в сфере управления производительностью:

  • управление загрузкой ресурсов и уровнем возникающих ошибок;
  • обеспечение допустимой комплексной производительности посредством группы элементов;
  • сбор, анализ и предоставление заинтересованным лицам данных по производительности;
  • выявление проблем (источников инцидентов);
  • подготовка предложений по планированию мощностей;
  • ведение журналов производительности.

Перечисленные функции в различной степени применяются на различных уровнях управления (определенных ISO для модели взаимодействия открытых систем (OSI):

  • управление элементами;
  •  управление комплексами элементов (сетями);
  • управление ИТ-сервисами*;
  • управление взаимодействием с потребителями ИТ-сервисов.

Таким образом, СОЭ в интересах управления АС в целом должна обеспечивать выполнение следующих основных функций:

  • управления службами АС;
  • управление конфигурацией АС;
  • контроль за нарушениями функционирования системы в целом;
  • управление восстановлением отказавших объектовых комплексов АС и связей между ними;
  • управление распределенным программным и информационным фондом АС.

Архитектурные элементы системы управления ИТ- инфраструктурой

В обобщенном виде типовую техническую архитектуру системы управления ИТ-ин-фраструктурой можно представить в составе следующих уровней:

  • программные агенты, зонды (встроенные или поставляемые вместе с централизованной системой управления) - выполняют мониторинг управляемых элементов, перенаправление сообщений, автоматическое и автоматизированное реагирование на события, автоматизацию задач администрирования;
  • программные менеджеры - управляют работой агентов, получая от них данные, перенаправляют сообщения, обрабатывают данные мониторинга и реагирования, формируют отчетность по текущему и ретроспективному состоянию объекта управления, позволяют прогнозировать изменения состояния элементов ИТ;
  • программные менеджеры менеджеров (необязательный уровень) - выполняют те же функции, что и программные менеджеры, однако помимо работы с агентами еще и взаимодействуют с другими программными менеджерами;
  • интерфейс (консоли) управления - используется для работы со средствами автоматизации функций и процессов управления ИТ-инфраструктурой (просмотр и обработка сообщений, доступ к средствам автоматизированного реагирования и администрирования, получение отчетности и т.д.).

Возможное решение построения КСОЭ

В условиях имеющейся территориальной распределенности и иерархической структуры оперативно-диспетчерского управления пожарно-спасательными силами и средствами МЧС России оптимальной видится иерархическая организация КСОЭ. При этом серверы управления будут расположены на базе организационных единиц - как непосредственно заинтересованных в наличии актуальных данных, поступающих от объектов нижележащего уровня АС, так и ведущих оперативный контроль поступления этих данных. Таким образом удастся не только оптимизировать распределение ответственности за мониторинг и управление элементами АС адекватно профильной ответственности объектов автоматизации, но и эффективно планировать затраты на построение иерархического КСОЭ. Последнее можно достичь применением ориентированного на мониторинг ОС Windows программного обеспечения. Основными потоками в такой структуре КСОЭ являются потоки данных между серверами управления и контролируемыми ими агентами на объектах управления. Уровень 1 можно рассматривать в качестве пункта контроля функционирования серверов управления уровня 2. На серверы уровня 1 могут также перенаправляться (эскалироваться) диагностические сообщения, которые находятся за пределами компетенции персонала, работающего с серверами управления уровней 2 и 3, или по причине сильной загрузки этих серверов не могут быть отработаны за допустимое время.

Таким образом, с помощью серверов КСОЭ уровня 1 потенциально возможно управлять всеми агентами в рамках АС. Являясь достаточно важным центром управления АС, серверы уровня 1 требуют структурной избыточности, наличия резервного сервера управления КСОЭ, который в случае отказа может заменить основной сервер.

Организация СОЭ является неоднозначной задачей. Для выработки адекватного решения необходимо выполнение этапов детального исследования АС как объекта управления (включая составление постановки задачи) и технического проектирования (с экспериментальной проработкой элементов решения). Представленный в настоящей публикации взгляд на возможную архитектуру СОЭ является обобщенным описанием тех задач и функций, которые должны быть детально проработаны и предложены в виде конкретного программно-технического решения.


* ИТ-сервисами в контексте данной публикации можно назвать результаты решения специализированных функциональных задач по ликвидации пожаров и других ЧС.

Опубликовано: Журнал "Противопожарные и аварийно-спасательные средства" #3, 2006
Посещений: 12732

  Автор

 

Попов А. П.

ФГУ ВНИИ ГОЧС МЧС России

Всего статей:  7

В рубрику "Пожарная безопасность" | К списку рубрик  |  К списку авторов  |  К списку публикаций