Контакты
Подписка
МЕНЮ
Контакты
Подписка

Проект "Безопасный город": возможности и "больные" вопросы видеоанализа

В рубрику "Видеонаблюдение (CCTV)" | К списку рубрик  |  К списку авторов  |  К списку публикаций

Проект "Безопасный город": возможности и "больные" вопросы видеоанализа

Знаете ли вы о программе "Безопасный город"? Многие что-либо слышали о ней, но вот о реальных результатах программы знают не все. Какова эффективность проекта, оправдал ли он вложенные в него средства? Отнюдь. Многочисленные провалы внедрения видеоаналитики в рамках "Безопасного города" говорят о большом числе скрытых проблем и неготовности проекта в текущем виде к применению современных технологий видеоанализа.


К.Р. Филин

Директор по продажам ООО "Агрегатор"

Только эволюционное развитие проекта "Безопасный город" от простого к сложному может привести к желаемого результату. Многим уже стало понятно, что без использования современных технологий видеоаналитики при создании и эксплуатации систем такого масштаба не обойтись. А что же должно обязательно входить в понятие видеоаналитики для нужд "Безопасного города"? Давайте рассмотрим 3 группы наиболее востребованных в данном случае алгоритмов видеоанализа:

  • мониторинг работоспобности камер (сервисные детекторы);
  • индексирующие детекторы для быстрого поиска по видеоархиву;
  • видеоаналитика для оперативных тревог.

Сервисные детекторы

Сервисные детекторы автоматически регистрируют случаи выхода из строя камер или осветительного оборудования для постоянного поддержания системы видеонаблюдения в рабочем состоянии. Детекторы определяют такие неисправности, как пропадание видеосигнала, поломку системы автоподстройки диафрагмы, естественное загрязнение объектива. Сервисные детекторы автоматически распознают ситуации саботажа со стороны человека, например, заграждение камеры или закрытие объектива, расфокусировка, изменение ориентации камеры и ослепление сенсора. Эти функции еще иногда называют контролем сцены. Некоторые формы саботажа, например установку зеркала перед объективом телекамеры, оператору заметить практически невозможно, особенно если его внимание рассредоточено по нескольким экранам ситуационного центра. Конечные пользователи, которые услышали о потенциальных возможностях компьютерных программ в области автоматического распознавания поведения человека, часто недооценивают важность работы сервисных детекторов. На практике сервисные детекторы являются самой полезной видеоаналитикой, так как не требуют специальной настройки и экономят значительные ресурсы на обслуживании системы. Реализовать качественные сервисные детекторы не так-то просто из-за существенного разнообразия оборудования и условий внешней среды. Детекторы необходимо длительно тестировать (как и любую другую видеоаналитику) на обширном наборе положительных и отрицательных примеров в различных условиях.

Аутентификация источника

На множестве распределенных объектов (неф-те- и газопроводы, торговые сети, АЗС, сети банкоматов, подъезды жилых домов и т.п.), на которых используется и обслуживается тысяча и более камер наблюдения, очень актуальна надежная защита видеоматериалов от возможного подлога. Реализация эффективного механизма защиты предполагает использование схемы поточной цифровой подписи во всей цепи передачи данных от источника (камеры) до потребителя (рабочее место оператора). В видеосигнал внедряются цифровые метаданные или скрытые "водяные знаки", содержащие уникальный идентификатор видеокамеры, текущее время или, например, ГЛОНАСС/GPS-координату. Несоответствие временной метки и контрольной суммы позволяет мгновенно выявить факт мошенничества.


В аналоговых же системах камера "не умеет" наносить криптографическую метку на видео. Здесь возможно применение других механизмов защиты на стороне энкодера или сервера. В частности, интеллектуальный энкодер может реагировать в момент подмены видео с помощью сервисных детекторов или обнаруживать факты зацикливания видео по статистическим признакам. При этом сложно избежать ложных срабатываний в момент переключения камеры из ночного режима в дневной или в случае резкой автоподстройки к условиям внешней среды. В отличие от "умных" IP-камер, аутентификация аналоговых камер на сегодняшней день остается "больной" проблемой.

Индексация событий

Индекс событий существенно повышает эффективность работы правоохранительных органов при расследовании происшествий. Используя индекс, оператор может найти нужные кадры в видеоархиве в 10, а то и в 100 раз быстрее, чем при ручном поиске. Возможность поиска "по событиям" существенно упростит работу как органам правопорядка при постанализе совершенного правонарушения, так и операторам системы при идентификации и классификации происшествия.

В настоящее время в рамках программы "Безопасный город" для охраны жилищно-коммунального хозяйства наиболее востребованы детекторы следующих типов событий: появление человека, вход или выход из подъезда, быстрое перемещение, ожидание. Точность распознавания событий входа и выхода может быть значительно повышена за счет синхронной работы видеоаналитического ПО, обслуживающего внутреннюю и внешнюю камеры одного подъезда.

Точность детектора характеризуется вероятностью обнаружения нужного события (чувствительность) и вероятностью ложного срабатывания. Различные сценарии использования индекса предполагают различное соотношение допустимых значений этих двух составляющих точности.

Индексирующий детектор выделяет момент времени события и формирует изображение для иллюстрации события. Качество выбора кадра в существенной степени определяет удобство и эффективность детектора. Если детектор берет первый попавшийся кадр, то, скорей всего, такой кадр не будет репрезентативным, и оператору потребуется дополнительное время для дальнейшего просмотра видео. А выбор оптимального ракурса съемки особенно важен при детектировании лиц.

Оперативное распознавание поведения людей

В последнее время именно видеоаналитика оперативного распознавания подозрительных или нештатных ситуаций (таких, как оставленный предмет, драка, пожар, дым, падающий или лежащий человек) обсуждалась участниками рынка в большей степени, чем сервисные и индексирующие детекторы. В сознании конечного пользователя задача распознавания поведения человека в режиме "реального времени" заняла первое место. Действительно, предотвращение преступления в момент его свершения и/или оперативное задержание преступника по "горячим следам" является важной задачей, решение которой должны искать специалисты по машинному зрению и искусственному интеллекту.

Оперативное распознавание, конечно, возможно на нынешнем уровне развития технологий машинного зрения, но только в частных случаях -при определенном положении камеры, стабильном освещении и характерном поведении людей. Но, к сожалению, пока не существует достаточно универсальных алгоритмов, внедрение которых, по моему мнению, в рамках программы "Безопасный город" было бы экономически оправданным.

Другая сложность оперативного распознавания состоит в том, что криминальные действия в большинстве случаев редко происходят в поле зрения установленных камер. Злоумышленники хорошо осведомлены об их расположении и эффективности мониторинга.

Камеры контролируют лишь малую часть пространства ЖКХ, где ярко выраженные действия против закона крайне маловероятны. При этом сотрудники службы безопасности часто используют камеры ретроспективно, для восстановления хода событий по косвенным признакам. Именно в этом состоит главное преимущество публичной системы видеонаблюдения, и поэтому важны индексирующие детекторы.

Таким образом, перед программой "Безопасный город" сейчас стоят более простые задачи, чем оперативное распознавание, а именно обеспечение качества видео, комплексный мониторинг работоспособности системы, быстрый поиск по видеоархиву, удаленный доступ для диагностики. На рынке уже сейчас существуют готовые продукты, отвечающие этим требованиями, дело лишь за правильным выбором и грамотной системной интеграцией.

Как я уже говорил выше, только эволюционное развитие проекта "Безопасный город" может привести к желаемого результату - высокой эффективности. Очевидно, что для эволюционного развития инженерам проекта нужно напрямую работать с отечественными поставщиками современных технологий видеоанализа, ведущими непрерывное совершенствование алгоритмов и гарантирующими поэтапное внедрение видеоаналитики в уже развернутые проекты. Кроме всего прочего, при выборе платформы важно четко отдавать себе отчет о стоимости обновления "математики" в будущем. И обязательно нужно заранее предусмотреть некоторый запас аппаратных ресурсов для работы видеоаналитики и выбрать технологию централизованного обновления ПО на всех узлах сложной системы безопасности.

Чтобы "заинтересованные" лица меня не обвинили в предвзятости и необъективности, я попросил прокомментировать описанную мной ситуацию профильных специалистов: Николая Птицина (к.т.н. МГТУ им. Н.Э. Баумана) и Антона Конушина (к.ф.-м.н. МГУ им. М.Ю. Ломоносова).

Как Вы считаете, насколько российские технологии в целом и область машинного зрения в частности готовы к работе в нелабораторных условиях? Применимы ли технологии в их текущем виде к задачам, стоящим перед обеспечением безопасности на уровне города?

Антон Конушин: На ведущих научных конференциях по компьютерному зрению и анализу изображений российские ученые представлены крайне слабо, публикации можно пересчитать буквально по пальцам. Это заставляет задуматься об уровне алгоритмов, предлагаемых отечественными компаниями, так как большинство современных эффективных алгоритмов анализа изображений и видео было предложено все-таки в академической среде. Такие задачи, как поиск оставленных предметов, детектор остановки объекта, движение в запрещенном направлении, можно решить на основе широко известных и предложенных 10 лет назад алгоритмов вычитания фона (например, на основе моделирования цвета в каждом пикселе с помощью смеси нормальных распределений). Поэтому российские технологии, скорее всего, вполне пригодны для решения подобных задач.

Трекинг перекрывающихся людей на оживленной сцене, детекторы событий, распознавание людей по одежде - эти задачи активно исследуются сейчас в зарубежных университетах, но пока далеки от решения. Опубликованные алгоритмы еще недостаточно надежны и зачастую требуют сложной настройки для того, чтобы применяться в реальных городских условиях.

На практике предлагаемые сегодня алгоритмы работоспособны при сравнительно сильных ограничениях на технические параметры входного видео (уровень шума, разрешение камеры и т.д.) и характеристики движения. Это позволяет демонстрировать впечатляющие результаты на отдельных примерах, но приводит к проблемам при попытках использования алгоритмов в реальных условиях.


Николай Птицын: Оценить готовность коммерческой видеоаналитики для работы в боевых условиях удобней всего при помощи таблицы.

Сопоставим три категории сцен (низкая, средняя и высокая плотность подвижных целей) c тремя актуальными сценариями "ролями" видеоаналитики (во-первых, запись событий, во-вторых, оперативная тревога при подозрительной траектории/скорости и, в третьих, оперативная тревога при оставленном предмете). Детекторы бега, остановки и проникновения в запрещенную зону могут быть задействованы в первом и втором сценарии, но требования по точности к ним разные. Сценарий "оперативная тревога" более критичен к количеству ложных срабатываний детектора. Общей основой детекторов этих двух сценариев является трекер неразделяемых целей, то есть алгоритм сопровождения (трассирования) цельных объектов в поле зрения камеры.

Отличие третьего сценария заключается в том, что распознавание оставленных предметов предполагает существенно более сложный трекер, который работает с разделяемыми целями (Split Target Tracking).


Алгоритмическая сложность распознавания целей возрастает слева направо от ненасыщенной до оживленной сцены и снизу вверх от роли записи событий до роли оперативного распознавания. Как показано в таблице, адекватные детекторы для работы в стерильной зоне доступны практически для всех перечисленных ролей уже сегодня. С другой стороны, наиболее сложным алгоритмом машинного зрения является детектор оставленных предметов на оживленных сценах. По нашем оценкам, коммерческие технологии для решения этой задачи появятся не раньше, чем через 3 года.


Что вы можете сказать о методиках детектирования движения (трекинга) и оставленных предметов. Существуют ли какие-то стандарты либо общепринятые определения?

Антон Конушин: Одной из причин бурного развития алгоритмов компьютерного зрения в последнее время стало как раз повышенное внимание, уделяемое оценке и сравнению качества существующих алгоритмов. Общим правилом в области компьютерного зрения стало проведение специальных семинаров, посвященных сравнению последних разработок в той или иной области. Для этого организаторами заранее готовится и выкладывается в Интернете часть тестовой базы, на которой авторы могут опробовать свои алгоритмы и системы. Затем результаты реализации алгоритмов высылаются организаторам, которые проводят тестирование на закрытой части базы. Результаты данного сравнения становятся де-факто стандартной оценкой качества. В области видеонаблюдения регулярно проводится семинар PETS -Performance Evaluation of Tracking and Surveillance. В 2007 г. темой семинара было сравнение методов поиска оставленных предметов, обнаружение случаев кражи багажа и т.д. Семинар 2009 г. посвящен анализу групп людей - подсчет количества людей в группе, обнаружение событий типа "бег", "формирование толпы" и т.д. Российские ученые, участвовавшие в этих семинарах, нам неизвестны.

Судя по результатам сравнений, существующие алгоритмы могут успешно решать эти задачи, но не во всех случаях.

Николай Птицын: Основные алгоритмические приемы для решения задач сопровождения (трекинга) в поточном видео известны довольно давно: статистическое моделирование цели и фона, многомасштабный анализ, пространственно-временная корреляция, оптический поток, скрытая марковская модель, динамическое программирование и др. Считаю, что все задачи, рассматриваемые в нашей дискуссии, рано или поздно будут решены при помощи известных алгоритмов. Другими словами, основные проблемы - не концептуальные, а инженерные (оптимизация быстродействия, распределение вычислений и выбор правильной архитекторы).

С точки зрения классификации (распознавания) поведения (например, бега, остановки, запретного движения) достаточно использовать простые правила и условия, да и нет необходимости в более сложных методах искусственного интеллекта, таких как нейронные сети, машина опорных векторов, нечеткая логика. Скажем, для распознавания бега достаточно установить пороговое значение на среднюю скорость и пройденный путь.

Что касается измерения точности и общепринятых стандартов, наиболее полные материалы, включая видео, экспертную разметку и методологию тестирования, готовятся организаторами ежегодной конференции PETS (Performance Evaluation of Tracking and Surveillance) и группой i-LIDS (Imagery Library for Intelligent Detection Systems) в составе научного подразделения британского МВД.

Что лучше, по вашему мнению: работать на PC-видеосервере (x86) (при этом видеосервер занимается всем спектром задач - от компрессии до отображения) или осуществлять видеоанализ на отдельном устройстве?

Антон Конушин: Стандартного разрешения недостаточно для анализа и распознавания людей в видео, поэтому все шире используются камеры высокого разрешения. Поток данных с такой камеры с высокой частотой кадров может легко заполнить даже гигабитный сетевой без сжатия, а сжатый сигнал анализировать существенно сложнее. Кроме того, хороший канал связи затрудняет монтаж камеры. Беспроводная связь (WiFi, WiMAX) слишком ненадежна, обладает низкой устойчивой пропускной способностью, что тоже затрудняет передачу видео высокого разрешения. Поэтому тенденция заключается в повышении уровня интеллектуальности камеры - увеличение мощности встроенных процессоров и т.д. Сейчас их мощности хватает лишь на компрессирование и простейшие алгоритмы обработки, но в перспективе даже сложные современные алгоритмы видеообработки могут быть реализованы на встроенном компьютере.

То есть мой ответ на ваш вопрос - да, осуществлять анализ на отдельном устройстве однозначно перспективнее (в дальнейшем подобные системы покажут лучший результат, чем те, которые будут пытаться анализировать сжатый поток), хотя сейчас подобные реализации и сложнее из-за сравнительной слабости современной аппаратной базы.

Николай Птицын: Массовая видеоаналитика для "Безопасного города" обязательно будет встраиваться в периферийные устройства, такие как камеры и энкодеры, потому что эта архитектура обеспечивает более высокую точность распознавания и лучшую масштабируемость системы, чем серверная архитектура. Качественный трекинг объектов на сервере при использовании мегапиксельных камер с оптикой дальнего действия или большого охвата практически невозможен на сервере. С другой стороны, аналитика многокамерного сопровождения будет задействовать ресурсы камеры и сервера одновременно, то есть будет реализована архитектура распределенных вычислений.

Насколько далека теория от текущей реализации, о чем можно будет говорить завтра в плане детектирования и классификации объектов?

Антон Конушин: Компьютерное зрение зависит от алгоритмов распознавания образов (Pattern Recognition) на основе машинного обучения. Настоящий прорыв в компьютерном зрении в конце 1990-х гг. был вызван как раз появлением новых мощных алгоритмов, таких как усиление слабых классификаторов (Boosting), машина опорных векторов (Support Vector Machine) и рандомизированный решающий лес (Random Forest). На основе усиления слабого классификатора был разработан метод поиска лиц Violo-Jones, называемый по именам авторов, являющийся де-факто стандартом, решающий задачу настолько хорошо, что все последующие методы превосходят его лишь незначительно. Простота и эффективность данного метода позволили встраивать его даже в бытовые фотокамеры и сотовые телефоны. Причем от опубликования метода до появления его в реальных коммерческих продуктах прошло всего несколько лет. Задачи распознавания поведения людей, особенно в большой группе, детектирования переносимых предметов и т.д. оказались сложнее в виду большей внутриклассовой изменчивости по сравнению с лицами. Но новые алгоритмы тоже появляются очень быстро благодаря прогрессу в развитии графических моделей анализа образов, таких как марковские случайные поля (Markov Random Field) и быстрые алгоритмы решения задач на них (например, на основе разрезов графов).                                              

Опубликовано: Журнал "Системы безопасности" #1, 2010
Посещений: 10930

  Автор

Филин К. Р.

Филин К. Р.

Директор по продажам ООО "Агрегатор"

Всего статей:  8

В рубрику "Видеонаблюдение (CCTV)" | К списку рубрик  |  К списку авторов  |  К списку публикаций