Контакты
Подписка
МЕНЮ
Контакты
Подписка

Слияние видеонаблюдения и искусственного интеллекта

В рубрику "Видеонаблюдение (CCTV)" | К списку рубрик  |  К списку авторов  |  К списку публикаций

Слияние видеонаблюдения и искусственного интеллекта

Системы видеоанализа с применением искусственного интеллекта моделируют работу человеческого мозга по анализу и обучению. Они поддерживают структурный анализ до 192 каналов видео в HD-качестве и распознают до 80 человек за 40 мс. С широким распространением графических ускорителей и технологий глубинного обучения индустрия видеонаблюдения предложит клиентам возможности, которые были недостижимы традиционными средствами
Чжао Шэнбо
Директор по развитию рынка России и СНГ компании Dahua Technology

– Мир заполонили видеокамеры наблюдения. Получаемого видеоматериала слишком много, чтобы весь его можно было обработать силами операторов. Большую часть видеозаписей уничтожают или перезаписывают даже без просмотра. В последнее время в новостях и заголовках профессиональных изданий все чаще фигурируют технологии видеоанализа в сочетании с развитием искусственного интеллекта. Как вы относитесь в этому тренду?
– Технологии видеоанализа развиваются последние 10 лет, и новый виток интереса к ним действительно связан с применением искусственного интеллекта. Машинное обучение сильно упрощает разработку программного обеспечения, а вычислительная мощность графических процессоров настолько возросла, что открыла возможность анализировать видео практически в реальном времени.

Компания Dahua Technology одной из первых на мировом рынке видеонаблюдения занялась технологиями искусственного интеллекта (AI). В 2009 г. мы создали отдельный департамент для ведения научно-исследовательских работ в области интеллектуальных алгоритмов и их применения для задач безопасности. Впоследствии этот департамент был объединен с другими исследовательскими командами – так был основан Институт передовых технологий, который занимается искусственным интеллектом, оптикой, кодеками, внутрисхемным программированием и т.п.

На нашем счету несколько успешных внедрений систем видеонаблюдения с применением AI в проектах масштаба города и даже страны. Например, для саммита G20, который прошел под председательством Китая в Ханчжоу в 2016 г., были выбраны решения видеонаблюдения Dahua с использованием технологий глубинного обучения, чтобы автоматически выявлять признаки подозрительного поведения людей в аэропорту и на вокзалах.

– Насколько традиционный интеллектуальный видеоанализ уступает видеоанализу на основе технологий глубинного обучения?
– Технологии глубинного обучения представляют собой искусственные нейронные сети, в которых задействовано несколько уровней абстракции. Такие системы моделируют работу человеческого мозга по анализу и обучению. Нейронные сети имитируют функцию головного мозга по интерпретации данных: изображения, голоса и текста. Применение глубинного обучения в индустрии безопасности важно по двум причинам. С одной стороны, эти технологии повышают точность некоторых алгоритмов видеоанализа. С другой – позволяют реализовывать функции, которые традиционными средствами были недоступны. Например, распознавание лиц состоит из последовательности трех действий: обнаружение лица, совмещение черт лица и сравнение выделенных характеристик. С применением глубинного обучения качество выполнения каждого из этих действий можно значительно улучшить. Мимика, пол, возраст, цвет волос, эмоции – точность распознавания этих характеристик существенно повышается. Более того, можно задействовать графический процессор, чтобы ускорить вычисление алгоритмов глубинного обучения.

– Как глубинное обучение может усилить производительность системы видеонаблюдения?
– Традиционная интеллектуальная система видеоанализа не способна успешно обработать масштабную сцену, где одновременно находятся более 300 человек. Не говоря уже о групповом анализе движущихся элементов сцены. Теперь, благодаря технологиям глубинного обучения и возросшим вычислительным мощностям графических процессоров, видеоанализ может легко справляться с 300 целями одновременно, а также параллельно рассчитывать плотность людского потока и идентифицировать характер движения толпы, обеспечивая силы безопасности более полезной информацией.

– Опишите успешный пример использования глубинного обучения в системах распознавания изображения.
– Компания Dahua сотрудничает с университетами, широко известными в Китае и за его пределами, чтобы расширять исследования в области глубинного обучения. Как следствие этого, в начале октября 2016 г. команда разработчиков Dahua Technologies, занимающаяся распознаванием лиц, представила результаты своей работы на примере набора Labeled Faces in the Wild (LFW). База LFW была собрана в 2007 г. в Массачусетском университете и чаще других используется для сравнения производительности и алгоритмов распознавания лиц в естественных условиях. После ряда технических улучшений программа от Dahua превзошла алгоритмы от Google, Facebook, Tencent и других академических и коммерческих команд. Более того, 7 марта 2017 г. компании Dahua и NVIDIA представили на рынке совместный продукт – сервер структурного видеоанализа Deep Sense, отличающийся огромной вычислительной мощностью.

– Как правильно задействовать потенциал искусственного интеллекта в видеонаблюдении, чтобы получить наибольшую ценность?
– Оснащенный графическими ускорителями от NVIDIA сервер Deep Sense поддерживает структурный анализ до 192 каналов видео в HD-качестве. В отличие от предыдущего поколения систем видеоанализа, которые в силу ограничения по вычислительной мощности и стоимости проектов контролируют лишь отдельные каналы видео, становится реально применять видеоанализ ко всей объектовой системе видеонаблюдения как с технической, так и экономической точки зрения. В свою очередь, богатый набор критериев поиска позволяет находить совпадения лиц даже при использовании нечетких изображений.


Аналогичные улучшения наблюдаются и для автоматического распознавания номеров автомобилей (ANPR). Более точные системы ANPR выводят на новый качественный уровень системы управления дорожным движением и парковками, что положительно влияет на развитие городов. Глубинное обучение также применяется в системах распознавания людей и транспортных средств. Людей можно классифицировать по одежде, цвету волос, полу, возрасту, наличию очков, рюкзаков, а также по мимике. Помимо номеров, транспорт можно группировать по цвету, производителю, модели и типу.

– Почему считается, что будущее индустрии безопасности за глубинным обучением?
– Давайте попробуем спрогнозировать будущее на примере настоящего. Представьте себе, что сервер видеоанализа от Dahua, обеспечивающий глубокое обучение со значительно большим количеством слоев нейросети и более сложным анализом коллизий данных, распознает до 80 людей за 40 мс. При таких возможностях распознавание людей наконец-то получится успешно применять на объектах с их массовым пребыванием: на эскалаторах, перекрестках, в бизнес-центрах, на входе в выставочные центры; степень точности распознавания сегодня достигает 95%. Повышение точности распознавания системы зависит от того, насколько цель распознавания (например, лицо) доступна обзору камеры, а также от скорости ее перемещения. Система может следить за целью и выявлять интересующее поведение. Это позволяет полиции быстрее расследовать и предотвращать преступления. Например, если нужно найти подозреваемого, которым является мужчина средних лет с красным зонтиком, в систему можно ввести такие ключевые слова, как "красный зонтик", "мужчина", "от 30 до 50 лет". Система, оснащенная искусственным интеллектом, быстро осуществит поиск и исключит ручной труд.

– Какие препятствия существуют на пути искусственного интеллекта и его применения в системах безопасности? Как их преодолеть?
– В проектах искусственного интеллекта мы неизбежно столкнемся со множеством препятствий и сложностей, но будущее AI представляется вполне оптимистичным. Прогресс в области распознавания людей и транспортных средств уже серьезно влияет на эффективность систем безопасности. Распознавание голоса может принести новый виток развития. Сочетание акустического рисунка с моделью поведения или характеристиками транспортного средства позволит ускорить поиск и сократить количество ложных тревог. Голос также станет инструментом ввода данных. Жесты рук и движение тела или их сочетание будут помогать "машинам" понимать контекст происходящего. Интересно, каким станет мир, когда произойдет слияние видеонаблюдения и искусственного интеллекта?

Опубликовано: Журнал "Системы безопасности" #5, 2017
Посещений: 3085


  Автор
Чжао Шэнбо

Чжао Шэнбо

Директор по развитию рынка России и СНГ компании Dahua Technology

Всего статей:  1

В рубрику "Видеонаблюдение (CCTV)" | К списку рубрик  |  К списку авторов  |  К списку публикаций