Контакты
Подписка
МЕНЮ
Контакты
Подписка

Где же эти нейросети?

В рубрику "All-over-IP" | К списку рубрик  |  К списку авторов  |  К списку публикаций

Где же эти нейросети?

На рынке видеонаблюдения кипят обсуждения технологии нейросетей. На нее сделана большая ставка, поскольку современные системы достигли своего предела в способности идентификации происходящего
Андрей Христофоров
Коммерческий директор компании ITV | AxxonSoft

Что же мешает нейросетям ворваться в видеонаблюдение и произвести в нем технологический прорыв?

Краткий экскурс в историю видеоархива

Давным-давно, в далекой-далекой галактике... А если серьезно, то достаточно давно, в начале-середине 1990-х, видеонаблюдение считалось продолжением зрения, попыткой и способом быть одновременно в нескольких местах и мониторить ситуацию, чтобы быстро принять решение о реагировании. Архив же использовали крайне редко. Это было связано с двумя факторами.

Во-первых, считалось (и совершенно справедливо), что архив – это не про безопасность. Безопасность призвана предотвратить, остановить, предугадать происшествие. А если понадобился архив, значит, что-то уже произошло. Далее идет работа на будущее: расследование, выяснение причин, поиск виновных и попытки сделать так, чтобы в следующий раз безопасность была соблюдена.

Второй фактор был связан с технической стороной вопроса. Единственным средством записи был видеомагнитофон. Хранить информацию "в цифре" тогда еще было невозможно (первая спецификация JPEG появилась только в 1991 г., а до сжатия видео было еще очень далеко). Использовали видеокассеты, похожие на домашние, с небольшими отличиями. Они могли записывать квадратор, а не отдельный видеоканал, а те, что подороже, могли писать отдельные видеоканалы, а потом выводить их на квадратор. Пленка крутилась несколько медленнее, чем в домашних видеокассетах, качество записи было ниже, зато на кассете помещалось больше видео.

Как бы то ни было, видеоархив все равно представлял собой строго линейную запись на магнитную ленту. Стоит ли говорить о том, как трудно было что-то в нем найти? Кроме всего прочего, это было еще и дорого. В 1980-х – начале 1990-х даже бытовые видеомагнитофоны для дома стоили недешево, а промышленные тем более. Вот и получается – цена большая, пользоваться неудобно, полка с видеокассетами выглядит как архив НКВД, на каждой наклейка "Видеоархив за число Х с такого-то по такой-то час". А потом эта видеокассета перезаписывается, клеится новая наклейка, и так до бесконечности.

Конечно, это никого не устраивало. Поэтому инженеры не оставляли попыток придумать технологии, которые позволили бы оптимизировать этот процесс и сделать его более востребованным. Например, были разработки, призванные обнаружить движение в кадре при помощи цифровых технологий на компьютере, а потом дать команду на видеомагнитофон начать и закончить запись. Таким образом, предполагалось оптимизировать запись, попытаться записывать на ленту только полезное.


В 1996 г. появился способ сжатия MPEG-2 для DVD, затем в 1998 г. – MPEG-4. Надо сказать, что для видеонаблюдения они подходили не очень хорошо, потому что были требовательны к ресурсам и не обеспечивали достаточного качества стоп-кадра, что для охранного телевидения важно. А MJPEG производил видеозаписи большого объема, проще говоря – слишком слабо сжимал видео. При существующей тогда емкости и стоимости жестких дисков это делало систему видеофиксации очень дорогим удовольствием.

Поэтому компании – ведущие игроки на рынке видеонаблюдения стали создавать проприетарные способы сжатия. Мы, например, разработали собственный алгоритм Motion Wavelet. Он объединял преимущества MPEG-4 и MJPEG, был избавлен от их недостатков и обладал уникальными на тот момент характеристиками. Нужно отметить, что этот кодек внес существенный вклад в популяризацию цифрового видеонаблюдения, потому что позволил создавать системы с видеоархивом по приемлемой цене.

Наконец, в конце 1990-х пришла эра компьютерного видеонаблюдения. И новые кодеки, и другие функции появлялись в первую очередь в программном обеспечении. Сложилось так, что зачастую намного эффективнее и дешевле было поставить компьютер с софтом, чем использовать готовый видеорегистратор.

Попытки улучшить работу систем видеофиксации при этом не прекращались. Появились цифровые детекторы движения, затем они стали многозонными. Они обрабатывали картинку, понимали, что в кадре есть движение в конкретной зоне, и позволяли настраивать запись таким образом, чтобы архив содержал только важную информацию. Предположим, необходимо записывать всех, кто входит в помещение через дверь, при этом вокруг происходит много другого: ходят люди, работает какой-то станок, за окном качается елка. С помощью детекторов можно было настроить зону срабатывания только на дверь, и в архив попадали только те, кто через нее входит или выходит. Уже неплохая оптимизация.

Рождение видеоаналитики, какой мы ее знаем

Затем наступил первый бум видеоаналитики, связанной с межкадровым трекингом. Он вселил большие надежды. Появились три ведущие технологии: биометрическое распознавание лиц, распознавание номеров автомобилей (железнодорожных вагонов и т.д.) и ситуационная видеоаналитика.

Если первые две технологии – нишевые вертикальные решения, которые развиваются своим путем, – стали уже достаточно зрелыми и заняли прочные позиции на рынке CCTV, то с ситуационной видеоаналитикой, которая является главной из этих трех и должна быть мозгом системы видеонаблюдения, наблюдаются проблемы. Она неплохо себя показывает на периметрах, в стерильных зонах – там, где появление объекта само по себе является тревожным событием, и зачастую максимальный результат дает при работе совместно с другими средствами обнаружения, например системой охраны периметра. Используется ситуационная видеоаналитика в основном для более точной детекции появления объекта, чем дают обычные детекторы движения, для отслеживания перемещения внутри кадра, а также для фильтрации ложных срабатываний других систем обнаружения.

Вначале-середине 1990-х видеонаблюдение считалось продолжением зрения, попыткой и способом быть одновременно в нескольких местах и мониторить ситуацию, чтобы быстро принять решение о реагировании

Однако эта аналитика реального времени, ситуационная, построенная на трекинге различного рода, не дала ожидаемых результатов и взрывного роста ее применения не случилось. Это связано с серьезными технологическими ограничениями: неизбежно большое количество ложных срабатываний, приводящих к недоверию пользователя к системе, необходимость заранее настраивать потенциальные модели угроз и нарушителей, отсутствие физической возможности оператора обрабатывать весь поток событий от камер в реальном времени и многое другое.

При этом технологии видеоанализа получили серьезный прорыв именно в работе с архивом. С конца 2015 г. мы наблюдаем стремительный рост потребности в этой технологии на рынке, и сейчас уже можно сказать, что она стала мейнстримом. Это неудивительно, ведь "архивная" аналитика лишена всех тех недостатков, которые присущи видеоаналитике реального времени. Прежде всего, у оператора есть возможность задать параметры поиска, а в случае неудачи быстро скорректировать их, получить в результате полезные данные и внимательно изучить. Поэтому сейчас на рынке офлайн-аналитика однозначно главенствует над аналитикой в реальном времени. Но не кажется ли вам, дорогой читатель, что это нам что-то напоминает?

Позвольте мне повторить. Работа с видеоархивом – не про безопасность. Это про расследование, исследование и все то, о чем я говорил в начале статьи.

Онлайн-аналитика на грани вымирания

Ситуация с видеонаблюдением онлайн на данный момент оставляет желать лучшего ровно потому, что количество источников видео стремительно увеличивается. Это связано с удешевлением и улучшением пропускной способности каналов, средств хранения и процессорных мощностей – за те же деньги можно передать, сохранить и обработать во много раз больше информации. Сильно подешевели видеокамеры. Резко увеличилась мегапиксельность, то есть количество информации, которую генерирует камера. Все это привело к тому, что количество точек наблюдения в среднем проекте выросло на порядок и ситуация на рынке стала близка к критической.

Системы видеонаблюдения уже не способны выполнять свою исконную функцию – быть продолжением глаза. Слишком много контента сваливается на голову одного оператора. А он, в свою очередь, становится все менее ценной единицей. В некоторых проектах вовсе отказываются от операторов и делают единственной функцией системы расследование инцидентов.

Что поможет вернуть безопасность в видеонаблюдение?

Что же нужно сделать, чтобы вернуть функцию безопасности в системы видеонаблюдения? Сделать работу с изображением в реальном времени удобной и недорогой. Для этого нужно, чтобы система видеонаблюдения научилась давать оценку происходящему и самостоятельно принимать решения. Не просто сообщать, что некий объект появился в кадре и переместился по определенной траектории, а что из объекта "автомобиль" вышел объект "человек", приблизился к другому объекту "человек" и взаимодействовал с ним. Для начала уже это принесет хорошие плоды. Поэтому сейчас мы возлагаем большие надежды на технологию, связанную с нейросетями и с их глубоким обучением.

Сама идея, по сути, не нова. Понятие нейронной сети было формализовано еще в 1943 г. А повторный взрыв интереса и первые концептуальные описания нейросетей как наборов сложных фильтров, где первые уровни влияют на настройки следующих уровней и получается самообучающаяся система, были описаны уже в 1980-х г г. Более того, нейросети давно и активно применяются в некоторых областях – в обработке текста например. Но именно в видеонаблюдении (за исключением распознавания лиц и номеров) эта технология не смогла получить практического применения за счет недостаточной информативности видеокартинки (банально было мало пикселей), малых процессорных мощностей, не позволяющих обрабатывать видеоинформацию, и других факторов.

Почему мы все еще не видим прорыва

Теперь эти проблемы ушли в прошлое. Так что же сейчас мешает нейросетям стремительно ворваться в нашу жизнь, как они это сделали, например, на узкоспециализированном вертикальном рынке биометрии, в области распознавания лиц? Там они активно применяются, так почему же в ситуационной видеоаналитике мы пока не видим такого резкого скачка? Почему все пока только говорят об этом? Мешают две проблемы.

Учить нейросеть долго и трудно

Нужны специальные компьютерные мощности, и даже если купить видеокарты и поставить ферму для обучения не так сложно, то настоящая проблема в том, что для обучения нейросети нужно иметь очень много размеченного видео. Процесс разметки видеофрагментов очень трудоемкий. Причем одно дело, когда нужно разметить видео для создания детектора, который станет универсальным и востребованным на рынке, грубо говоря, на нем можно будет заработать. Другое дело – разметка для нейросети, где универсальный детектор создать почти невозможно, поскольку обученные на одной сцене нейрофильтры на другой сцене, как правило, дают совершенно не те результаты, которые мы ожидали.

Например, мы обучаем нейросеть на детекцию людей в синих комбинезонах и белых касках. Это происходит на предприятии с освещением в голубоватом спектре. Как только мы переносим эту обученную нейросеть в другое помещение, где освещение уходит, например, в красный спектр и люди ходят в зеленых комбинезонах и красных касках, то она перестает работать и ее нужно опять обучать. Сегодня идеальные результаты нейросеть показывает, только если обучать ее под конкретный проект и конкретное видеоизображение. А создавать для этого размеченное видео – крайне трудоемко и экономически неэффективно.

Даже обученная нейросеть чрезвычайно требовательна

Примером тому является система распознавания лиц. Даже многоядерная конфигурация типа Xeon позволяет обработать порядка 12–13 каналов. Современные системы видеонаблюдения технически не готовы к такой прожорливости. Пользователи привыкли, что сервер может обрабатывать 400–500 камер без видеоаналитики и 50–60 камер с ней. Но когда мощнейшая машина вытягивает лишь 10 камер – это даже психологически как-то сложно принять. Люди готовы поставить пару камер в проекте для распознавания лиц, но если нужна аналитика на всех камерах, получается слишком дорого.

Выход есть

Есть ли способ решить эти проблемы? Да, и их может быть очень много. Мы, например, исповедуем следующее: первую проблему надо решать, обучая нейросеть под каждый конкретный проект и установленные в нем камеры. Как быть с разметкой видео? Запускать в существующей системе детекторы, они будут генерировать события, среди которых, естественно, будет множество как полезных, так и ложных. Оператор "прокликивает" все эти события на "ложное-полезное", тем самым сообщая системе, что от нее требуется, и, по сути, обучая ее. В результате получится размеченное видео с конкретного объекта, а далее обучение надо производить на удаленной площадке – либо в облаке, либо у нас в лабораториях, потому что ради обучения одной нейросети никто не будет строить ферму на объекте, это экономически нецелесообразно. Значит, нужно сосредоточиться на создании механизма, позволяющего пользователю легко и быстро отправить заказ на создание и обучение нейросети.

Как бороться с ресурсоемкостью? Мы считаем, что нет необходимости обрабатывать все видеопотоки. Нужно делать комбинированный видеоанализ, а именно – обрабатывать нейросетью только результаты работы трекера. Причем сам трекер может работать прямо на камере. Это позволит снизить нагрузку на вычислительные ресурсы сервера и оставить систему на привычном для потребителя уровне ресурсоемкости. К тому же это позволит сделать "умнее" уже зрелую и востребованную рынком технологию поиска в архиве, поскольку она получит дополнительную информацию для фильтрации накопленных событий. То есть мы будем искать в архиве не просто некий объект, который пересек линию или вошел в зону, а объект "человек" и объект "автомобиль". За счет признаков, которые в онлайне были присвоены конкретным объектам нейросетью, мы будем знать, как они взаимодействовали.

Таким образом, система безопасности станет на порядок эффективнее не только при работе с видеоархивом, но и в реальном времени и вновь обретет свое исконное предназначение. Настало время вернуть безопасность в видеонаблюдение!

Опубликовано: Журнал "Системы безопасности" #5, 2017
Посещений: 3159

  Автор

Андрей Христофоров

Андрей Христофоров

Директор по корпоративным продажам
компании ITV I AxxonSoft

Всего статей:  18

В рубрику "All-over-IP" | К списку рубрик  |  К списку авторов  |  К списку публикаций