Контакты
Подписка
МЕНЮ
Контакты
Подписка

Эволюция интеллектуального поиска и его перспективы

В рубрику "All-over-IP" | К списку рубрик  |  К списку авторов  |  К списку публикаций

Эволюция интеллектуального поиска и его перспективы

Объем информации, которую объединяет в себе умный город, с каждым днем становится все больше, в том числе и видеоинформации. Это связано с несколькими факторами. Прежде всего, дешевеют средства генерации контента (камеры, видеорегистраторы) – за последние семь лет стоимость камер уменьшилась примерно в пять раз. Камеры стали доступнее, и накапливаемого контента стало больше. Дешевеют и средства хранения информации, при этом становясь более быстрыми и емкими. Стоимость передачи единицы информации сократилась также более чем в пять раз. Это привело к тому, что размер пилотного проекта "Безопасный город" (минимального технического состава) резко увеличился – если раньше он мог включать 10–20 камер, то теперь это 100–500 камер. Соответственно, сейчас остро строит вопрос: что делать с накопленной информацией?
Андрей Христофоров
Коммерческий директор ITV | AxxonSoft

Интернет (на тот момент ARPANET) появился в 1969 г. А первый поисковый сервис – в 1990 г. Вы только представьте, Интернет существовал без поисковиков почти 20 лет! Пользователей это устраивало, потому что информации внутри такой среды было не так много и люди были способны обмениваться ей лично, через печатные средства и т.д. После появления поисковых систем уже непонятно, как можно было обходиться без них.

Современные системы видеонаблюдения можно сравнить с "Интернетом без Гугла и Яндекса". Очевидно, что это неэффективно и неудобно. Имея 10–20 камер, можно найти нужную информацию вручную, если помнить, какие сцены охватывают камеры, и предполагать, кто может на них появиться. Но когда камер 500, без технологий поиска не обойтись.

Удобный интерфейс – это уже инструмент поиска

Первые технологии, с которых начался поиск в видеоархиве, были связаны с правильными и удобными интерфейсами. Даже точное указание даты и времени на видео уже дает возможность поиска по этим критериям. Впоследствии специалисты пришли к выводу, что нужно создавать инструменты, которые будут помогать оператору. И первые идеи были вновь связаны с интерфейсами, позволяющими удобно и быстро находить события.

Один из них – поиск триггерного события методом приближения, когда, например, на видеозаписи машина исчезла со своего места. Для этого длительный диапазон архива разбивается на несколько равных частей. Например, 12-часовая видеозапись делится на 12 частей по часу и на экран выводятся превью – первые кадры каждого отрезка. По ним можно понять, что на одной из частей объект еще есть, а на другой его уже нет – значит, именно в этом часовом диапазоне произошло триггерное событие.

Поэтапно разбивая каждый из фрагментов на более мелкие, в конечном итоге можно с точностью до секунды определить время наступления события. В случае с 12-часовым архивом на это понадобится всего четыре клика мыши. Казалось бы, чем это не интеллектуальный поиск? А ведь это всего лишь хороший инструмент интерфейса.

Поиск по номерам автомобилей – первая интеллектуальная технология

Несмотря на эффективность поиска по отрезкам, он не способен решить все задачи. Например, не получится посмотреть, кто входил в определенную зону, или найти все машины, проехавшие в поле зрения камеры.

Первым действительно интеллектуальным методом поиска стала технология, связанная с распознаванием автомобильных номеров. Алгоритмы обнаружения номера и превращения его в текст существуют еще со времен аналоговых систем. Они позволяли описать все номера, которые мелькали в кадре, а затем по этим записям, как по блокноту, произвести поиск.

Получается, что идея заранее описать сцену, чтобы потом использовать эти данные для поиска, уже витала в воздухе. Нужны были лишь средства для описания сцен, и со временем они появились – технологии, позволяющие описать лица в геометрических шаблонах и поведение объектов с помощью трекера. Совокупность всех этих инструментов дала возможность генерировать метаданные, которые с высокой степенью точности описывают сцену и все, что в ней происходит.

Если поиск не мгновенный, он не имеет смысла

Но затем возник серьезный вопрос: где хранить эти метаданные? Выяснилось, что на рынке нет эффективных инструментов, позволяющих и сохранять, и производить поиск по геометрическому описанию сцены. Обычные реляционные базы данных рассчитаны на структурированную информацию, которую можно проиндексировать ("рост, вес, размер груди, не привлекался, не выезжал"). А геометрические данные – это хаотичный набор цифр, которые генерируются с огромной скоростью, поскольку объекты в кадре постоянно перемещаются. При этом важно сохранять максимальное количество данных (координаты объекта, размер, цвет и т.п.), ведь чем больше информации об объекте мы имеем, тем проще будет его найти. Данные такого типа можно хранить и в реляционной базе, но тогда поиск по ним будет очень медленным.


Еще одна проблема заключалась в том, что при описании сцены невозможно информацию сразу разделить на полезную, бесполезную и вредную. Нужно сохранять все. Сцену описывать как можно подробнее. Какое событие полезно, а какое вредно, становится понятно только в момент поиска. Условно говоря, при поиске человека в кустах шевелящиеся от ветра кусты – это ложные срабатывания, то есть вредная информация. А при поиске информации о том, дул ли ветер в определенный момент, люди, ходящие в кустах, становятся вредной информацией, а шевелящиеся кусты, наоборот, полезной, потому что они шевелятся от ветра.

Соответственно, при поиске соотношение количества полезной и всей остальной информации очень сильно зависит от того, насколько точно были заданы критерии поиска. Наиболее эффективные критерии практически невозможно задать с первого раза, их всегда нужно изменять и подбирать: сделать линию короче или длиннее, поменять градиент цвета, расширить или сузить область кадра, в которой ведется поиск, и т.д. Все это делается экспериментальным путем, и поиск становится эффективным только в том случае, если результаты можно получить мгновенно и сразу же скорректировать критерии запроса. Если приходится хоть сколько-нибудь ждать, то весь смысл теряется – после 2–3 попыток пользователь просто сдастся. Здесь вновь как нельзя кстати подходит аналогия с Интернетом – быстро получая результаты поиска, мы можем перебирать разные ключевые слова. Если бы после каждого поискового запроса приходилось ждать результатов даже по пять минут, вряд ли бы у кого-то хватило терпения подобрать нужные ключевые слова и получить результат. Вот почему мгновенный поиск очень важен: именно он делает систему эффективной. Возвращаясь к проблеме хранения метаданных – до определенного момента систем хранения, позволяющих выдать мгновенный результат поиска, вообще не существовало. Чтобы решить эту проблему, компании инвестируют средства в дорогостоящие научно-исследовательские разработки, результатом которых стали уникальные средства, оптимизированные для хранения геометрических данных, и получают технологии, позволяющие очень быстро добывать информацию. Таким образом они делают свои системы поиска действительно эффективными и получают возможность в полной мере решить задачи систем безопасности городского и регионального масштаба, включающие тысячи и десятки тысяч камер.

Будущее интеллектуального поиска

Системы поиска с каждым днем становятся все более точными, но этот путь развития не безграничен, у него есть предел, поскольку развиваются только инструменты качественного описания сцены. Их может становиться больше, они могут быть шире, точнее и т.д. Но будущее, несомненно, за системами, которые смогут не просто описывать сцену, а понимать, что в сцене произошло, то есть добавлять смысловую нагрузку.

Сейчас оператор ищет в любом случае какое-то движение в сцене, и для системы оно является лишь движением абстрактных объектов. В лучшем случае есть классификация "человек, машина, скопление людей", но она очень условная. А нужно, чтобы система начала понимать, что именно объекты внутри сцены делают. Например, ситуация: человек поцарапал машину. Будет очень здорово, если система видеонаблюдения начнет понимать, что не объект 1 сблизился с объектом 2 и затем они разошлись, а что именно человек и именно поцарапал машину, а не открыл ее или посмотрел в боковое зеркало. Когда у системы появится осмысленная оценка происходящего, тогда станет возможным оценивать адекватность или неадекватность поведения объектов в кадре, выявлять "подозрительное" поведение и т.д. Конечно, это будет сумасшедший качественный скачок. И он будет именно в смысловом описании сцены.

В ближайшие годы основные усилия будут направлены на то, чтобы создавать инструменты, позволяющие оператору легче и быстрее находить нужный фрагмент видеоархива по качественному описанию. Возможно, поможет стереозрение – оно добавит еще одно измерение, которое позволит понять, далеко ли находится объект от точки наблюдения. Это даст оператору возможность искать объекты по степени удаленности или реальному геометрическому размеру объекта (сейчас используются относительные размеры).

Все мы лишь в начале пути. Тренд 2016 г. был очевиден – люди начали осознавать важность поиска и интересоваться инструментами для этого. А для проектов "Умный город" мгновенный многокамерный поиск лиц, номеров автомобилей и любых других объектов и событий в огромных объемах архива просто необходим. Поэтому вероятнее всего скоро произойдет то, что и должно произойти: любая система видеонаблюдения независимо от ее масштаба просто вынуждена будет обзавестись инструментами поиска – такими, какие описаны в статье, или похожими, поскольку эра "Интернета без Гугла и Яндекса" уходит безвозвратно.

Опубликовано: Журнал "Системы безопасности" #2, 2017
Посещений: 2479


  Автор
Андрей Христофоров

Андрей Христофоров

Директор по корпоративным продажам
компании ITV I AxxonSoft

Всего статей:  18

В рубрику "All-over-IP" | К списку рубрик  |  К списку авторов  |  К списку публикаций