Технология распознавания видео InvariVision против Fingerprint

Сооснователь проекта InvariVision Дмитрий Еремеев рассказал о новой “покадровой” технологии распознавания видео, которую разработала компания. В чем ее особенность и почему она лучше, чем «технология цифровых отпечатков» (Fingerprint), которая лежит в основе алгоритма Content ID на YouTube?

Полную запись интервью разработчика InvariVision можно послушать здесь:

Как появилась технология InvariVision?

Сначала у нас был базовый алгоритм распознавания изображений. Долгое время его разработкой занимался я. Его основное достоинство в том, что он может работать с очень большим количеством изображений в базе данных. Для наших экспериментов мы использовали 20 миллионов изображений. Поиск в такой большой базе данных не превышает 20 миллисекунд — достаточно быстро. Поэтому алгоритм может работать с несколькими миллионами изображений даже на процессорах с небольшой производительностью (например, на мобильных телефонах).

Что позволяет делать эта базовая технология?

Мы уже опробовали нашу технологию в навигации роботов. Работает это так: робот запоминает картинки, и к этим картинкам ассоциируются координаты на карте (координаты местоположения, азимут и угол, под которым робот двигается по карте). Соответственно робот видит картинки и тут же понимает, где он находится. Таким образом он может ориентироваться в пространстве и добраться, например, из одной комнаты в другую.

Кроме того, так как технология распознавания позволяет локализоваться в пространстве, можно привязывать к этим координатам некий виртуальный объект. То есть использовать ее для конструирования  дополненной реальности.  Это еще одно направление.

И последнее, на чем мы сейчас сконцентрировались, — это распознавание видео. На YouTube сейчас используется алгоритм Content ID, в основе которого лежит так называемая “технология цифровых отпечатков” (Fingerprint). Но практика показывает, что она не всегда корректно распознает видео. Технология, которую разрабатываем мы, работает эффективнее.

В чем недостаток Fingerprint?

Суть работы Fingerprint заключается в том, что он не анализирует запись по каждому кадру, а “разбивает” ее на интервалы с определенным количеством кадров и по ним вычисляет статистики видео — например, гистограммы яркости. То есть если в основе отпечатка интервал в 5 минут, то все, что меньше 5 минут, алгоритм распознать не может. Это первый недостаток.

Второй недостаток — этот метод не будет работать, если исходное видео было сильно изменено. Например, если его перекодировали, добавили рамку или как-то иначе подкорректировали. С помощью таких искажений пользователи могут легко обойти защиту.

Дмитрий Еремеев

В чем преимущество технологии InvariVision над Fingerprint?

Принципиальное отличие нашей технологии состоит в том, что распознавание видео происходит кадр за кадром. Соответственно мы можем находить очень маленькие фрагменты от 4 секунд.

Во-вторых, покадровая технология более устойчива к искажениям. Она с легкостью распознает внесение рамок, нарезание видео или изменение скорости. Нашу систему обмануть сложнее.

Почему в таком случае такие гиганты, как YouTube, продолжают использовать Fingerprint?

Технология Fingerprint, хоть и работает с изъянами, широко распространена и давно используется. Вывести на рынок альтернативу ей, даже более эффективную, в такой ситуации очень непросто. Поэтому сейчас мы работаем над тем, чтобы о наших разработках узнали как можно больше специалистов и начали использовать их для распознавания видеоконтента.