Технология распознавания видео InvariVision против Fingerprint
Сооснователь проекта InvariVision Дмитрий Еремеев рассказал о новой “покадровой” технологии распознавания видео, которую разработала компания. В чем ее особенность и почему она лучше, чем «технология цифровых отпечатков» (Fingerprint), которая лежит в основе алгоритма Content ID на YouTube?
Полную запись интервью разработчика InvariVision можно послушать здесь:
Как появилась технология InvariVision?
Сначала у нас был базовый алгоритм распознавания изображений. Долгое время его разработкой занимался я. Его основное достоинство в том, что он может работать с очень большим количеством изображений в базе данных. Для наших экспериментов мы использовали 20 миллионов изображений. Поиск в такой большой базе данных не превышает 20 миллисекунд — достаточно быстро. Поэтому алгоритм может работать с несколькими миллионами изображений даже на процессорах с небольшой производительностью (например, на мобильных телефонах).
Что позволяет делать эта базовая технология?
Мы уже опробовали нашу технологию в навигации роботов. Работает это так: робот запоминает картинки, и к этим картинкам ассоциируются координаты на карте (координаты местоположения, азимут и угол, под которым робот двигается по карте). Соответственно робот видит картинки и тут же понимает, где он находится. Таким образом он может ориентироваться в пространстве и добраться, например, из одной комнаты в другую.
Кроме того, так как технология распознавания позволяет локализоваться в пространстве, можно привязывать к этим координатам некий виртуальный объект. То есть использовать ее для конструирования дополненной реальности. Это еще одно направление.
И последнее, на чем мы сейчас сконцентрировались, — это распознавание видео. На YouTube сейчас используется алгоритм Content ID, в основе которого лежит так называемая “технология цифровых отпечатков” (Fingerprint). Но практика показывает, что она не всегда корректно распознает видео. Технология, которую разрабатываем мы, работает эффективнее.
В чем недостаток Fingerprint?
Суть работы Fingerprint заключается в том, что он не анализирует запись по каждому кадру, а “разбивает” ее на интервалы с определенным количеством кадров и по ним вычисляет статистики видео — например, гистограммы яркости. То есть если в основе отпечатка интервал в 5 минут, то все, что меньше 5 минут, алгоритм распознать не может. Это первый недостаток.
Второй недостаток — этот метод не будет работать, если исходное видео было сильно изменено. Например, если его перекодировали, добавили рамку или как-то иначе подкорректировали. С помощью таких искажений пользователи могут легко обойти защиту.

В чем преимущество технологии InvariVision над Fingerprint?
Принципиальное отличие нашей технологии состоит в том, что распознавание видео происходит кадр за кадром. Соответственно мы можем находить очень маленькие фрагменты от 4 секунд.
Во-вторых, покадровая технология более устойчива к искажениям. Она с легкостью распознает внесение рамок, нарезание видео или изменение скорости. Нашу систему обмануть сложнее.
Почему в таком случае такие гиганты, как YouTube, продолжают использовать Fingerprint?
Технология Fingerprint, хоть и работает с изъянами, широко распространена и давно используется. Вывести на рынок альтернативу ей, даже более эффективную, в такой ситуации очень непросто. Поэтому сейчас мы работаем над тем, чтобы о наших разработках узнали как можно больше специалистов и начали использовать их для распознавания видеоконтента.