VOID от Netflix: ИИ удаляет объекты из видео с учетом физики мира

ИИ удаляет машину из видео с аварией

Компания Netflix представила инновационную модель искусственного интеллекта под названием VOID, которая совершает качественный скачок в области обработки видео. В отличие от традиционных инструментов, которые просто «замазывают» нежелательные объекты, VOID способна удалять их, полностью перестраивая логику и физику происходящего в кадре.

Ключевое отличие технологии — понимание контекста и причинно-следственных связей. Если из сцены дорожного инцидента убрать одну из машин, вторая не будет выглядеть поврежденной, а просто продолжит движение. При удалении шара, сбивающего кегли, кегли останутся стоять нетронутыми. Система не просто стирает пиксели, а генерирует правдоподобную альтернативную версию реальности, где удаленный объект никогда не существовал и не влиял на окружение.

Работа модели разделена на этапы. Сначала визуальный анализатор идентифицирует объект для удаления и все зоны его потенциального влияния: что могло упасть, сдвинуться или изменить траекторию. Затем эта информация передается генератору видео, который был обучен на парных примерах — с присутствием объекта и без него. Это позволяет ИИ понимать, как должна выглядеть сцена после «вмешательства в историю». Для финальной полировки и устранения возможных артефактов применяется дополнительный этап коррекции.

Разработчики выложили веса модели в открытый доступ на платформе Hugging Face. Однако для ее запуска требуются значительные вычислительные ресурсы: рекомендуется использование графических процессоров с памятью не менее 40 ГБ, таких как NVIDIA A100. Это делает модель пока недоступной для рядовых пользователей, но открывает огромные перспективы для профессионального видеопроизводства, кинематографа и создания спецэффектов, где важна безупречная реалистичность.