3 апреля 2026, 17:18
Netflix выкатил open-source схема, которая изменит видео-редакторы


Netflix представила VOID (Video Object Inpainting and Decomposition) — фреймворк, который переводит задачу удаления объектов из видео на рельсы латентной диффузии. В отличие от классических методов, которые часто грешат «заплаточным» подходом, VOID использует алгоритм декомпозиции сцены. Модель разделяет видеопоток на слои фона и динамические маски, что даёт возможность нейросети не просто закрашивать пиксели, а реконструировать структуру сцены с учетом глубины и перспективы.
Техническое движок VOID сфокусировано на решении проблемы темпоральной связности (temporal consistency), которая является ахиллесовой пятой большинства диффузионных моделей. Благодаря специфическим механизмам внимания (attention) и анализу межкадровых связей, модель минимизирует артефакты мерцания и «плавающих» текстур. В сравнительных тестах VOID демонстрирует превосходство над текущим SOTA-решением в лице ProPainter, обеспечивая более стабильное заполнение зон за маской даже при быстром движении камеры или перекрытии объектов.
Архитектурно VOID спроектирована как гибкий пайплайн, способный работать с масками любой сложности — от удаления мелких проводов до полной замены крупных объектов в кадре. Одной из ключевых фишек стала сопровождение поэтапного инференса, что позволяет модели сохранять детализацию текстур без потери общего контекста сцены. Разработчики реализовали инициатива на базе PyTorch и обеспечили нативную совместимость с экосистемой Diffusers, что значительно упрощает интеграцию VOID в профессиональные VFX-пайплайны и разработка кастомных расширений.
Для развертывания модели «в один клик» потребуются серьезные ресурсы: типовой запуск оптимизирован под GPU уровня NVIDIA A100 (40 ГБ VRAM). Тем не менее для сообщества предусмотрены сценарии оптимизации — использование model_cpu_offload и sequential_cpu_offload позволяет уместить инференс в 24 ГБ видеопамяти, что делает модель доступной для владельцев RTX 3090/4090. Веса и исходный исходник уже доступны на GitHub, что открывает путь к созданию инструментов голливудского уровня для всех разработчиков.
Это значимый шаг в сторону автоматизации самого трудоемкого этапа постпродакшена — ротоскопинга и клинапа. Открытость VOID даёт возможность не только использовать её как готовый средство, но и использовать как базу для fine-tuning под специфические задачи кинопроизводства.
Читают сейчас

10 минут назад
Google отключил оператор inurl
Ранее Google ограничил количество результатов поиска по оператору site, а теперь полностью отключил и inurl — поисковый оператор, который позволял находить документы содержащие нужную последовательнос

54 минуты назад
Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat
13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

3 часа назад
Microsoft выпустила версию PowerToys 0.100.0
Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

4 часа назад
Апдейт Telegram: форматирование ботов и Markdown-файлы
Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.

4 часа назад
Shutterstock станет «творческой платформой на основе ИИ»
В Shutterstock анонсировали следующую ступень развития платформы, объединяющую библиотеку созданных людьми медиа с растущим набором инструментов на основе ИИ. Цель состоит в том, чтобы помочь пользова