Вышел PrismAudio — генерация звука прямо из видео

2 мин
Вышел PrismAudio — генерация звука прямо из видео

Лаборатория Tongyi Lab представила PrismAudio — новый фреймворк для задачи Video-to-Audio, то есть автоматической генерации звуковой дорожки по видеоряду. Инициатива стал развитием идей предыдущей модели ThinkSound, но с более продуманной архитектурой.

Главное отличие — разбиение генерации звука на 4 независимых «перцептивных измерения». Вместо одного монолитного рассуждения схема использует отдельные цепочки reasoning (CoT) для каждой задачи:

• Semantic CoT — определяет, какие звуки соответствуют сцене

• Temporal CoT — выстраивает тайминг и синхронизацию

• Aesthetic CoT — отвечает за качество и естественность

• Spatial CoT — размещает звук в стереопространстве

Такой подход решает проблему ThinkSound, где модель пыталась создавать всё сразу и теряла качество. Теперь каждое измерение оптимизируется отдельно через собственную reward-функцию, включая метрики вроде MS-CLAP, Synchformer и StereoCRW.

Для обучения с подкреплением используется метод Fast-GRPO — ускоренная схема, где часть шагов проходит через стохастическое сэмплирование, а остальная траектория рассчитывается детерминированно. Это позволило сократить обучение с 600 до 200 шагов и при этом усовершенствовать итоговые результаты.

В тестах PrismAudio уверенно обходит ThinkSound:

• лучшее семантическое совпадение звука с видео

• более точная синхронизация

• почти в 2 раза меньше ошибок в пространственном позиционировании

• более высокие субъективные оценки качества

Равным образом схема показывает весьма оперативный инференс — приблизительно 0,63 секунды на 9-секундный фрагмент (без учета препроцессинга).

Но есть и нюанс: извлечение признаков остаётся тяжёлым. По отзывам, для 10-секундного видео может потребоваться до 43 ГБ видеопамяти, что ограничивает использование без мощного железа.

Читают сейчас

Разработчик с ИИ воссоздал на TypeScript классическую DOS-игру «Поле ввода Чудес 2» в версии для браузеров

8 минут назад

Разработчик с ИИ воссоздал на TypeScript классическую DOS-игру «Поле ввода Чудес 2» в версии для браузеров

Разработчик Денис Ширяев представил браузерную версию культовой DOS‑игры «Поле ввода Чудес 2». Исходный исходник проекта «Поле Чудес 2 — DOS‑first TypeScript port» написан на языке TypeScript с помощь

Выпуск Linux 7.1

34 минуты назад

Выпуск Linux 7.1

14 июня 2026 года Линус Торвальдс показал начальный стабильный выпуск ядра Linux 7.1. Выпуск новой версии ядра Linux вышел согласно графиком, спустя два месяца после выхода предыдущей стабильной верси

Версия открытого проекта Segra 1.6.0 для записи игр на ПК с Windows

1 час назад

Версия открытого проекта Segra 1.6.0 для записи игр на ПК с Windows

В первой половине июня 2026 года разработчик Олоф Сегергрен выпустил обновление 1.6.0 открытого проекта Segra для записи игр на ПК с Windows. Исходный исходник решения написан на C# и TypeScript и обн

OpenRouter Fusion обошел GPT-5.5 и Opus 4.8 — за счет совещания моделей

1 час назад

OpenRouter Fusion обошел GPT-5.5 и Opus 4.8 — за счет совещания моделей

Сервис-агрегатор OpenRouter, через который авторы обращаются к сотням нейросетей по единому api, встроил в свой интерфейс режим Fusion. Его суть в том, что на запрос отвечает не одна схема, а группа и

Представлена игра Pac-Hunt — это Pac-Man (Пакман), но игрок там — призрак

1 час назад

Представлена игра Pac-Hunt — это Pac-Man (Пакман), но игрок там — призрак

Универсальный инденер-программист (generalist Software Engineer) под ником Garrit представил открытую онлайн-игру Pac-Hunt (код на GitHub). Это классический Pac-Man (Пакман), но игрок там — призрак. О