У Microsoft представили нейромережу, яка створює гіперреалістичні діпфейки.
Новий алгоритм VASA-1 від Microsoft згенерує відео людини, що розмовляє, з широким спектром емоцій і природною мімікою. Для цього алгоритму достатньо мати всього одне фото й аудіодоріжку, інформує no worries.
Результат роботи VASA-1 має вкрай природний вигляд. Лише з одного знімка обличчя і запису голосу алгоритм створює реалістичне відео, на якому зображена на знімку людина буквально «оживає», а її міміка, рухи губ і голови виглядають цілком натурально. Оскільки створені за допомогою VASA-1 відео одразу складно відрізнити від реальних, спільнота висловлює побоювання з приводу того, що алгоритм можуть використовувати для створення фейків.
Що стосується самої нейромережі, головною її відмінністю від інших схожих алгоритмів є наявність цілісної моделі генерації лицьової міміки та рухів голови. Фахівці Microsoft провели велику дослідницьку роботу, включно з оцінкою низки нових метрик. У результаті вони встановили, що новий алгоритм значно перевершує представлені раніше аналоги за багатьма параметрами.
«Наш метод не тільки забезпечує генерацію відео високої якості з реалістичною мімікою і рухами голови, а й також підтримує функцію онлайн-генерації відео 512×512 пікселів із частотою 40 кадрів на секунду з незначною початковою затримкою. Це відкриває шлях до взаємодії в реальному часі з реалістичними аватарами, що імітують поведінку людини під час розмови», — йдеться у повідомленні Microsoft.
Складається враження, що нейромережа може створювати якісні фейкові відео на основі лише одного зображення. Саме тому, ймовірно, Microsoft називає VASA-1 «дослідницькою демонстрацією» і не планує виводити його на комерційний ринок, принаймні найближчим часом.