Реп Мона Ліза? Новий штучний інтелект Microsoft анімує обличчя з фотографій

Ana Ryu/Visual China Group/Getty Images

Табличка Microsoft у штаб-квартирі компанії 19 березня 2023 року в Сіетлі, штат Вашингтон.

Нью-Йорк
CNN
—

Мона Ліза тепер може не тільки посміхатися, завдяки новій технології AI від Microsoft.

Минулого тижня дослідники Microsoft детально розробили нову модель штучного інтелекту, яка може знімати нерухоме зображення обличчя та аудіозапис когось, хто говорить, і автоматично створювати реалістичне відео цієї людини, що говорить. Відео, які можна створювати з реальних облич, а також карикатур або творів мистецтва, доповнені переконливою синхронізацією губ і природними рухами обличчя та голови.

В одному експериментальному відео дослідники показали, як вони анімували Мону Лізу, щоб декламувати комедійну реп-пісню актриси Енн Хетеуей.

Виходи з моделі AI називаються Васа-1, одночасно кумедні і дещо суперечливі у своїй реальності. У Microsoft заявили, що цю технологію можна використовувати для навчання, «покращення доступності для людей із проблемами спілкування» або, можливо, для створення віртуальних компаньйонів для людей. Але також легко зрозуміти, як інструментом можна зловживати та використовувати його, щоб видати себе за реальних людей.

Це занепокоєння, яке виходить за рамки Microsoft: оскільки з’являється більше інструментів для створення привабливих зображень, відео та аудіокліпів, створених штучним інтелектом, Експерти стурбовані І їх неправильне використання може призвести до нових форм дезінформації. Деякі також стурбовані тим, що технології можуть ще більше підірвати творчі індустрії, від кіно до реклами.

Наразі Microsoft заявила, що не планує негайно випускати модель VASA-1 для громадськості. Цей крок схожий на те, як партнер Microsoft OpenAI вирішує навколишні проблеми Відеоінструмент, створений штучним інтелектомSora: OpenAI дражнив Sora в лютому, але наразі зробив його доступним лише для деяких професійних користувачів і викладачів кібербезпеки для цілей тестування.

READ Автономна зарядна станція Pixel Tablet коштує 129 доларів

«Ми виступаємо проти будь-якої поведінки, спрямованої на створення оманливого або шкідливого контенту для реальних людей», — заявили дослідники Microsoft у блозі. Але вони додали, що компанія «не планує випускати» продукт публічно, «поки ми не гарантуємо, що технологія використовується відповідально та відповідно до відповідних правил».

Дослідники сказали, що нова модель штучного інтелекту Microsoft була навчена на кількох відеозаписах облич людей під час розмови та розроблена для розпізнавання природних рухів обличчя та голови, включаючи «рух губ, (не губний) вираз, погляд очей і моргання, серед іншого. ” інші речі”. Результатом стає більш реалістичне відео, коли VASA-1 панорамує нерухоме зображення.

Наприклад, в одному тестовому відеоролику, де хтось виглядає схвильованим, очевидно під час гри у відеоігри, обличчя, що розмовляє, мало насуплені брови та стиснуті губи.

Інструмент штучного інтелекту також можна скерувати для створення відео, де суб’єкт дивиться в певному напрямку або виражає певні емоції.

При уважному розгляді все ще є ознаки того, що відео згенеровано машиною, наприклад, рідкісне моргання та перебільшені рухи бровами. Але Microsoft заявила, що вважає, що її модель «суттєво перевершує» інші подібні інструменти та «прокладає шлях для взаємодії в реальному часі з реалістичними аватарами, які імітують людську розмовну поведінку».

Philbert Page

“Загальний ніндзя в соціальних мережах. Інтроверт. Творець. Шанувальник телебачення. Підприємець, що отримує нагороди. Веб-ботанік. Сертифікований читач”