Відео в реальному часі може стати наступним стрибком у технології ШІ

Ієн Сансавера, інженер-програміст нью-йоркського стартапу під назвою Runway AI, написав короткий опис того, що він хотів побачити у відео. Книги “Тиха річка в лісі”.

Менш ніж через дві хвилини тестовий інтернет-сервіс створив короткий відеоролик спокійної річки в лісі. Вода річки, що тече, мерехтіла на сонці, коли вона прорізала дерева та папороті, повертала за ріг і м’яко хлюпала об скелі.

Runway, яка цього тижня планує відкрити свої послуги для невеликої групи тестувальників, є однією з кількох компаній, які розробляють технологію штучного інтелекту, яка незабаром дозволить людям створювати відео, просто ввівши кілька слів у поле на екрані комп’ютера.

Вони представляють наступний етап гонки галузі — гонки, яка включає такі гіганти, як Microsoft і Google, а також набагато менші стартапи — за створення нових типів систем штучного інтелекту, які, на думку деяких, можуть стати наступною великою подією в технологіях, такими ж важливими, як веб-браузери. або iPhone.

Нові системи створення відео можуть пришвидшити роботу кінематографістів та інших цифрових художників, водночас стаючи новим, швидким способом створення дезінформації, яку важко виявити в Інтернеті, що ускладнює визначення реальності онлайн.

Системи є прикладами того, що відомо як генеративний штучний інтелект, який може миттєво створювати текст, зображення та звуки. Іншим прикладом є ChatGPT, онлайн-чат-бот, створений стартапом OpenAI із Сан-Франциско, який наприкінці минулого року приголомшив індустрію технологій своїми можливостями.

Google і Meta, материнська компанія Facebook, Минулого року він представив свої перші системи генерації відеоале вони не поділилися цим із громадськістю, оскільки були стурбовані тим, що системи зрештою можуть бути використані для поширення дезінформації з їх новою швидкістю та ефективністю.

Але генеральний директор Runway Крістобаль Валенсуела сказав, що вважає цю технологію надто важливою, щоб зберігати її в дослідницькій лабораторії, незважаючи на ризики. «Це одна з найбільш вражаючих технологій, які ми створили за останні 100 років», — сказав він. «Вам потрібні люди, щоб справді цим користуватися».

Звичайно, можливість редагувати фільми та відео та маніпулювати ними не є чимось новим. Режисери займаються цим уже понад століття. В останні роки дослідники та цифрові художники використовували різні технології та програми ШІ для створення та редагування відео, які часто називають підробленими.

READ Ось деякі ранні зразки

Але системи, подібні до створеної Runway, можуть з часом замінити навички редагування одним натисканням кнопки.

Технологія Runway створює відео будь-якого короткого опису. Щоб почати, просто напишіть опис, подібно до короткої нотатки.

Це найкраще працює, якщо сцена містить певну дію, але не багато дії, наприклад «Дощовий день у великому місті» або «Собака з мобільним телефоном у парку». Натисніть Enter, і система створить відео через хвилину або дві.

Ця технологія може відтворювати типові зображення, наприклад кота, який спить на килимку. Або він може поєднати різні концепції, щоб створити дивно цікаві відео, як корова на дні народження.

Відеоролики тривають лише чотири секунди, а якщо придивитися, відео виходить уривчастим і розмитим. Іноді зображення дивні, спотворені та тривожні. У системі є спосіб поєднання тварин, таких як собаки та коти, з неживими предметами, такими як м’ячі та мобільні телефони. Але враховуючи правильний напрямок, він створює відео, які показують, куди рухаються технології.

READ Можливо, Apple Music вийде на PS5

«На даний момент, якщо я побачу HD-відео, я, ймовірно, буду йому довіряти. Але це дуже швидко зміниться», — сказав Філіп Ізола, професор Массачусетського технологічного інституту, який спеціалізується на штучному інтелекті.

Як і інші генеративні технології штучного інтелекту, система Runway навчається, аналізуючи числові дані — у цьому випадку фотографії, відео та анотації, що описують вміст цих зображень. Навчаючись цьому типу технології на все більшій кількості даних, дослідники впевнені, що зможуть швидко покращити та розширити свої навички. Зовсім скоро, на думку експертів, вони створять професійні міні-фільми з музикою та діалогами.

Важко сказати, що зараз створює система. Це не малюнок. Це не мультфільм. Це сукупність багатьох пікселів, змішаних разом для створення реалістичного відео. Компанія планує представити свою технологію з іншими інструментами, які, на її думку, прискорять роботу професійних художників.

Протягом останнього місяця соціальні мережі рясніли фотографіями Папи Франциска в білому пуховику Balenciaga — напрочуд сучасному вбранні для 86-річного Папи. Але фотографії були несправжніми. Чималий резонанс викликав 31-річний будівельник із Чикаго Використання популярного інструменту ШІ під назвою Midjourney.

Доктор Ізола витратив роки на розробку та тестування такого типу технології, спочатку як дослідник в Університеті Каліфорнії в Берклі та OpenAI, а потім як професор Массачусетського технологічного інституту. Повністю фейкові фотографії Папи Франциска.

«Був час, коли люди публікували глибокі фейки, і вони не обманювали мене, тому що це було надто дивно або надто нереально», — сказав він. «Тепер ми не можемо сприймати зображення, які ми бачимо в Інтернеті, за чисту монету».

Midjourney — це одна з багатьох служб, які можуть створювати реалістичні нерухомі зображення з короткої підказки. Інші додатки включають Stable Diffusion і DALL-E, технологію OpenAI, яка поклала початок цій хвилі генераторів зображень, коли вона була представлена рік тому.

Midjourney покладається на нейронну мережу, яка вивчає свої навички, аналізуючи величезні масиви даних. Він шукає шаблони, прочісуючи мільйони цифрових зображень, а також текстові підписи, що описують зображення, що фотографуються.

READ Два ведучі "Відповісти всім" зітхають серед наслідків "кухонного тесту"

Коли хтось описує образ системи, він створює список функцій, які може мати цей образ. Однією з особливостей може бути вигин у верхній частині вуха собаки. Іншим може бути край мобільного телефону. Далі друга нейронна мережа, яка називається дифузійною моделлю, генерує зображення та генерує пікселі, необхідні для атрибутів. Нарешті, він перетворює пікселі на цілісне зображення.

Такі компанії, як Runway, яка має близько 40 співробітників і залучила 95,5 мільйонів доларів, використовують цю технологію для створення рухомих зображень. Аналізуючи тисячі відеокліпів, їхня технологія може навчитися з’єднувати багато нерухомих зображень подібним узгодженим способом.

«Відео — це лише серія кадрів — нерухомих зображень — які об’єднані таким чином, що створюють ілюзію руху, — сказав пан Валенсуела. «Хотрість полягає в тому, щоб навчити модель, яка розуміє взаємозв’язок і узгодженість між кожним фреймворком».

Подібно до ранніх версій таких інструментів, як DALL-E та Midjourney, ця техніка іноді поєднує концепції та зображення дивним чином. Якщо ви замовите ведмедя, який грає в баскетбол, він може подарувати своєрідне опудало-трансформер з баскетбольним м’ячем на лідіді. Якщо ви попросите собаку з мобільним телефоном у парку, вона може дати вам цуценя з мобільним телефоном і тілом інопланетянина.

Але експерти вважають, що вони можуть виправити недоліки, навчаючи свої системи на все більшій кількості даних. Вони вірять, що з часом технологія зробить створення відео таким же простим, як написання речення.

«У минулі часи, щоб зробити щось подібне віддалено, вам потрібно було мати камеру. Ви повинні були мати реквізит. Ви повинні були мати місце розташування. Ви повинні були мати дозвіл», — сказала Сьюзан Бонсер, автор і видавець із Пенсильванії. Держава, який був раннім втіленням генеративної відеотехнології, вигукує: «У вас повинні були бути гроші». «Зараз вам нічого з цього не потрібно мати. Ви можете просто сидіти склавши руки і уявляти це».

Philbert Page

“Загальний ніндзя в соціальних мережах. Інтроверт. Творець. Шанувальник телебачення. Підприємець, що отримує нагороди. Веб-ботанік. Сертифікований читач”