ChatGPT тепер також може створювати зображення

ChatGPT тепер може генерувати зображення, і вони надзвичайно деталізовані.

У середу OpenAI, стартап зі штучного інтелекту в Сан-Франциско, випустив нову версію свого генератора зображень DALL-E для невеликої групи тестувальників і інтегрував технологію в ChatGPT, популярного онлайн-чат-бота.

Під назвою DALL-E 3 компанія заявила, що може створювати зображення, які є більш переконливими, ніж попередні версії технології, демонструючи особливий талант до зображень, що містять літери, цифри та людські руки.

«Це набагато краще для розуміння та представлення того, що запитує користувач», — сказав Адітя Рамеш, дослідник OpenAI, додавши, що технологія розроблена для більш точного розуміння англійської мови.

Додавши останню версію DALL-E до ChatGPT, OpenAI зміцнює свій чат-бот як центр для генеративного ШІ, який може створювати текст, зображення, звуки, програмне забезпечення та інші цифрові медіа самостійно. Оскільки минулого року ChatGPT став вірусним, він розпочав гонку серед технологічних гігантів Кремнієвої долини за досягнення в авангарді штучного інтелекту.

Google у вівторок випустив нову версію свого чат-бота Bard, який підключається до багатьох найпопулярніших сервісів компанії, включаючи Gmail, YouTube і Docs. Midjourney і Stable Diffusion, два інші конструктори іміджу, оновили свої моделі цього літа.

OpenAI давно продемонструвала способи зв’язку свого чат-бота з іншими онлайн-сервісами, включаючи Expedia, OpenTable і Wikipedia. Але це перший випадок, коли стартап поєднав чат-бота з генератором зображень.

DALL-E і ChatGPT раніше були двома окремими програмами. Але з останнім випуском люди тепер можуть використовувати ChatGPT для створення цифрових зображень, просто описуючи те, що вони хочуть бачити. Або вони можуть створювати зображення за допомогою створених чат-ботом описів, автоматизуючи процес створення графіки, мистецтва та інших медіа.

READ Ремонт Apple Watch Ultra коштуватиме 499 доларів, якщо у вас немає AppleCare Plus

У демонстрації цього тижня дослідник OpenAI Габріель Гох продемонстрував, як ChatGPT тепер може генерувати детальні текстові описи, які потім використовуються для створення зображень. Наприклад, після створення опису логотипу для ресторану під назвою Mountain Ramen бот створив кілька зображень із цих описів за кілька секунд.

Нова версія DALL-E може створювати зображення з описів, що складаються з кількох абзаців, і чітко слідує інструкціям, описаним у точних деталях, сказав пан Го. За його словами, як і всі генератори зображень та інші системи ШІ, вони також схильні до помилок.

Оскільки OpenAI працює над удосконаленням технології, він не надасть доступ до DALL-E 3 широкому загалу до наступного місяця. Потім DALL-E 3 буде доступний через ChatGPT Plus, сервіс, який коштує 20 доларів на місяць.

Експерти попереджають, що технологія створення зображень може бути використана для поширення великої кількості дезінформації в Інтернеті. Щоб захиститися від цього за допомогою DALL-E 3, OpenAI інтегрував інструменти, розроблені для блокування проблемних тем, таких як зображення сексуального характеру та зображення публічних осіб. Компанія також намагається обмежити можливість DALL-E імітувати стилі певних виконавців.

В останні місяці штучний інтелект використовувався як джерело візуальної дезінформації. Особливо надумана та нехитра пародія на очевидний вибух у Пентагоні призвела до короткого падіння фондового ринку в травні, серед інших прикладів. Експерти з голосування також стурбовані потенціалом цієї технології Використовується зловмисно Під час великих виборів.

DALL-E 3 має тенденцію створювати зображення, які є більш стилізованими, ніж фотореалістичними, сказала Сандхіні Агарвал, дослідник OpenAI, який зосереджується на безпеці та політиці. Проте вона визнала, що модель можна попросити створити переконливі сцени, як-от зернисті зображення, зняті камерами безпеки.

READ Порт USB-C iPhone 15 має обмеження швидкості для несертифікованих кабелів

Здебільшого OpenAI не планує блокувати потенційно проблемний вміст, що надходить із DALL-E 3. Такий підхід є «дуже широким», оскільки зображення можуть бути нешкідливими або небезпечними залежно від контексту, у якому вони з’являються, сказала пані Агарвал. .

«Це дійсно залежить від того, де його використовують і як люди про це говорять», – сказала вона.

Philbert Page

“Загальний ніндзя в соціальних мережах. Інтроверт. Творець. Шанувальник телебачення. Підприємець, що отримує нагороди. Веб-ботанік. Сертифікований читач”