Stability анонсує Stable Diffusion 3, конструктор зображень зі штучним інтелектом нового покоління

Збільшувати / Стабільна дифузія 3-го покоління з вектором: студійний портрет хамелеона великим планом на чорному тлі.

Stability AI у четвер анонсувала Stable Diffusion 3, модель синтезу зображень нового покоління з відкритими вагами. Він слідує за своїми попередниками, створюючи детальні багатосюжетні зображення з покращеною якістю та точністю у створенні тексту. Короткий анонс не супроводжувався публічною демонстрацією, але стабільність супроводжувалася Відкрити лист очікування Сьогодні для тих, хто хоче спробувати.

Stable каже, що його сімейство моделей Stable Diffusion 3 (яке приймає текстові описи, які називаються «підказками», і перетворює їх на відповідні зображення) має розмір від 800 мільйонів до 8 мільярдів параметрів. Масштаб дозволяє локально запускати різні версії моделі на різноманітних пристроях — від смартфонів до серверів. Розмір параметра приблизно відповідає можливостям моделі з точки зору кількості деталей, які вона може створити. Більші моделі також вимагають більше відеопам’яті на графічних прискорювачах для роботи.

З 2022 року Stable запускає еволюцію моделей генерації зображень штучного інтелекту: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, а тепер і 3. Стабільність здобула собі ім’я як більш відкрита альтернатива власним моделям синтезу зображень, таким як DALL-E 3 від OpenAI, хоча це не без суперечок через використання захищеного авторським правом навчання даних. Упередженість і можливість зловживання. (Це призвело до невирішених судових позовів.) Стаціонарні дифузійні моделі були відкрито зваженими та з відкритим вихідним кодом, що означало, що моделі можна було запускати локально та налаштовувати для зміни своїх виходів.

Stable Diffusion 3 Generation with Claim: Епічний твір мистецтва чарівника на вершині гори вночі, який накладає космічне заклинання на темне небо зі словами «Stable Diffusion 3», створене з різнокольорової енергії.
Створене штучним інтелектом зображення бабусі у світшоті «Go big or go home», створене Stable Diffusion 3.
Стабільна дифузія третього покоління з підказкою: три прозорі скляні пляшки на дерев’яному столі. Ліворуч червона рідина і цифра 1. Посередині синя рідина і цифра 2. Праворуч зелена рідина і цифра 3.
Зображення, створене AI за допомогою Stable Diffusion 3.
Третє покоління Stable Diffusion із підказкою: кінь балансує на вершині кольорового м’яча в полі із зеленою травою та горою на задньому плані.
Розмноження натюрморту третього покоління з підказкою: примхливий натюрморт з асорті гарбузів.
Стабільна дифузія 3-го покоління з підказкою: малюнок астронавта верхи на свині в пачці з рожевою парасолькою, на землі біля свині зображений малинівка в циліндрі, а в кутку напис «Stable Diffusion».
Stable Diffusion 3-го покоління з претензією: на кухонному столі лежить вишита тканина з написом «На добраніч» і вишите тигреня. Поруч із полотном стоїть запалена свічка. Освітлення тьмяне і ефектне.
Stable Diffusion 3-го покоління з підказкою: зображення настільного комп’ютера 90-х років на робочому столі з написом «Привіт» на екрані комп’ютера. На фоні стіни ми бачимо гарне графіті з дуже великим текстом «SD3».

Щодо технічних удосконалень сказав генеральний директор Stability Імад Муштак книги На

READ Я бачив, як T-Mobile Verizon просив людей вимкнути 5G і думав: "Чому на цьому зупинятися"

Як сказав Mostaque, родина Stable використовує Diffusion 3 Будова дифузійних трансформаторівновий метод створення зображень за допомогою штучного інтелекту, який замінює звичайні будівельні блоки зображень (наприклад, Архітектура UNET) для системи, яка працює на невеликих фрагментах зображення. Цей метод натхненний трансформерами, які добре справляються з візерунками та послідовностями. Цей підхід не тільки підвищує ефективність, але й, як кажуть, створює зображення вищої якості.

Також використовується Stable Diffusion 3”Відповідність потоку“, техніка для створення моделей штучного інтелекту, які можуть створювати зображення, навчаючись переходу від випадкового шуму до гладко структурованого зображення. Це робиться без необхідності моделювати кожен крок процесу, а натомість зосереджується на загальному напрямку чи потоці, який Слід Створити зображення.

Порівнюючи результат між DALL-E 3 і Stable Diffusion 3 від OpenAI з маршрутизатором, "Нічне зображення спортивного автомобіля з текстом "SD3" Збоку автомобіль на великій швидкості їде по гоночному треку, на якому написано величезний дорожній знак — Збільшувати / Порівняння вихідних даних між OpenAI DALL-E 3 і Stable Diffusion 3 із заявою «Нічне зображення спортивного автомобіля з текстом «SD3» збоку, автомобіль на гоночній трасі на високій швидкості, величезний дорожній знак із текстом «Швидше» '.”

Ми не маємо доступу до Stable Diffusion 3 (SD3), але, судячи зі зразків, опублікованих на веб-сайті Stable і пов’язаних облікових записах у соціальних мережах, Generations на даний момент виглядають приблизно подібними до інших сучасних фотомонтажних моделей. Включаючи вищезгадані DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney і Google Imagen.

Здається, SD3 дуже добре справляється з генеруванням тексту в прикладах, наданих іншими, які, ймовірно, є вишневими. Генерація тексту була особливою слабкістю попередніх монтажів зображень, тому вдосконалення цієї можливості у довільній формі є великою справою. Крім того, точність швидкості (наскільки вона відповідає описам у підказках) здається подібною до DALL-E 3, але ми ще не перевіряли це на собі.

Хоча Stable Diffusion 3 не є широко доступним, Stability каже, що після завершення тестування її ваги можна буде безкоштовно завантажити та запустити локально. «Цей етап попереднього перегляду, як і з попередніми моделями, має вирішальне значення для збору ідей щодо покращення продуктивності та безпеки перед відкритим випуском», — пише Stability.

READ Apple M1 має непоправний, фактично нешкідливий недолік безпеки

Останнім часом стабільність експериментувала з різними архітектурами монтажу зображень. Крім SDXL і SDXL Turbo, компанія оголосила минулого тижня Стійкий каскадякий використовує триетапний процес для накладання тексту на зображення.

Зображення списку від Імад Муштак (ШІ для стабільності)

Philbert Page

“Загальний ніндзя в соціальних мережах. Інтроверт. Творець. Шанувальник телебачення. Підприємець, що отримує нагороди. Веб-ботанік. Сертифікований читач”