Stability AI у четвер анонсувала Stable Diffusion 3, модель синтезу зображень нового покоління з відкритими вагами. Він слідує за своїми попередниками, створюючи детальні багатосюжетні зображення з покращеною якістю та точністю у створенні тексту. Короткий анонс не супроводжувався публічною демонстрацією, але стабільність супроводжувалася Відкрити лист очікування Сьогодні для тих, хто хоче спробувати.
Stable каже, що його сімейство моделей Stable Diffusion 3 (яке приймає текстові описи, які називаються «підказками», і перетворює їх на відповідні зображення) має розмір від 800 мільйонів до 8 мільярдів параметрів. Масштаб дозволяє локально запускати різні версії моделі на різноманітних пристроях — від смартфонів до серверів. Розмір параметра приблизно відповідає можливостям моделі з точки зору кількості деталей, які вона може створити. Більші моделі також вимагають більше відеопам’яті на графічних прискорювачах для роботи.
З 2022 року Stable запускає еволюцію моделей генерації зображень штучного інтелекту: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, а тепер і 3. Стабільність здобула собі ім’я як більш відкрита альтернатива власним моделям синтезу зображень, таким як DALL-E 3 від OpenAI, хоча це не без суперечок через використання захищеного авторським правом навчання даних. Упередженість і можливість зловживання. (Це призвело до невирішених судових позовів.) Стаціонарні дифузійні моделі були відкрито зваженими та з відкритим вихідним кодом, що означало, що моделі можна було запускати локально та налаштовувати для зміни своїх виходів.
Щодо технічних удосконалень сказав генеральний директор Stability Імад Муштак книги На
Як сказав Mostaque, родина Stable використовує Diffusion 3 Будова дифузійних трансформаторівновий метод створення зображень за допомогою штучного інтелекту, який замінює звичайні будівельні блоки зображень (наприклад, Архітектура UNET) для системи, яка працює на невеликих фрагментах зображення. Цей метод натхненний трансформерами, які добре справляються з візерунками та послідовностями. Цей підхід не тільки підвищує ефективність, але й, як кажуть, створює зображення вищої якості.
Також використовується Stable Diffusion 3”Відповідність потоку“, техніка для створення моделей штучного інтелекту, які можуть створювати зображення, навчаючись переходу від випадкового шуму до гладко структурованого зображення. Це робиться без необхідності моделювати кожен крок процесу, а натомість зосереджується на загальному напрямку чи потоці, який Слід Створити зображення.
Ми не маємо доступу до Stable Diffusion 3 (SD3), але, судячи зі зразків, опублікованих на веб-сайті Stable і пов’язаних облікових записах у соціальних мережах, Generations на даний момент виглядають приблизно подібними до інших сучасних фотомонтажних моделей. Включаючи вищезгадані DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney і Google Imagen.
Здається, SD3 дуже добре справляється з генеруванням тексту в прикладах, наданих іншими, які, ймовірно, є вишневими. Генерація тексту була особливою слабкістю попередніх монтажів зображень, тому вдосконалення цієї можливості у довільній формі є великою справою. Крім того, точність швидкості (наскільки вона відповідає описам у підказках) здається подібною до DALL-E 3, але ми ще не перевіряли це на собі.
Хоча Stable Diffusion 3 не є широко доступним, Stability каже, що після завершення тестування її ваги можна буде безкоштовно завантажити та запустити локально. «Цей етап попереднього перегляду, як і з попередніми моделями, має вирішальне значення для збору ідей щодо покращення продуктивності та безпеки перед відкритим випуском», — пише Stability.
Останнім часом стабільність експериментувала з різними архітектурами монтажу зображень. Крім SDXL і SDXL Turbo, компанія оголосила минулого тижня Стійкий каскадякий використовує триетапний процес для накладання тексту на зображення.
Зображення списку від Імад Муштак (ШІ для стабільності)
“Загальний ніндзя в соціальних мережах. Інтроверт. Творець. Шанувальник телебачення. Підприємець, що отримує нагороди. Веб-ботанік. Сертифікований читач”