Flux.1 AI: Новий генератор зображень AI

курс по chatgpt
×

Оберіть AI

Flux.1 встановив новий стандарт у світі відкритих моделей зображень. Завдяки 12 мільярдам параметрів він перевершує таких гігантів, як Midjourney V6, DALL-E 3 від OpenAI та SD3 Ultra від Stability AI за якістю зображень та продуктивністю.

Команда, що стоїть за Flux.1, має захопливу історію. Це — оригінальні розробники технології стабільної дифузії та винахідники прихованої дифузії. Після виникнення внутрішніх проблем у Stability AI ключові члени цієї команди вирішили створити новий стартап під назвою Black Forest Labs.

Дифузія у контексті машинного навчання, зокрема у генеративних моделях, означає процес, що використовується для навчання моделей створювати зображення або інші дані. Ідея дифузії полягає в тому, щоб поступово додавати шум до даних (наприклад, до зображення) і навчити модель відновлювати оригінальні дані з цього шуму.

Ось як це працює в кількох кроках:

  1. Додавання шуму: Спочатку до зображення чи іншого набору даних додають трохи шуму. З кожною ітерацією додається все більше шуму, доки дані не перетворяться на майже випадковий шум.
  2. Навчання моделі: Модель навчається виконувати зворотний процес — відновлювати зображення з випадкового шуму, поступово зменшуючи його, поки знову не отримає вихідне зображення.
  3. Генерація нових зображень: Після навчання модель може почати з випадкового шуму і поступово зменшувати його, створюючи нове зображення, схоже на ті, що вона бачила під час навчання.

Таким чином, дифузія в генеративних моделях — це метод, який навчає модель створювати нові дані (зображення, тексти тощо) шляхом зворотного відновлення з випадкового шуму до впорядкованих даних.

Подібний “технічний відтік” часто призводить до інновацій. Коли талановиті фахівці обирають самостійний шлях, вони можуть реалізовувати нові сміливі ідеї без обмежень великих організацій.

Що таке Flux.1?

Flux.1 — це набір моделей перетворення тексту в зображення, які встановлюють новий стандарт мистецтва (SOTA) у деталізації зображення, швидкості обробки, різноманітності стилів та складності сцен для синтезу тексту в зображення.

Модель доступна в трьох варіантах:

  1. Flux.1 Pro — забезпечує найсучаснішу продуктивність у створенні зображень, включаючи першокласну швидкість обробки, високу візуальну якість, деталізацію зображень та різноманітність вихідних даних.
  2. Flux.1 Dev — це відкрита модель з наведенням, призначена для некомерційного використання. Створена на базі Flux.1 Pro, вона забезпечує аналогічну якість та швидкість обробки, але є більш ефективною, ніж типова модель такого ж розміру.
  3. Flux.1 Schnell — найшвидша модель, призначена для локальної розробки та особистого використання. Вона доступна за ліцензією Apache 2.0.

Усі моделі Flux.1, доступні для використання, поєднують мультимодальні та паралельні блоки дифузійних трансформаторів і мають 12 мільярдів параметрів. Ці моделі перевершують попередні завдяки використанню методу навчання генеративних моделей під назвою “відповідність потоку”, який є простим для розуміння та включає дифузію.

Крім того, моделі працюють краще та ефективніше використовують обладнання завдяки застосуванню поворотних позиційних вставок і паралельних рівнів уваги.

Краще, ніж Midjourney?

За словами дослідників, моделі Flux.1 Pro і Flux.1 Dev перевершують популярні моделі, такі як Midjourney v6.0, DALL-E 3 і Stable Diffusion 3 Ultra, у таких аспектах:

  • Візуальна якість — зображення виглядають чіткішими, деталізованішими та реалістичнішими.
  • Швидка злагодженість — швидше й точніше узгодження тексту із зображенням.
  • Варіативність розмірів і сторін — підтримка різних форматів і пропорцій зображень.
  • Типографіка — якісніше відтворення тексту та шрифтів у зображеннях.
  • Вихідна різноманітність — ширший діапазон стилів і варіантів зображень.

Але чи справді Flux.1 настільки ефективний? Давайте спробуємо розглянути це на конкретному прикладі, щоб перевірити ці твердження на практиці.

Підказка: портрет старого в окулярах, фото, 50 мм, f1.4, природне світло, Pathéchrome

Який з них виглядає найкраще?

Усі версії моделей Flux.1 підтримують різні співвідношення сторін та роздільну здатність від 0,1 до 2,0 мегапікселів. Це дозволяє створювати зображення різного формату та якості, відповідно до потреб користувача, як показано в наступному прикладі.

Приклади зображень

Ось кілька вражаючих прикладів зображень, створених за допомогою Flux.1 Pro. Зображення демонструють високу деталізацію, зокрема, можна побачити тонкі деталі, такі як текстура волосся, зморшки на обличчі, деталі пальців та кінцівок. Це показує здатність моделі відтворювати реалістичні зображення з великою точністю, що робить її однією з провідних у своїй галузі.

Якість зображення, створеного за допомогою Flux.1 Pro, дійсно можна порівняти з Midjourney. Ліве зображення демонструє надзвичайний рівень деталізації, особливо у відтворенні таких рис, як волосся, зморшки та пальці. Ці деталі додають зображенню реалістичності та глибини, підкреслюючи здатність Flux.1 Pro створювати високоякісні зображення з точністю, що відповідає найкращим моделям на ринку.

Підказка: робот, який тримає крейду, дивиться на дошку, на якій написано такий вірш на англійській мові: «У танці пікселів мистецтво штучного інтелекту підніметься, Трансформуючи бачення машинними очима, від мрій до екранів, відкриваються нові світи, пензель штучного інтелекту змінює наш візуальний світ».

Візуалізація тексту дійсно є одним із найскладніших завдань для моделей створення зображень за допомогою штучного інтелекту. Навіть у останній версії Midjourney v6.1 є певні труднощі з відтворенням тексту, особливо коли мова йде про довгі фрази або складні шрифти.

Однак, Flux.1 демонструє дуже хороші результати в цьому аспекті. Він здатний чітко й точно відтворювати текст навіть у довгих реченнях, що робить його сильним конкурентом у цій галузі.

Підказка: прекрасне аніме-ілюстрація, мила аніме-кішка, яка виглядає пригніченою, тримає над ротом аркуш паперу з намальованою на ньому посмішкою, вона збирається заплакати

Це справді виглядає неймовірно багатообіцяюче. М’які тони та сяючі відблиски надають зображенням професійного і відшліфованого вигляду, який може конкурувати з намальованими вручну творами мистецтва. Така висока якість виконання підкреслює потенціал моделей Flux.1 у створенні естетично привабливих і детально відтворених зображень.

Новий рівень фотореалізму

Деякі користувачі, які отримали доступ до Flux.1, відзначили, наскільки моторошно виглядають зображення людей, створені за допомогою ШІ. Ось кілька з найбільш реалістичних селфі-портретів, якими поділилися на X.

Експерименти з різними генераторами зображень ШІ доводять, що ці портрети є одними з найбільш реалістичних, створених ШІ.

Як отримати доступ до Flux.1

Для тих, хто хоче спробувати Flux.1, доступно кілька безкоштовних варіантів:

Ось приклад створення за допомогою Replicate.

Підказка: найбільший у світі торт із чорного лісу, розміром із будівлю, оточений деревами чорного лісу

Ось ще одна демонстрація Flux у Fal:

Підказка: надзвичайно крупний план одного тигрового ока, вид спереду. Деталізована райдужка та зіниця. Чітка увага до текстури та кольору очей. Природне освітлення для автентичного блиску та глибини очей. Слово «FLUX» нанесено на нього великими білими мазками з видимою текстурою.

І нарешті, ось приклад знімка екрана Flux у HuggingFace:

Підказка: зображення астронавта, який верхи на коні в космосі

Доступ через API

Flux.1 Pro також можна отримати через API тут. Зараз він у режимі попереднього перегляду; застосовуються деякі обмеження.

Облікові записи активуються лише для вибраних партнерів.

API нестабільний і може змінюватися.

Ось зразок коду Python:

pythonКопировать кодimport os
import requests

response = requests.post(
   'https://api.bfl.ml/v1/image',
   headers={
      'accept': 'application/json',
      'x-key': os.environ.get("BFL_API_KEY"),
      'Content-Type': 'application/json',
   },
   json={
      'prompt': 'Кіт на задніх лапах біжить, як людина, тримає руками велику срібну рибу, тікає від власника магазину і має панікуючий вигляд на переповненому ринку.',
      'width': 1024,
      'height': 1024,
   }
)

print(response.json())
response_data = response.json()
request_id = response_data["id"]

Зауважте, що надсилання запитів до /v1/image обмежено 12 активними завданнями. Якщо ви перевищите свій ліміт, він поверне код стану 429, і доведеться зачекати, поки завершиться одне з ваших попередніх завдань.

Перегляньте повний процес використання API для отримання детальної інформації.

Комерційне використання та ліцензування

Тепер деякі з вас можуть запитати, чи можна продавати чи поширювати зображення в комерційних цілях. Відповідь залежить від моделі, яку ви використовуєте.

Flux.1 Pro: Підтримується комерційне використання, але доступ до цієї моделі наразі обмежено партнерами через платформи, такі як Replicate і Fal.ai.

Flux.1 Dev: Використання зображень обмежено некомерційними цілями, тобто не дозволяється продавати чи поширювати зображення, створені цією моделлю, з комерційною метою.

Flux.1 Schnell: Відкрито доступний за ліцензією Apache 2.0, що забезпечує більшу гнучкість у використанні. Це означає, що ви можете використовувати Flux.1 Schnell як для особистих, так і для комерційних цілей за умови дотримання умов ліцензії Apache 2.0.

Отже, якщо ви хочете використовувати моделі Flux.1 у комерційних цілях, Flux.1 Pro та Flux.1 Schnell є найкращими варіантами. Flux.1 Pro забезпечує найвищу якість і доступний через конкретних партнерів, тоді як Flux.1 Schnell пропонує більш доступне рішення за ліцензією з відкритим кодом.айкращі варіанти. Flux.1 Pro забезпечує найвищу якість і доступний через конкретні партнери, тоді як Flux.1 Schnell пропонує більш доступне рішення за ліцензією з відкритим кодом.

Хоча відкритий характер моделей Flux захоплює, є практичне обмеження, яке слід враховувати. Запуск цих моделей локально разом із великою мовною моделлю (LLM) вимагає значної обчислювальної потужності — зазвичай графічного процесора A100 або кращого. З 12 мільярдами параметрів (24 ГБ на диску) і кодером тексту на 9 ГБ, Flux.1 перевершує можливості більшості споживчого обладнання.

Модель з відкритими вагами Schnell вже є дуже хорошою. Не сумніваюсь, що спільнота працюватиме над пошуком нових методів налаштування, навчання та розширення поетапної версії Apache 2.0. Радію можливості бачити, як з’являються дивовижні, добре налаштовані моделі, які створюють приголомшливі зображення.

Щоб отримати докладні статті про штучний інтелект, відвідайте наш блог, який ми створюємо з любов’ю до технологій, людей та їхніх потреб.

Ai Workshop 2.0