Чому AI генератори зображень борються з руками

курс по chatgpt
×

Оберіть AI

Генератори штучного інтелекту розвиваються на наших очах страшною швидкістю, але у них все ще є недоліки. Помічати дивні деталі на зображеннях штучного інтелекту насправді дуже смішно. Ось чому руки Midjourney стали гарячою темою, проблемою, поширеною в багатьох двигунах. Давайте розберемося, чому руки так сильно кидають виклик генераторам зображень ШІ. Їхні програмісти вже вирішили цю проблему, яка викликає меми, але цікаво подумати про те, як штучний інтелект навчається, не кажучи вже про те, що стає на його шляху.

Чому руки, створені штучним інтелектом, викликали фурор

Будь-хто, хто використовує механізми штучного інтелекту для створення зображень, міг помітити, що руки часто виходять неправильно. Це стало особливо помітно, коли в Twitter з’явилася велика кількість «фотографій» з ШІ.

При ближчому розгляді стало зрозуміло, що незвичні руки на цих зображеннях були результатом роботи ШІ. Інтерес до ситуації зріс, коли стало відомо, що це була спроба від Midjourney. Один із найкращих механізмів штучного інтелекту не зміг впоратися зі складністю людських рук, що поставило під питання можливості Midjourney та його конкурентів. Слід зазначити, що навіть DALL-E має проблеми з реалістичністю пальців і нігтів.

Ажіотаж був непропорційним, враховуючи, що проблеми зі зображеннями, створеними ШІ, завжди існували. Однак додаткова увага привела до випуску Midjourney v5.

У новій версії покращили дизайн рук, що свідчить про те, що інженери штучного інтелекту взяли до уваги цей веселий ажіотаж і вирішили оновити можливості програмного забезпечення. Інші інструменти також поступово наслідують приклад Midjourney. Головна проблема для програмістів полягає в тому, наскільки складно навчити штучний інтелект малювати переконливі руки.

Чому AI генератори зображень борються з руками?

Механізми ШІ використовують генеративні змагальні мережі (GAN) або стабільну дифузію для створення зображень. Обидві технології потребують великої кількості вихідних матеріалів, навчання та потужності обробки для створення навіть найпростіших творів мистецтва.

Оскільки вже існуючі зображення є ключовими для навчання ШІ, програмісти змушені додавати до свого програмного забезпечення тисячі, а то й мільйони зображень разом із підказками, повторюючи процес знову і знову, поки механізм не зрозуміє, як конкретне слово відноситься до певного об’єкта і як його представляти.

Однак вихідні зображення, на яких навчається ШІ, здебільшого 2D, де руки показані в різних положеннях — прямі, зігнуті, з п’ятьма чи трьома пальцями. Машина насправді не розуміє концепції рук, а зображення, на яких вона навчається, не завжди показують їх чітко чи послідовно. Це пояснює, чому руки, згенеровані Midjourney, можуть виглядати потворно: через плутанину ШІ.

Незважаючи на занепокоєння Ілона Маска щодо розвитку штучного інтелекту, деякі аспекти цієї технології ще потребують значного вдосконалення. І їхні труднощі виходять за межі недостатніх прикладів рук.

Інші причини, чому генератори зображень AI повільно вдосконалюються

Розглядаючи моделі Midjourney, версія v5 пропонує вдосконалену узгодженість між текстовими підказками та створеними зображеннями, а також вищу роздільну здатність і додаткові інструменти. Проте такі досягнення коштують недешево.

Навчання штучного інтелекту створювати кращі зображення рук вимагає надання якісніших вихідних матеріалів, особливо у 3D. Це означає, що багато часу та робочої сили витрачається на процеси, починаючи з отримання вихідних матеріалів і закінчуючи вдосконаленням кодування та повторним навчанням, доки ШІ не навчиться робити це правильно.

Навіть тоді програмне забезпечення може допускати помилки, навіть у вражаючих творах мистецтва. Крім того, ця складна робота є дорогою. Тому не варто очікувати, що безкоштовні генератори тексту в зображення на основі ШІ досягнуть рівня Midjourney найближчим часом.

Простіше кажучи, проблема механізмів штучного інтелекту полягає не лише в нездатності цих комп’ютерних програм повністю зрозуміти, як виглядають або працюють такі людські особливості, як руки та ноги. Це також стосується вартості та доступності технологій для отримання 3D-зображень і методів машинного навчання, які можуть допомогти генераторам досягти більш реалістичного уявлення про навколишній світ.

Проблеми вирішаться

Руки — це складна концепція для штучного інтелекту, яка викликає труднощі в розпізнаванні та відтворенні, але рішення для цієї проблеми вже розробляються. Midjourney, DALL-E 2 та інші платформи з часом зможуть мінімізувати кількість аномальних пальців, якщо не повністю їх викорінити.

Досягнення в інших сферах штучного інтелекту забезпечують постійний розвиток технологій, а розробники продовжують вивчати нові способи їх застосування та вдосконалення

Ai Workshop 2.0