Тепер ChatGPT може створювати зображення з текстом, який дійсно читається

курс по chatgpt
×

Оберіть AI

Нова модель OpenAI GPT-4o для ChatGPT нарешті виправляє одну з найбільших недоліків штучного інтелекту: текст на зображеннях, створених штучним інтелектом.

ChatGPT може виводити текст і, завдяки інтеграції DALL-E , виводити зображення, але попросіть платформу штучного інтелекту поєднати обидва, і результатом буде, як правило, нерозбірливий плутаний безлад. Однак це змінилося з переходом на ChatGPT GPT-4o або Omni. У той час як демонстрація OpenAI 13 травня була зосереджена на використанні наскрізних можливостей тексту, зображення та аудіо для ведення розмови в реальному часі, оновлення може надати ChatGPT ключові можливості графічного дизайну. Ранні демонстрації показують, що штучний інтелект не просто створює зображення з розбірливим, правильно написаним текстом, але використовує наявне зображення людини, щоб відтворити це обличчя на новому зображенні.

Підхід GPT-4o до тексту, зображення та аудіо

Все об’єднано в єдину модель

Ключова зміна, яка відбулася із запуском GPT-4o, полягає в можливості як вводити, так і генерувати будь-яке поєднання тексту, аудіо та зображень. Це тому, що OpenAI навчив нову наскрізну модель, яка працює з текстом, зображенням і аудіо. Раніше GPT-4 використовував окремі моделі для аудіо, тексту та зображень. Оскільки все об’єднано в єдину модель, OpenAI пояснює, що ChatGPT не втрачає інформацію між моделями, що відкриває низку нових можливостей.

Хоча пряма демонстрація 13 травня була зосереджена на тому, як ця єдина наскрізна модель дозволяє використовувати відео для вирішення завдань домашнього завдання або вести аудіорозмову в режимі реального часу, вона також допомагає виправити те, у чому модель ШІ, як відомо, погана: текст на зображенні. GPT-4 може намагатися розмістити текст, але це зазвичай призводить до орфографічних помилок, навіть якщо ви вкажете чат-боту, як саме це писати.

ChatGPT зміг створити зображення з розбірливим, правильно написаним текстом, взятим із підказки.

У кількох зразках майбутніх можливостей GPT-4o ШІ зміг розмістити текст на зображенні друкарської машинки, створити графіку з віршем і створити постер фільму. Під час демонстрації формулювання було передано штучному інтелекту, при цьому орфографічні помилки в згенерованому тексті не були чітко прописані. Але ChatGPT зміг створити зображення з розбірливим, правильно написаним текстом, взятим із підказки.

OpenAI

У згенерованих зображеннях можна використовувати справжні обличчя

Уявіть, що ви створюєте афішу фільму з обличчями акторів

Під час однієї демонстрації ChatGPT створив плакат фільму з обличчями акторів разом із правильно написаним текстом. Це стало можливим завдяки завантаженню фотографій акторів і написанню тексту для включення. Хоча деякі платформи штучного інтелекту можуть створити нову фотографію з обличчям реальної людини, ChatGPT раніше не міг створити фотографію, яка була б дуже схожа на оригінал.

ChatGPT створив постер фільму з обличчями акторів разом із правильно написаним текстом.

В іншій декомплектації чат-бот зміг розмістити логотип OpenAI на зображенні. Інший доручив боту створити конкретний вірш, де слово Omni з’явилося у формі логотипу OpenAI.

Згенеровані зображення в демонстраціях OpenAI не є досконалими — коли просять перенести одне зображення вірша з правильним написанням у темний режим, програмне забезпечення генерує деякі орфографічні помилки. Але демонстрація показує набагато більш розбірливий, розумний результат, ніж безглуздий спосіб, яким GPT-4 створює текст на зображеннях.

Нові можливості програмного забезпечення щодо обробки поєднання тексту, фотографій і мовлення також дозволяють відповідати на запитання про фотографію та витягувати текст із зображень.

Демонстрації показують, що ChatGPT може мати більше можливостей у графічному дизайні із запуском GPT-4o протягом наступних кількох тижнів. Однак ці можливості можуть мати певні наслідки. Один із найпростіших способів визначити, чи зображення створено штучним інтелектом, — це подивитися на вуличні знаки чи екрани ноутбуків, на яких перемішаний текст. Якщо штучний інтелект навчиться писати зображення, це стане однією функцією менше, щоб сигналізувати про автентичність зображення, що ширяє в Інтернеті.

Наскрізна модель інтеграції текстового бачення та аудіо також забезпечує високу швидкість, більше функцій без платної підписки та настільну програму для Mac . OpenAI каже, що GPT-4o буде випущено протягом наступних кількох тижнів.

Ai Workshop 2.0