GPT-5: 4 нові функції, які ми хочемо бачити

Ми не знаємо, коли буде запущено GPT-5, але це ті функції, які ми очікуємо побачити.
GPT-4 від OpenAI наразі є найкращим генеративним інструментом ШІ на ринку, але це не означає, що ми не дивимося в майбутнє. Оскільки генеральний директор OpenAI Сем Альтман регулярно натякає на GPT-5, схоже, що незабаром ми побачимо нову оновлену модель штучного інтелекту.
Принаймні, ми на це сподіваємося. Немає конкретної дати запуску для GPT-5, і більшість того, що ми думаємо, ми знаємо, отримано від об’єднання іншої інформації та спроб з’єднати точки.
Проте, незалежно від терміну виконання, є кілька ключових функцій, які ми хочемо побачити під час запуску GPT-5.
Що таке GPT-5 від OpenAI?
GPT-5 є довгоочікуваним наступником моделі OpenAI GPT-4 AI, яка, як очікується, стане найпотужнішою генеративною моделлю на ринку. Хоча наразі немає офіційної дати випуску GPT-5, є ознаки того, що він може бути випущений уже влітку 2024 року. На даний момент відомо дуже мало деталей про модель, але можна сказати кілька речей з деякою кількістю впевненість:
- OpenAI подала заявку на торговельну марку для цієї назви до Бюро патентів і торгових марок США .
- Кілька керівників OpenAI обговорювали або натякали на можливі можливості моделі.
- Генеральний директор OpenAI Сем Альтман неодноразово згадував модель під час інтерв’ю з Лексом Фрідманом на YouTube у березні 2024 року.
Усе це вказує на одну захоплюючу реальність: GPT-5 наближається! Тим не менш, на даний момент багато речей є спекуляціями. Але є кілька речей, які ми сподіваємося побачити і досить впевнені в тому, що побачимо в моделі. Ось деякі з них:
1. Більше мультимодальності

Одним із найцікавіших удосконалень сімейства моделей ШІ GPT стала мультимодальність. Для ясності, мультимодальність — це здатність моделі штучного інтелекту обробляти не лише текст, але й інші типи вхідних даних, наприклад зображення, аудіо та відео. Мультимодальність стане важливим орієнтиром розвитку сімейства моделей GPT.
Оскільки GPT-4 уже вправно обробляє вхідні та вихідні дані зображень, удосконалення обробки аудіо та відео є наступною віхою для OpenAI, і GPT-5 є хорошим місцем для початку. Google вже досягає серйозних успіхів у цьому різновиді мультимодальності зі своєю моделлю Gemini AI. Для OpenAI було б нехарактерно не відповідати. Але, звичайно, не вірте нам на слово. У своєму подкасті Unconfuse Me [розшифровка PDF] Білл Гейтс запитав генерального директора OpenAI Сема Альтмана, які віхи він передбачає для серії GPT у наступні два роки. Його перша відповідь? Обробка відео.
Отже, для GPT-5 ми очікуємо, що ми зможемо грати з відео — завантажувати відео як підказки, створювати відео на ходу, редагувати відео з текстовими підказками, витягувати сегменти з відео та знаходити певні сцени з великих відеофайлів. Ми очікуємо, що зможемо робити подібні речі з аудіофайлами. Це велике запитання, так. Але враховуючи те, наскільки швидким є розвиток ШІ, це цілком розумне очікування.
2. Більше та ефективніше контекстне вікно

Незважаючи на те, що це одна з найдосконаліших моделей ШІ на ринку, сімейство моделей ШІ GPT має одне з найменших контекстних вікон. Наприклад, Claude 3 від Anthropic може похвалитися контекстним вікном у 200 000 токенів , тоді як Gemini від Google може обробити приголомшливий 1 мільйон токенів (128 000 для стандартного використання). На відміну від цього, GPT-4 має відносно менше вікно контексту в 128 000 токенів, з приблизно 32 000 токенів або менше реально доступними для використання в таких інтерфейсах, як ChatGPT.
З появою вдосконаленої мультимодальності покращене контекстне вікно майже неминуче. Можливо, збільшення в два-чотири рази буде достатнім, але ми сподіваємося побачити щось на кшталт десятирічного. Це дозволить GPT-5 обробляти набагато більше інформації набагато ефективнішим способом. Більше контекстне вікно не завжди означає краще. Таким чином, замість того, щоб просто збільшити вікно контексту, ми хотіли б бачити підвищення ефективності обробки контексту.
Розумієте, модель може мати контекстне вікно в один мільйон токенів (об’єм близько 700 000 слів), але вона не може створити вичерпний підсумок, коли його запитують підсумувати книгу на 500 000 слів, оскільки вона не може адекватно обробити весь контекст, незважаючи на наявність здатність зробити це в теорії. Те, що ви можете прочитати книгу на 500 тисяч слів, не означає, що ви можете пригадати все, що в ній міститься, або розумно це опрацювати.
3. Агенти GPT

Можливо, однією з найцікавіших можливостей випуску GPT-5 є дебют агентів GPT. Незважаючи на те, що термін «що змінює правила» в штучному інтелекті, ймовірно, зловживали, агенти GPT справді змінили б правила в усіх практичних сенсах. Але наскільки це змінить гру?
Наразі такі моделі ШІ, як GPT-4, можуть допомогти вам виконати завдання. Вони можуть написати електронний лист, пожартувати, розв’язати математичну задачу або написати для вас чернетку публікації в блозі. Однак вони можуть виконувати лише це конкретне завдання і не можуть виконувати набір пов’язаних завдань, які необхідні для виконання вашої роботи.
Припустімо, ви веб-розробник. У рамках вашої роботи від вас очікується багато речей: дизайн, написання коду, усунення несправностей і багато іншого. Наразі ви можете одночасно делегувати лише частину цих завдань моделям ШІ. Можливо, ви можете попросити модель GPT-4 написати код для домашньої сторінки, потім попросити її зробити це для сторінки контактів, а потім для сторінки «Про програму» тощо. Вам потрібно буде виконати ці завдання послідовно. А є завдання, які моделі просто не можуть виконати.
Цей ітеративний процес підказки моделей AI для конкретних підзавдань займає багато часу та є неефективним. У цьому сценарії ви — веб-розробник — є агентом-людиною, відповідальним за координацію та підказку моделям штучного інтелекту по одному завданню, доки ви не виконаєте весь набір пов’язаних завдань.
Агенти GPT обіцяють спеціалізованих ботів-експертів, які координуються, сподіваємось, GPT-5, здатними самостійно вказувати та вирішувати всі підмножини складних завдань автономно. Наголос на «самопоказанні» та «автономному».
Отже, якщо GPT-5 постачається з GPT Agents, ви можете попросити його «створити веб-сайт портфоліо для Максвелла Тімоті», а не просто «написати мені код для домашньої сторінки». Тоді GPT-5 теоретично зможе самостійно запропонувати, викликавши експертних агентів ШІ для обробки різних підзавдань, необхідних для створення веб-сайту. Він може викликати один GPT, щоб отримати інформацію про Максвелла Тімоті в Інтернеті, іншого агента, щоб написати код для різних сторінок, іншого агента, щоб створити й оптимізувати зображення, і навіть іншого агента ШІ, щоб розгорнути сайт, і все це без необхідності повторного звернення до людини спонукання.
4. Менше галюцинацій
Хоча OpenAI пройшов довгий шлях у боротьбі з галюцинаціями у своїх моделях штучного інтелекту, справжнім лакмусовим папірцем для GPT-5 буде його здатність вирішувати постійну проблему галюцинацій, яка стримувала широке впровадження штучного інтелекту у високих ставках, важливих для безпеки сферах, як-от охорона здоров’я, авіація та кібербезпека. Усі ці сфери значно виграють від активного залучення штучного інтелекту, але наразі уникають будь-якого значного впровадження.
Для ясності, галюцинація в цьому контексті стосується ситуацій, коли модель штучного інтелекту генерує та подає правдоподібну, але повністю сфабриковану інформацію з високим ступенем достовірності.
Уявіть собі сценарій, коли GPT-4 інтегровано в діагностичну систему для аналізу симптомів пацієнтів і медичних звітів. Галюцинації можуть змусити ШІ впевнено поставити неправильний діагноз або порекомендувати потенційно небезпечний курс лікування на основі уявних фактів і хибної логіки. Наслідки такої помилки в медичній сфері можуть бути катастрофічними.
Подібні застереження стосуються інших важливих сфер, таких як авіація, ядерна енергетика, морські операції та кібербезпека. Ми не очікуємо, що GPT-5 повністю вирішить проблему галюцинацій, але очікуємо, що він значно зменшить можливість таких інцидентів.
Оскільки ми з нетерпінням чекаємо офіційного випуску цієї довгоочікуваної моделі штучного інтелекту, одне можна сказати напевно: GPT-5 має потенціал змінити межі того, що можливо за допомогою штучного інтелекту, започаткувавши нову еру співпраці людини та машини та інновацій.
