Що таке Claude 3 і що з ним можна робити?

Це безперервна гонка, і, схоже, Claude 3 від Anthropic міг просто вирватися вперед.
Anthropic оголосила про випуск Claude 3 — сімейства моделей штучного інтелекту, які можуть обігнати GPT-4. Він має видатний потенціал, але чи готовий він отримати корону ChatGPT?
Що таке Claude 3?
Claude 3 — це сімейство з трьох мультимодальних моделей штучного інтелекту, розроблених компанією Anthropic для заміни серії моделей штучного інтелекту Claude 2 . Можна сказати, що Claude 3 — це відповідь Anthropic на Gemini від Google і GPT-4 від OpenAI . Claude 3, випущений у трьох версіях: Haiku, Sonnet і Opus, у зростаючому порядку інтелекту, є першою мультимодальною моделлю штучного інтелекту від Anthropic і являє собою значний крок у порівнянні з серією Claude 2.
Claude і його основні моделі не користуються статусом суперзірки ChatGPT або привабливістю бренду Google Gemini. Однак Claude, безсумнівно, є одним із найдосконаліших чат-ботів зі штучним інтелектом у світі, перевершуючи розхвалений ChatGPT у кількох ключових сферах.
Щоб по-справжньому оцінити Claude 3, важливо озирнутися на невдачі попередніх моделей.
- Попередні ітерації Claude мали репутацію надмірно старанного підходу до безпеки ШІ. Функції безпеки Claude 2, наприклад, були настільки вузькими, що чат-бот уникав занадто багатьох тем, навіть тих, у яких немає чітких проблем безпеки.
- Також були проблеми з контекстним вікном моделі. Коли ви просите модель штучного інтелекту щось пояснити або, скажімо, підсумувати довгу статтю, уявіть, що вона може читати лише кілька абзаців статті за раз. Цей ліміт кількості тексту, який він може розглянути за раз, називається «контекстним вікном». Попередні версії Claude мали контекстне вікно розміром 200 тис. токенів (еквівалентно 150 000 слів). Однак модель не змогла практично впоратися з такою кількістю тексту за один раз, не забувши його частини.
- Було також питання мультимодальності. Майже всі основні моделі ШІ стали мультимодальними, що означає, що вони можуть обробляти інші форми даних, як-от зображення, і реагувати на ці дані (а не просто вводити текст). Claude не зміг цього зробити.
Усі три проблеми тепер повністю або принаймні частково вирішено з випуском Claude 3.
Що ви можете робити з Claude 3?

Як і більшість передових генеративних моделей ШІ, Claude 3 може генерувати першокласні відповіді на різноманітні запити в різних сферах. Незалежно від того, чи потрібно вам швидко розв’язати задачу з алгебри, написати абсолютно нову пісню, розгорнути детальну статтю, написати код для програмного забезпечення чи проаналізувати величезний набір даних, Claude 3 відповідає вимогам.
Але більшість моделей ШІ вже добре справляються з цими завданнями, тож навіщо використовувати Claude 3?
Відповідь проста; Claude 3 — це не просто ще одна модель штучного інтелекту, яка добре справляється з цими завданнями, це найдосконаліша вільнодоступна мультимодальна модель штучного інтелекту, яку можна отримати будь-де в Інтернеті. Так, є Gemini, розрекламований імовірний вбивця GPT-4 від Google, який показує вражаючі результати в порівняльних тестах. Однак Anthropic стверджує, що Claude 3 перевершує його із вражаючим відривом у кількох завданнях. Хоча результати порівняльного тесту часто слід сприймати з недовірою, я перевірив обидві моделі ШІ, і перевага моделі Claude 3 у кількох важливих випадках використання була дуже очевидною.
Таким чином, Claude 3 дозволяє вам робити більшість речей, які ви можете робити з Gemini та GPT-4 (мінус генерація зображень) без необхідності платити 20 доларів США за підписку на ChatGPT premium.
Claude 3 проти ChatGPT

Швидкий спосіб перевірити продуктивність моделі штучного інтелекту – це перевірити, наскільки вона відповідає найкращій моделі на ринку: GPT-4. Звичайно, ми випробували обидві моделі; наскільки добре Claude 3 від Anthropic протиставляється колосальному GPT-4?
Claude проти ChatGPT: навички кодування
Починаючи з низки програмних завдань, Claude 3 зрівнявся з GPT -4 у всіх представлених базових завданнях програмування та навіть перевершив його в деяких. Хоча ми тестували лише основи, попередня версія Claude була значно меншою у виконанні тих самих завдань.
З останньою версією Claude 3 створено кращу програму зі списком справ у всіх трьох перевірених нами екземплярах. Ось результат GPT-4, коли буде запропоновано створити програму зі списком справ.

А ось результат Claude 3, коли його попросили зробити те саме.

Обидва додатки певною мірою працювали, але очевидно, що Claude 3 впорався з цим краще.
Після спроб складніших тестів програмування Claude виявився кращою моделлю в кількох випадках, тоді як GPT-4 також мав свої перемоги. Хоча ми не можемо остаточно сказати, що Claude 3 кращий у програмуванні логіки, якби між двома моделями була величезна різниця, ця різниця майже напевно скоротилася б.
Claude проти ChatGPT: міркування здорового глузду
Ми перевірили обидві моделі на основі здорового глузду. Робота з чат-ботами ШІ — цікавий парадокс. Чат-боти штучного інтелекту легко справляються зі складними завданнями, але часто борються з базовими проблемами, які потребують здорового глузду чи логіки. Отже, ми поставили обом моделям низку, здавалося б, простих запитань, на які для правильної відповіді потрібен був здоровий глузд.
З п’яти таких питань обидві моделі дали логічну відповідь на всі п’ять. Ми поставили обом чат-ботам одне таке запитання: якщо космічний корабель із Марса розіб’ється надвоє, одна частина впаде в Атлантичний океан поблизу Бразилії, а інша – у Тихий океан біля Японії, де поховати тих, хто вижив?

ChatGPT відповів правильно навіть без GPT-4. Якщо вам цікаво, чому ви вибрали запитання, то історично чат-боти зазнавали жахливих поразок у такому вигляді запитань. Далі була черга Клода відповідати.

Відповідь Claude 3 не була точною відповіддю, але вона змогла визначити ключову інформацію; ви не ховаєте тих, хто вижив. Важливо зазначити, що минулого разу, коли ми ставили Claude 2 те саме запитання, він не зміг побачити крізь пастку здорового глузду.
Claude 3 проти ChatGPT: творче письмо
У реальному світі одним із найпопулярніших варіантів використання чат-ботів штучного інтелекту є створення креативного тексту в усіх формах: статті, листи, тексти пісень тощо. Отже, ми протестували обидві моделі, щоб визначити, яка створює кращий людський текст.
Ідея полягає в тому, що результати повинні бути не просто «правильними» або креативними (роботизованим способом), а звучати так, ніби їх написала людина. Ми доручили обом моделям скласти текст для реп-пісні про вирощування огірків і стати на них мільйонером. Хто пише реп про огірки? Це ідея — щось складне!
Ось думка ChatGPT:

І ось відповідь Клода, використовуючи ту саму підказку.

Це може бути суб’єктивно, але здається, що Claude тут кращий варіант.
Claude проти ChatGPT: здатність розпізнавати зображення
Щоб перевірити здатність розпізнавання зображень, ми надали ChatGPT і Claude кілька зображень популярних висотних будівель у всьому світі. ChatGPT правильно визначив усі 20 із них, тоді як Claude 3 не зміг ідентифікувати деякі, зокрема досить популярну Дубайську марину 101, Lotte World Tower у Сеулі та будівлю Merdeka 118 у Куала-Лумпурі, Малайзія.
На відміну від ChatGPT, Claude було важко ідентифікувати будівлі серед інших, і рівень невдач зростав, якщо будівля була не в США чи Китаї. Однак у нього не було проблем з ідентифікацією заплутаних версій Ейфелевої вежі чи Емпайр-Стейт-Білдінг.

ChatGPT явно кращий у цьому, але враховуючи, що Claude 3 є першою спробою Anthropic створити мультимодальну модель штучного інтелекту, це був непоганий вихід.
Хоча відомі моделі, такі як Gemini, завжди рекламувалися як потенційні вбивці GPT-4, ми постійно стверджували, що менш відомий Claude AI, ймовірно, отримає цю честь з моменту свого першого випуску в березні 2023 року. Після кількох місяців і кількох ітерацій вздовж лінії Claude 3 виглядає точно так, як ми очікували, що він буде вбивцею GPT-4. Якщо ви активно користуєтеся чат-ботом, але не пробували чат-бота Claude AI, ви втрачаєте надзвичайно впливовий інструмент штучного інтелекту, який може збільшити вашу продуктивність.
