Що таке Sora від OpenAI? Інструмент перетворення тексту на відео та коли ви можете його використовувати

Відкрийте для себе Sora від OpenAI: революційний штучний інтелект для перетворення тексту у відео, який у 2024 році стане революцією в мультимодальному штучному інтелекті. Дослідіть його можливості, інновації та потенційний вплив.
OpenAI анонсувала свою останню новаторську технологію — Sora. Ця модель штучного інтелекту, що генерує текст у відео, наразі виглядає неймовірно вражаючою, відкриваючи величезний потенціал для багатьох галузей.
Що таке Sora?
Sora — це генеративна модель ШІ для перетворення тексту у відео OpenAI. Це означає, що ви пишете текстову підказку, і воно створює відео, яке відповідає опису підказки. Ось приклад із сайту OpenAI:
ПІДКАЗКА: стильна жінка йде вулицею Токіо, заповненою теплим сяючим неоном і анімованими міськими вивісками. Вона одягнена в чорну шкіряну куртку, довгу червону сукню та чорні чоботи, а також носить чорний гаманець. Вона носить сонцезахисні окуляри та червону помаду. Вона крокує впевнено і невимушено. Вулиця волога і відбивається, створюючи дзеркальний ефект різнокольорових вогнів. Ходить багато пішоходів.
Приклади OpenAI Sora
OpenAI і генеральний директор Сем Альтман були зайняті, щоб поділитися прикладами Sora в дії. Ми бачили низку різних стилів і прикладів, зокрема:
Приклади анімації Sora
ПІДКАЗКА: чудово відтворений паперовий світ коралового рифу, який рясніє різнокольоровими рибами та морськими істотами.
ПІДКАЗКА: в анімаційній сцені крупним планом показано маленьке пухнасте чудовисько, яке стоїть на колінах біля танучої червоної свічки. Художній стиль — 3D і реалістичний, з акцентом на освітленні та текстурі. Настрій картини – це подив і цікавість, оскільки чудовисько дивиться на полум’я широко розплющеними очима та відкритим ротом. Його поза та вираз обличчя передають відчуття невинності та грайливості, наче він вперше досліджує світ навколо себе. Використання теплих кольорів і ефектного освітлення ще більше посилює затишну атмосферу зображення.
Приклади міського пейзажу Sora
ПІДКАЗКА: Гарне засніжене місто Токіо вирує. Камера рухається гамірною міською вулицею, слідкуючи за кількома людьми, які насолоджуються прекрасною сніжною погодою та роблять покупки в найближчих кіосках. Розкішні пелюстки сакури розлітаються крізь вітер разом зі сніжинками.
Приклади тварин Sora
ПІДКАЗКА: два золотисті ретривери підкастують на вершині гори.
Як працює Sora?
Подібно до моделей штучного інтелекту для створення тексту в зображення, таких як DALL·E 3 , StableDiffusion і Midjourney , Sora є дифузійною моделлю. Це означає, що він починається з кожного кадру відео, що складається зі статичного шуму, і використовує машинне навчання для поступового перетворення зображень у щось схоже на опис у підказці. Відео Sora може тривати до 60 секунд.
Розв’язування часової узгодженості
Одна з інновацій у Sora полягає в тому, що вона враховує декілька відеокадрів одночасно, що вирішує проблему збереження узгодженості об’єктів, коли вони переміщуються та виходять із поля зору. У наступному відео зверніть увагу, що рука кенгуру кілька разів висувається з кадру, а коли повертається, виглядає так само, як і раніше.
Поєднання дифузійних і трансформаторних моделей
Поєднуючи ці два типи моделей, Джек Цяо зазначив , що «моделі дифузії чудово створюють текстуру низького рівня, але погано підходять для глобальної композиції, тоді як трансформатори мають протилежну проблему». Тобто вам потрібна модель трансформатора, подібна до GPT, щоб визначати компонування відеокадрів високого рівня, а модель дифузії – для створення деталей.
У технічній статті про впровадження Sora OpenAI надає опис високого рівня того, як працює ця комбінація. У дифузійних моделях зображення розбиваються на менші прямокутні «патчі». Для відео ці патчі є тривимірними, оскільки вони зберігаються протягом часу. Патчі можна розглядати як еквівалент «токенів» у великих мовних моделях: замість того, щоб бути компонентом речення, вони є компонентом набору зображень. Трансформуюча частина моделі організовує патчі, а дифузійна частина моделі генерує вміст для кожного патча.
Ще одна особливість цієї гібридної архітектури полягає в тому, що для створення обчислювальних можливостей генерації відео в процесі створення патчів використовується крок зменшення розмірності , тому обчислення не потрібно проводити для кожного окремого пікселя для кожного окремого кадру.
Підвищення точності відео за допомогою повторного запису
Щоб достовірно передати суть підказки користувача, Sora використовує техніку повторного копіювання , яка також доступна в DALL·E 3. Це означає, що перед створенням будь-якого відео GPT використовується для перезапису підказки користувача, щоб включити набагато більше деталей. По суті, це форма автоматичної оперативної розробки.
Наскільки хороший OpenAI Sora?
Як ви бачите з наведених прикладів, Sora здається вражаючим інструментом, і ми лише коснемося поверхні того, що можливо. Наприклад, подивіться наведений нижче кліп, який пропонує зразок того, що можливо під час роботи з режисерами та художниками:
Цей короткометражний фільм нагадує справжній трейлер фільму з різними кадрами, ракурсами та концепціями, що створює досить бездоганне відео.
Однак є деякі застереження щодо цього створення:
- Режисер згенерував 6 годин кліпів для 4-хвилинного відео (використовуючи 46 годин рендерингу на графічному процесорі H100)
- Приклад підказки містить близько 1400 слів, що є досить детальним і конкретним
- Режисеру все одно довелося використати післяефекти та виправити деякі переходи (які місцями все ще здаються неприродними)
Тож, безумовно, здається, що ми споживацький спосіб використання цього інструменту, але, враховуючи короткий період, протягом якого Sora була доступна для випробування художниками та творчими людьми, прогрес досить вражаючий.
Які обмеження Sora?
OpenAI відзначає кілька обмежень поточної версії Sora. Sora не має неявного розуміння фізики, тому фізичних правил «реального світу» не завжди можна дотримуватися.
Одним із прикладів цього є те, що модель не розуміє причини та наслідку. Наприклад, на наступному відео вибуху на баскетбольному кільці після того, як кільце вибухне, сітка ніби відновлюється.
Питання без відповіді щодо надійності
Надійність Sora наразі незрозуміла. Усі приклади з OpenAI дуже високої якості, але незрозуміло, наскільки багато вибору було задіяно. Під час використання інструментів перетворення тексту в зображення зазвичай створюють десять або двадцять зображень, а потім вибирають найкраще. Незрозуміло, скільки зображень створила команда OpenAI, щоб отримати відео, показані в їхній статті оголошення. Якщо вам потрібно згенерувати сотні чи тисячі відео, щоб отримати одне придатне для використання відео, це буде перешкодою для впровадження. Щоб відповісти на це питання, ми повинні дочекатися, поки інструмент стане широко доступним.
Які варіанти використання Sora?
Sora можна використовувати для створення відео з нуля або розширення наявних відео, щоб зробити їх довшими. Він також може заповнити відсутні кадри з відео.
Подібно до того, як інструменти ШІ для створення тексту в зображення значно полегшили створення зображень без технічного досвіду редагування зображень, Sora обіцяє полегшити створення відео без досвіду редагування зображень. Ось кілька ключових випадків використання.
Соц.медіа
Sora можна використовувати для створення коротких відео для платформ соціальних мереж, таких як TikTok, Instagram Reels і YouTube Shorts. Контент, який важко або неможливо зняти, особливо підходить.
Реклама та маркетинг
Створення реклами, рекламних роликів і демонстрацій продуктів традиційно дороге. Такі інструменти штучного інтелекту, як Sora, обіцяють зробити цей процес набагато дешевшим.
Прототипування та візуалізація концепції
Навіть якщо відео ШІ не використовується в кінцевому продукті, воно може бути корисним для швидкої демонстрації ідей. Режисери можуть використовувати штучний інтелект для макетів сцен, перш ніж знімати їх, а дизайнери можуть створювати відео продуктів, перш ніж створювати їх.
Генерація синтетичних даних
Синтетичні дані часто використовуються в тих випадках, коли конфіденційність або здійсненність перешкоджають використанню реальних даних. Для числових даних загальні випадки використання стосуються фінансових даних та інформації, що дозволяє ідентифікувати особу. Доступ до цих наборів даних має суворо контролюватися, але ви можете створювати синтетичні дані з подібними властивостями, щоб зробити їх загальнодоступними.
Синтетичні відеодані використовують для навчання систем комп’ютерного зору. Такі інструменти, як Sora, роблять цей процес набагато дешевшим і доступнішим для широкої аудиторії.
Які ризики Sora?
Продукт є новим, тому ризики ще не повністю описані, але вони, ймовірно, будуть подібні до ризиків моделей тексту в зображення.
Генерація шкідливого контенту
Без захисних огорож Sora має право створювати неприйнятний або неприйнятний вміст.
Те, що вважається неприйнятним вмістом, значною мірою залежить від користувача і контексту створення відео.
Дезінформація
На основі прикладів відео, наданих OpenAI, однією з сильних сторін Sora є її здатність створювати фантастичні сцени, які не можуть існувати в реальному житті. Ця перевага також дає змогу створювати відео «deepfake», де реальні люди чи ситуації змінюються на щось неправдиве.
Коли цей вміст подається як правда, випадково або навмисно (дезінформація), це може спричинити проблеми.
Упередження та стереотипи
Вихід генеративних моделей штучного інтелекту сильно залежить від даних, на яких їх було навчено. Це означає, що культурні упередження або стереотипи в навчальних даних можуть призвести до тих самих проблем у кінцевих відео. Упередженість зображень може мати серйозні наслідки при прийомі на роботу та поліцейській діяльності.
Як отримати доступ до Sora?
Наразі Sora доступна лише дослідникам «червоної команди». Тобто експерти, яким дається завдання спробувати виявити проблеми з моделлю. Наприклад, вони спробують створити вміст із деякими ризиками, визначеними в попередньому розділі, щоб OpenAI міг пом’якшити проблеми, перш ніж оприлюднити Sora для громадськості.
Команда OpenAI також заявляє, що вони надають доступ до «ряду візуальних художників, дизайнерів і кінематографістів», просячи їх залишити відгуки про модель і те, як вона може бути корисною для творчих професіоналів.
OpenAI ще не вказав дату публічного випуску Sora, хоча це, ймовірно, буде десь у 2024 році. Однак компанія підкреслює, що вони «вживають кількох важливих заходів безпеки», щоб вирішити проблеми та визначити позитивні варіанти використання. Вони співпрацюють із політиками, викладачами та митцями, щоб переконатися, що технологія є максимально безпечною та корисною, що може зайняти деякий час.
Які є альтернативи Sora?
Існує кілька відомих альтернатив Sora, які дозволяють користувачам створювати відеовміст із тексту. До них належать: 6 альтернатив OpenAI Sora, які ви можете спробувати безкоштовно
