Google DeepMind анонсувала нову версію своєї ШІ-моделі Genie 2, яка здатна перетворювати текстові описи на тривимірні інтерактивні ігрові оточення. Ця розробка розширює можливості першої версії, Genie, випущеної в лютому 2024 року, яка генерувала двомірні світи.



Genie 2 дає змогу користувачам створювати складні віртуальні простори, описуючи їх текстом. ШІ відповідає за рендеринг оточення, а взаємодія відбувається через дії, які виконує користувач, – чи то рух миші, чи то натискання клавіш. Генерація базується на алгоритмах моделі Imagen 3, яка синтезує візуальні елементи за текстовими підказками.
Друга версія отримала суттєві поліпшення:
- Тривимірна перспектива: підтримуються види від першої та третьої особи, а також ізометричні ракурси;
- Інтерактивні сцени: можливе моделювання взаємодій, включно з лопанням куль, відчиненням дверей і вибухами;
- Фізичні ефекти: з’явилися гравітація, відображення, динаміка води, диму та освітлення;
- Робота з NPC: додано анімацію персонажів і взаємодію з неігровими об’єктами;
- Пам’ять про елементи: ШІ запам’ятовує об’єкти поза полем зору користувача;
- Моделювання на основі фото: оточення тепер можуть бути створені з урахуванням реальних зображень.
Наразі Genie 2 здатна генерувати інтерактивні сцени тривалістю до однієї хвилини. Однак Google DeepMind підкреслює, що технологія перебуває на ранньому етапі розвитку. Для її поліпшення потрібні значні доопрацювання в галузі взаємодії агентів і створення складніших світів.
Компанія бачить у Genie 2 інструмент для безпечного тренування ШІ-агентів, а також платформу для створення унікальних цифрових середовищ, що може прискорити розробку ігор і тестування алгоритмів. Genie 2 – це крок уперед в інтеграції ШІ в розробку інтерактивних світів. Незважаючи на поточні обмеження, технологія демонструє потенціал для революції в ігровій індустрії та навчанні штучних інтелектів.

