OpenAI оголосила про запуск нового сервісу Realtime API, що працює на основі моделі gpt-realtime, спеціально створеної для розробки сучасних голосових асистентів. Ключова відмінність цієї технології полягає у наскрізній обробці аудіо. Якщо традиційні системи спершу перетворюють мовлення в текст, а потім аналізують його й генерують відповідь, то gpt-realtime працює безпосередньо зі звуком. Це дає можливість суттєво скоротити затримку у діалозі та точніше передавати інтонації, емоції й нюанси живої мови.

Модель демонструє розширені здібності до розуміння контексту й виконання складних інструкцій. Голосовий асистент на її основі може без помилок продиктувати довгі числові послідовності, дослівно відтворити юридичні тексти чи плавно перемикатися між мовами навіть у межах одного речення. Крім того, система навчилася розпізнавати невербальні сигнали — сміх, паузи чи інтонаційні зсуви — і відповідно змінювати стиль розмови.

Ще однією особливістю стала підтримка роботи з візуальним контентом: користувач може надсилати знімки чи скріншоти, а асистент здатний аналізувати їх і коментувати. Крім цього, модель підтримує SIP-телефонію, що відкриває можливості інтеграції голосових агентів у корпоративні АТС або звичайні телефонні мережі.

Доступ до Realtime API відкрито для всіх розробників, проте у ChatGPT нова функція поки не інтегрована. Технологія прямого перетворення «мовлення в мовлення» дозволяє усунути головні проблеми сучасних голосових асистентів — повільну реакцію й механічне звучання, роблячи спілкування з ШІ по телефону чи в застосунках практично невідмінним від діалогу з живою людиною.

Ця новина прозвучала на тлі неоднозначного запуску ChatGPT-5 на початку серпня. Частина користувачів скаржилася на роботу сервісу, змусивши OpenAI тимчасово повернути доступ до попередньої моделі. Тим часом китайський стартап DeepSeek презентував оновлену модель DeepSeek-V3.1, яка, за словами розробників, працює у 2,5 раза швидше, підтримує контекст у 128 тисяч токенів і при цьому лишається безкоштовною.

На цьому фоні OpenAI, імовірно, зосередиться на подальшому вдосконаленні GPT-5 і розбудові власної екосистеми, щоб повернути довіру користувачів та посилити конкурентні позиції на глобальному ринку штучного інтелекту.

0
0
1
0
0
0
0

Залишити комментар