Google запустив ШІ-додаток для транскрипції надиктованого тексту з редагуванням – Экономика

Додаток зберігає історію сесій, дає змогу шукати в транскрипціях і показує статистику – швидкість мовлення та загальну кількість слів

Google тихо випустив безкоштовний додаток для диктування Google AI Edge Eloquent на iOS, який працює офлайн. Він здатен редагувати текст, прибираючи слова-паразити, пише TechCrunch.

Деталі

Новий застосунок працює за принципом offline-first – після завантаження моделей розпізнавання мовлення на базі Gemma користувач може диктувати текст без інтернету.
Під час диктування сервіс показує транскрипцію в реальному часі, а після паузи автоматично очищає її від «е-е», «мм» та інших вставних слів, формуючи більш структурований текст.
Користувачі можуть додатково трансформувати результат за допомогою режимів на кшталт «ключові тези», «формальний», «короткий» або «довгий».
У разі ввімкнення хмарного режиму додаток використовує моделі Gemini для покращення тексту, але цей режим можна повністю вимкнути для локальної обробки.
Eloquent дозволяє імпортувати терміни, імена та жаргон із Gmail, а також додавати власні слова. Додаток зберігає історію сесій, дає змогу шукати в транскрипціях і показує статистику – швидкість мовлення та загальну кількість слів.
У описі App Store Google зазначає, що сервіс орієнтований на перетворення природного мовлення у «готовий до використання професійний текст», на відміну від класичних диктофонів, які фіксують мовлення дослівно.
Попри те, що додаток наразі доступний лише на iOS, в описі згадувалася Android-версія з можливістю інтеграції як системної клавіатури та плаваючої кнопки для швидкого доступу. Згодом ці згадки компанія видалила, додавши натомість інформацію про майбутню клавіатуру для iOS.

Контекст

Попит на ШІ-сервіси для транскрипції швидко зростає разом із розвитком моделей розпізнавання мовлення. Google тестує новий продукт у сегменті, де вже працюють кілька спеціалізованих стартапів, які часто перевершують універсальні рішення за швидкістю, точністю в реальному часі чи додатковими можливостями (audio intelligence):

Otter.ai – один з найпопулярніших для зустрічей: автоматично приєднується до дзвінків, розпізнає спікерів, створює шукабельні нотатки.

Deepgram – фокус на низькій затримці (150–300 мс) та реальному часі, популярний серед розробників.

AssemblyAI – сильний у розумінні аудіо (summarization, sentiment analysis, entity detection), підходить для enterprise з HIPAA.

Rev.ai, Sonix, Fireflies.ai, Descript (з акцентом на редагування відео) та інші.

OpenAI Whisper (і його похідні) – відкрита модель, яка стала основою для багатьох сервісів завдяки високій точності (до 98%+ на чистому аудіо) та багатій мовній підтримці.

Глобальний ринок ШІ transcription у 2025 році становив $4,6 млрд, йдеться у звіті Fortune Business Insights. За прогнозами, обсяг ринку зросте з $5,6 млрд у 2026 році до $25,3 млрд до 2034 року, демонструючи середньорічний темп зростання (CAGR) на рівні 20,6% протягом прогнозованого періоду. У 2025 році Північна Америка домінувала на світовому ринку з часткою 32,3%.

Джерело