
Разработчики GigaChat представили обновленную систему обработки речи, которая кардинально отличается от традиционных методов. Вместо использования последовательных модулей для преобразования речи в текст и последующей обработки, новая модель основана на технологии end-to-end, которая позволяет сразу преобразовывать голосовые данные в текст без промежуточных шагов.
При сравнительном тестировании на 1200 диалогах новая подход оказалась вдвое точнее предыдущих решений. По качеству диалогов она достигла уровня GPT-4 и способна успешно обрабатывать аудио длительностью до 170 минут, работая как на русском, так и на английском языке.
Пользователи уже могут воспользоваться новой функцией как через веб-интерфейс, так и в мессенджере Telegram, что делает её доступной для широкой аудитории.
Источник: @techgptnews