Речевой движок 3i ASR стал лучше «разбираться» в звуках
Компания 3iTech усовершенствовала акустическую модель движка распознавания речи 3i ASR. Это позволило на 20% снизить вероятность возникновения ошибки при распознавании речи, и за счет этого повысить качество решения бизнес-задач.
Акустическая модель используется в системах распознавания речи для преобразования речевого сигнала в гипотезы букв, которые затем выстраиваются в связный текст при помощи языковой модели. От качества получаемых текстов зависит точность и корректность решения бизнес-задач. Обновление акустической модели речевого движка 3i ASR, позволило на 20% снизить вероятность ошибки (WER, WordError Rate) на тестовых выборках, охватывающих широкий круг акустических условий, в том числе сложных. Для этого была проведена модификация архитектуры нейронной сети, которая позволила не только повысить точность, но и существенно сократить число обучаемых параметров. Кроме того, был запущен процесс перехода к непрерывному циклу самообучения моделей.
Речевой движок 3i ASR применяется в системе речевой аналитики 3i Touch Point Analytics и в платформе 3i VOX, которые используются для решения различных бизнес-задач: от построения enterprise систем речевой аналитики до интеллектуальных разговорных ботов. Разработки компания 3iTech применяются для контроля качества обслуживания и выявления лучших практик продаж в банках, ритейле, и контакт-центрах крупных девелоперов.
«По качеству распознавания речи наши продукты входят в число лучших на российском рынке. В своих разработках мы используем передовые технологии машинного обучения. Наши специалисты регулярно обучают акустическую и языковую модели. Изменение структуры акустической модели не только заметно повысило точность обработки голосовых данных, но и открыло возможности для перехода к ее самообучению. То есть в будущем наши системы смогут совершенствоваться автоматически», – говорит Алексей Любимов, основатель и генеральный директор компании 3iTech.