
Группа компаний ЦРТ показала выдающиеся результаты в тестировании голосовой биометрии в конкурсе NIST SRE21 (Speaker Recognition Evaluation). Это уже пятый конкурс, где технологии ЦРТ получают высокий балл от компетентного международного жюри. Особенность конкурса в этом году — два варианта обучения алгоритмов: вариант Fixed допускал использование только звуковых данных от организаторов. Вариант Open допускал использование любых данных. Сложность заключалась в том, что данные записывались как через телефон (обычные телефонные разговоры), так и в микрофонном канале (записи с видеокамер), а люди на записях разговаривали на различных языках: английском, китайском, арабском и других.
Речевые технологии ЦРТ
Научная команда ЦРТ для решения задачи распознавания человека одна из первых успешно применила комбинацию архитектур нейронных сетей типа transformer и wav2vec. Первая популярна в задачах компьютерного зрения и понимания естественного языка, а вторая — применяется в задачах распознавания речи. Такой комплексный подход позволил достичь низкого уровня ошибки верификации человека по голосу.
В текущем конкурсе программное обеспечение компании должно было решить две основные задачи: распознавание говорящего по аудио из телефонных звонков или звука из видео, причем использовать можно было только алгоритм распознавания человека по голосу; и распознавание говорящего по аудио и видео из разных источников: телефонных звонков, звука из видео и просто видео, что позволяло использовать комбинацию алгоритмов распознавания человека по голосу и по лицу.
«Качественное распознавание человека по голосу позволяет совершенствовать бизнес и государственные сервисы, упрощая нашу жизнь, — пояснил важность предлагаемых компанией технологий генеральный директор группы компаний ЦРТ Дмитрий Дырмовский. — Высококлассные речевые технологии помогают создавать лучших диалоговых ассистентов — оптимизируют работу контактных центров, офисов продаж и обслуживания. Речевая аналитика помогает делать выводы об удовлетворенности клиента и качестве диалога, а значит — непрерывно совершенствовать пользовательский опыт. И шире — идентификация людей по голосу востребована в биометрических системах национального масштаба. Признание ЦРТ в международных конкурсах — не только личная победа, но знаковое событие для всей индустрии. Мы рады выводить решение задач в области голосовой биометрии, над которыми работают сильнейшие команды со всего мира, на новый уровень, достойно представляя свои ключевые компетенции на глобальном рынке».
Конкурсы NIST
Команда группы ЦРТ принимает участие в еще одном конкурсе — NIST CTS Speaker Recognition Challenge — это продолжительный конкурс: соревнования длятся нон-стоп, периодически подводятся промежуточные результаты. В этом соревновании команда группы ЦРТ также демонстрирует высокие результаты. Основная задача CTS Challenge — распознать говорящего по записям в телефонном канале, при этом человек может говорить на разных языках — английском, французском, арабском, и с разных моделей смартфонов. В соревновании принимают участие 33 команды из ведущих университетов и коммерческих компаний. Однако пока конкурс не завершен подводить результаты рано.