Модель распознавания речи в открытом доступе

Центр искусственного интеллекта группы «Т-Технологии» выложил в открытый доступ модель распознавания речи T-one. При сравнительно небольшом размере в 70 млн параметров эта потоковая ASR-модель лидирует среди других открытых моделей по качеству распознавания на русском языке на шумных и сжатых записях из колл-центров – именно там, где бизнес теряет деньги из-за ошибок распознавания.

Возможности потоковой модели

Открытие доступа «Т-Технологиями» к качественной потоковой модели распознавания речи Т-one позволит ускорить развитие экосистемы речевых технологий в России.

Потоковое распознавание речи позволяет обрабатывать звонки в реальном времени, повышать скорость и качество обслуживания, а также снижать нагрузку на операторов и затраты на персонал. Модель изначально спроектирована для работы в реальном времени с аудиопотоком произвольной длины и обеспечивает низкую задержку, что критично для голосовых ассистентов, автоматизации колл-центров и аналитики звонков.

Резвый старт

Модель уже используется во внутренних продуктах «Т-Технологий», включая службу поддержки Т-Банка, мобильного секретаря в Т-Мобайле, в инструментах защиты от спам-звонков и др.

Общепринятых валидационных датасетов для телефонии на русском в открытом доступе с должным качеством разметки не существует, но по внутренним бенчмаркам* по качеству распознавания на русском в телефонии Т-one обгоняет большие открытые ASR-модели: GigaAM v2 на 242–243 млн параметров и Whisper Large-v3 на 1,5 млрд параметров.

Инструмент автоматизации и базис для экспериментов

Компактный размер T-one позволяет запускать модель без необходимости закупать дорогостоящее оборудование, что оптимизирует инфраструктурные затраты.
Теперь даже небольшие команды без мощной инфраструктуры могут использовать технологии крупного бизнеса для автоматизации колл-центров и аналитики звонков.

В открытый доступ на GitHub и Hugging Face выложены не только веса модели, но и код для запуска в высоконагруженной среде и адаптации под конкретные задачи. Исследователи и разработчики могут использовать модель как сильный и легковесный базис для экспериментов в области речевых технологий.

Инструмент позволяет быстро интегрировать решение в продукты. T-one распространяется по лицензии Apache 2.0, разрешающей свободное коммерческое использование и модификацию.

Источник: Группа «Т-Технологии»

 

 

Следите за нашими новостями в Телеграм-канале Connect


Поделиться:



Следите за нашими новостями в
Телеграм-канале Connect

Спецпроект

Цифровой девелопмент

Подробнее
Спецпроект

Машиностроительные предприятия инвестируют в ПО

Подробнее