
Центр искусственного интеллекта группы «Т-Технологии» выложил в открытый доступ модель распознавания речи T-one. При сравнительно небольшом размере в 70 млн параметров эта потоковая ASR-модель лидирует среди других открытых моделей по качеству распознавания на русском языке на шумных и сжатых записях из колл-центров – именно там, где бизнес теряет деньги из-за ошибок распознавания.
Возможности потоковой модели
Открытие доступа «Т-Технологиями» к качественной потоковой модели распознавания речи Т-one позволит ускорить развитие экосистемы речевых технологий в России.
Потоковое распознавание речи позволяет обрабатывать звонки в реальном времени, повышать скорость и качество обслуживания, а также снижать нагрузку на операторов и затраты на персонал. Модель изначально спроектирована для работы в реальном времени с аудиопотоком произвольной длины и обеспечивает низкую задержку, что критично для голосовых ассистентов, автоматизации колл-центров и аналитики звонков.
Резвый старт
Модель уже используется во внутренних продуктах «Т-Технологий», включая службу поддержки Т-Банка, мобильного секретаря в Т-Мобайле, в инструментах защиты от спам-звонков и др.
Общепринятых валидационных датасетов для телефонии на русском в открытом доступе с должным качеством разметки не существует, но по внутренним бенчмаркам* по качеству распознавания на русском в телефонии Т-one обгоняет большие открытые ASR-модели: GigaAM v2 на 242–243 млн параметров и Whisper Large-v3 на 1,5 млрд параметров.
Инструмент автоматизации и базис для экспериментов
Компактный размер T-one позволяет запускать модель без необходимости закупать дорогостоящее оборудование, что оптимизирует инфраструктурные затраты.
Теперь даже небольшие команды без мощной инфраструктуры могут использовать технологии крупного бизнеса для автоматизации колл-центров и аналитики звонков.
В открытый доступ на GitHub и Hugging Face выложены не только веса модели, но и код для запуска в высоконагруженной среде и адаптации под конкретные задачи. Исследователи и разработчики могут использовать модель как сильный и легковесный базис для экспериментов в области речевых технологий.
Инструмент позволяет быстро интегрировать решение в продукты. T-one распространяется по лицензии Apache 2.0, разрешающей свободное коммерческое использование и модификацию.
Источник: Группа «Т-Технологии»
- ВКонтакте
- Telegram