Исследователи Яндекса опубликовали научную статью с подробным описанием нейросетевой технологии, которая позволяет распознавать голосовые команды даже на фоне шума. Это решение уже применяется в устройствах Яндекса, а теперь его смогут воспроизвести разработчики со всего мира. Статью приняли на крупнейшую международную конференцию по речевым технологиям Interspeech 2025, которая пройдёт в этом году в Нидерландах. На конференции будут представлены также работы Microsoft, Google DeepMind, Google AR и других технологических компаний и научных центров.
Технология, описанная в научной работе, применяется в умных колонках и ТВ Станциях Яндекса и доказала свою эффективность на практике. Благодаря ей устройства с Алисой улавливают команды на фоне самых разных шумов: звуков музыки, льющейся воды, вечеринки или стройки за окном. Например, пользователю не нужно выключать пылесос или перекрикивать песню, чтобы быть услышанным. Эта разработка позволит компаниям ускорить создание собственных ассистентов и устройств с голосовым управлением, а также снизить число ложных срабатываний. В свою очередь, пользователи получат продукты с удобным голосовым управлением.
Обычно в умных устройствах и ассистентах используют алгоритмы эхоподавления, которые помогают распознать голос на фоне музыки. Уменьшить другие фоновые звуки помогают алгоритмы шумоподавления, но они ухудшают и человеческую речь. Для решения этой проблемы Яндекс разработал нейросетевой attention-механизм, который получает на вход сразу два сигнала — с шумоподавлением и эхоподавлением. В каждый момент времени нейросеть выбирает наиболее четкий сигнал, что и позволяет распознавать команды на фоне самых разных звуков.
Дмитрий Солодуха, руководитель направления голосовой активации Яндекса:
«До сих пор не существовало единого подхода к распознаванию голоса в шумной среде, который был бы одинаково надежен в лабораторных тестах и в реальных условиях. Многие компании и исследователи сталкиваются с похожими проблемами, но не имеют доступа к промышленным решениям и вынуждены тратить ресурсы на их разработку с нуля. Надеемся, что публикация нашего метода ускорит прогресс в области голосовых интерфейсов, поможет избежать типичных ошибок и приведёт к появлению большего количества удобных и надежных голосовых устройств».