Искусственный интеллект в продуктах отечественных разработчиков

Дмитрий Малков, ведущий программист лаборатории бизнес-решений на основе ИИ МФТИ
Дмитрий Малков, ведущий программист лаборатории бизнес-решений на основе ИИ МФТИ

Технологии искусственного интеллекта (ИИ) успешно применяются во многих сферах цифровой экономики и общественной жизни: банках, телекоме, промышленности, ритейле, логистике, медицине. Искусственный интеллект постепенно берет на себя простые функции, оставляя людям выполнение сложных операций. В России существуют все предпосылки для международного лидерства в области искусственного интеллекта. Решения от отечественных разработчиков набирают популярность, а скорость создания новых продуктов растет в геометрической прогрессии. Успешные проекты в области ИИ чаще всего являются комбинацией науки, бизнеса и маркетинга. В статье рассмотрены два крупных класса технологий – разговорного ИИ и компьютерного зрения, выделены основные отечественные поставщики и проведено сравнение предлагаемых ими разработок.

А поговорить?..

Чат-боты и технологии обработки естественного языка (Natural Language Processing – NLP) стали довольно горячей темой за последние несколько лет. Интерес бизнеса к персонифицированным виртуальным помощникам растет – клиенты все чаще ожидают от компаний быстрого, даже мгновенного ответа на свои вопросы. Стремясь удовлетворить резко возросший спрос, компании-разработчики одна за другой выводят на рынок чат-боты самых разных категорий.

Как устроен чат-бот

Чат-бот – это компьютерная программа, которая умеет распознавать текст, написанный на естественном языке, либо человеческий голос и реагировать адекватным образом: отвечая или выполняя определенное действие (например, оформление заказа еды или включение света в доме).

Рис. 1. Общая схема чат-бота

Общая схема устройства чат-бота показана на рис. 1. Каналом связи могут быть мессенджер, автоматическая телефонная станция, приложение Service Desk или любая другая информационная система.

Задача модуля распознавания текста (Natural Language Understanding модуля) определение намерения пользователя и распознавание его ответов на уточняющие вопросы бота.

Диалоговый менеджер ответствен за хранение и обновление состояния чат-бота. Он сохраняет контекст разговора и формирует реакцию бота для каждой новой фразы пользователя.

Модуль генерации текста (Natural Language Generation – NLG) формирует финальный ответ бота. В простейшем и наиболее распространенном случае ответ выбирается из заготовок либо немного кастомизируется (например, в нужное место вставляется имя пользователя). Существуют более экзотические методы, например, когда ответ генерируется посимвольно с нуля нейронной сетью на основе состояния чат-бота. Однако такие способы не получили широкого распространения, поскольку в подобном случае бот может выдавать неожиданные ответы.

Инструменты администрирования позволяют настраивать ответы бота и отслеживать статистику его использования. Наконец, внешние интеграции дают возможность чат-боту получать данные из внешних информационных систем и вызывать команды сторонних сервисов.

Классификация чат-ботов

По назначению

FAQ-боты – простейший тип чат-ботов, который содержит пары «вопрос – ответ» и выдает нужный ответ при распознавании вопроса. Такие боты не требуют дополнительных интеграций с другими системами и, как правило, не учитывают контекст диалога.

Задача целеориентированных (Goal-oriented) ботов – распознать, что нужно пользователю, собрать необходимую для этого информацию и выполнить действие. Например, в случае доставки еды бот должен заполнить определенную форму: что, откуда и куда доставить. Он должен задавать уточняющие вопросы, если каких-то из этих данных не хватает, а затем направить запрос в службу доставки.

Виртуальные ассистенты операторов контактных-центров могут перенаправить разговор на оператора, если возникли трудности, и затем давать оператору подсказки на основе предыдущей истории диалогов или при помощи поиска по базе знаний.

Наконец, «болталки» (chit-chat) боты способны поддержать беседу на произвольные темы. Как правило, они обучаются на больших диалоговых корпусах, могут давать неожиданные ответы и используются для развлечения.

По политике ведения диалога

В ролевых (Rule-based) ботах сценарии ведения диалога прописаны жестко. После распознавания намерения пользователя запускается заранее определенный сценарий, состоящий из последовательности уточняющих вопросов бота и вариантов ответов на них пользователя.

Подобный вариант прост, но имеет ряд минусов: плохо работает, когда уточняющих вопросов много или пользователь часто меняет контекст разговора. Подобные проблемы решаются в ботах с адаптивными стратегиями ведения разговора. Эти боты определяют конечную цель обращения пользователя и затем подбирают следующую фразу так, чтобы быстрее достичь нужного результата.

По технологиям распознавания речи

Старейший, но до сих пор широко используемый подход к распознаванию намерений пользователя, – простой поиск по ключевым словам и сочетаниям символов (pattern matching). Например, если в тексте упоминаются последовательности символов «заказ» и «пицца», то, вероятно, пользователь хочет заказать пиццу.

Более современным является подход на основе классического машинного обучения. В этом случае не нужно писать паттерны, достаточно привести примеры формулировок запросов, относящихся к одной теме, например: «Хочу заказать пиццу», «Привезите пиццу Маргариту» и т. д.

Последнее поколение чат-ботов основано на глубоких нейронных сетях. Они могут быть обучены на больших корпусах текстов (например, текстах Википедии) и затем использовать полученные знания о языке на новых задачах. Это позволяет радикально сократить количество обучающих примеров, так как бот владеет априорной информацией о том, что, например, фразы «Хочу заказать пиццу» и «Привезите пиццу Маргариту» имеют близкую семантику. Однако глубокие нейронные сети пока не являются панацеей: дело в том, что для высоких результатов они должны быть предобучены на огромных объемах данных по тематике, близкой к теме чат-бота. Это не всегда возможно, например для банковских ботов, так как их данные являются закрытыми.

Обзор российского рынка чат-ботов

Объем российского рынка чат-ботов – около 1 млрд руб., что составляет примерно 1% мирового рынка, емкость которого порядка 2 млрд долл. По разным оценкам, через год размер российской индустрии ботов должен увеличиться вдвое и продолжить эту динамику в следующие четыре-пять лет.

Основные сферы применения чат-ботов – контактные центры, внутренняя техподдержка в крупных организациях, службы заказов еды и транспорта, всевозможные «умные» устройства. При этом на контактные центры приходится львиная доля рынка чат-ботов: по исследованию Everest Group, мировые расходы на контакт-центры составляют более 300 млрд долл. в год (это в несколько раз превышает объем индустрии кино!). Чат-боты позволяют сократить эти издержки, отвечая пользователям на частые вопросы самостоятельно либо давая подсказки операторам.

На российском рынке отечественные чат-боты имеют более сильные позиции, чем решения от мировых лидеров – IBM Watson, Google и Microsoft. Отчасти это связано с тем, что они дешевле и лучше работают с русским языком. Рассмотрим десять решений российской разработки.

ЦРТ (основана в 1990 г.) – одна из старейших компаний в России в области речевых технологий. Система разрабатывает комплексные решения для центров обработки вызовов, занимается синтезом и анализом речи и задачами биометрической идентификации. Решения ЦРТ используются в «Сбербанке», «ТрансКредитБанке», МВД России, Минюсте России и др. Чат-боты ЦРТ используют традиционные методы компьютерной лингвистики и основаны на системе ключевых слов. Они требуют квалифицированных лингвистов для настройки и поддержки и большой ручной работы по написанию паттернов и скриптов.

Компания «Наносемантика» основана в 2005 г. Игорем Ашмановым. Ее решения используются в Headhunter, «МТС Беларусь», «БеларусБанке», Beeline, «ЛокоБанке». Принцип работы чат-ботов «Наносемантики» схож с принципом ЦРТ – он также основан на системе ключевых слов и специальном скриптовом языке.

Разработка «Яндекс.Алиса» началась в конце 2016 г., об официальном запуске было объявлено 10 октября 2017 г. Изначально «Алиса» включала только сервисы «Яндекса», но в 2018 г. компания открыла платформу «Яндекс.Диалоги» с возможностью подключать сторонние сервисы и чат-боты через систему «навыков». В настоящий момент «Алиса» содержит более 80 тыс. различных навыков.

DeepPavlov – библиотека с открытым исходным кодом с инструментами для решения различных задач компьютерной лингвистики (в том числе для построения чат-ботов), основанными на последних разработках в области глубоких нейронных сетей. Проект реализуется лабораторией нейронных систем и глубокого обучения МФТИ в рамках Национальной технологической инициативы при индустриальной поддержке «Сбербанка». Разработки DeepPavlov используются в 92 странах мира.

Технология Electra.AI создана в 2018 г. разработчиками из МФТИ и DataMonsters как продукт для роботизации крупных контакт-центров. Посредством нейронных сетей она анализирует поток сообщений, проходящий через контакт-центр, выделяет в нем шаблоны и предлагает их автоматизировать, таким образом забирая на себя рутинные операции и непрерывно увеличивая долю автоматизации. Среди клиентов Electra.AI – банк ВТБ, «МегаФон», банк «Открытие».

Компания Just AI (создана в 2011 г.) входит в группу компаний i-Free. Компания предоставляет конструктор для создания чат-ботов Aimylogic, позволяющий настраивать чат-боты с помощью либо визуального конструктора, либо скриптового языка. Платформа Just AI дает возможность настраивать чат-бот по ключевым словам и посредством машинного обучения. Среди ее клиентов – «ЮниКредит Банк», S7 Airlines, «Аэроэкспресс».

Группа компаний Naumen основана в 2001 г. и представляет линейку решений для контакт-центров и ИT-инфраструктуры. Чат-боты Naumen используются в «ОТП Банке» и «Мосэнергосбыте».

Чат-бот Chatme.AI (создан в 2017 г.) от новосибирской компании Expasoft (основана в 2010 г.) предлагает полностью визуальный конструктор диалогов и адаптивные алгоритмы диалоговых стратегий, в разработке которых принимают участие математики Новосибирского государственного университета.

AutoFAQ (создан в 2017 г.) от компании Reason8 базируется на глубоких нейронных сетях. Он представляет собой вопросно-ответную систему, которая требует минимального участия специалистов для своей настройки и дообучается сама по мере разговоров с клиентами.

Ziax (создан в 2017 г.) предлагает чат-бот для обработки голосовых звонков и текстовых сообщений. Среди клиентов компании – «СвязьБанк» и «Банк Хоум Кредит».

Какого чат-бота выбрать?

Если компания хочет создать чат-бот для своего бизнеса самостоятельно, то, вероятно, ей подойдет «Яндекс.Алиса» или Just AI. Они обладают удобными визуальными конструкторами диалогов, не требующими знаний программирования.

Программистам, которых интересуют последние разработки в области разговорного искусственного интеллекта, следует изучить библиотеку DeepPavlov.

Если бизнес ищет решение для контактного центра среднего размера, то имеет смысл обратить внимание на Chatme.AI, AutoFAQ и Ziax. Это современные решения, использующие последние разработки в сфере машинного обучения.

Для крупных контакт-центров лучше подходят решения от ЦРТ, «Наносемантики», Naumen и Electra.AI. 

Для наглядного сравнения рассмотренных чат-ботов предлагаем таблицу:

Один раз увидеть

К компьютерному зрению (Computer Vision – CV) относится всевозможная обработка изображений и видео с помощью технологий искусственного интеллекта.

Согласно исследованию TAdviser и компании «Системы компьютерного зрения», российский рынок компьютерного зрения в 2018 г. составил 8 млрд руб. Прогнозируется его рост до 38 млрд руб. к 2024 г. . В настоящее время компьютерное зрение получило наибольшее развитие в следующих областях: транспортные системы, беспилотные автомобили и летательные аппараты, сфера услуг, медицина, сельское хозяйство, оборона и безопасность, «умные города». Некоторые предприятия специализируются на конкретных задачах и сферах применения компьютерного зрения, другие компании обладают готовыми алгоритмами и решениями для большого количества задач как в России, так и за рубежом.

Например, компания «Системы компьютерного зрения» за восемь лет разработала огромную базу алгоритмов, среди которых присутствуют решения в следующих сферах деятельности: лесная промышленность (технология определения объемов древесины с помощью анализа видеоизображений); автомобильная промышленность (алгоритмы системы помощи водителю и оптические сенсоры для беспилотных машин, контроль полосы движения и т. д.); распознавание образов; портативные устройства (сшивание фотоизображений для получения панорамных снимков) и пр. Решения базируются на сверточных нейронных сетях и имеют высокую точность распознавания (97–98%).

Компания NtechLab является мировым лидером в области распознавания лиц. Библиотека FindFace SDK и интеллектуальная видеоаналитика FindFace Security на основе нейронных сетей позволяют быстро, с достаточно высоким уровнем точности выполнять верификацию лиц (FNMR=0.22), идентификацию лиц (скорость поиска по одномиллиардной базе изображений составляет менее 0,5 с) и обнаружение лиц (неограниченное количество лиц в кадре); определять возраст человека (с точностью 95% в диапазоне пяти лет) и пол человека (с точностью 99%); распознавать эмоции (семь базовых и 50 сложных эмоций человека) и т. д. С помощью инструментов FindFace торговые учреждения и финансовые организации имеют возможность идентифицировать VIP-клиентов и повышать качество их обслуживания, обнаруживать мошенников и предотвращать кражи. Используя FindFace, предприятия открывают сотрудникам доступ к рабочим местам и ведут учет рабочего времени, а службы безопасности обеспечивают правопорядок на различных мероприятиях и определяют местоположение разыскиваемых лиц.

По инициативе Министерства связи и массовых коммуникаций Российской Федерации и Центрального банка Российской Федерации разрабатывается Единая биометрическая система, целью которой является идентификация человека с использованием лица и голоса. Система позволит получать финансовые и другие виды услуг удаленно, через Интернет. Единая биометрическая система уже применяется в финансовой сфере, здравоохранении, образовании, ритейле, e-commerce и при оказании государственных услуг; планируется ее использование в телемедицине и дистанционном обучении.

LUNA PLATFORM и Luna SDK Enterprise разработки компании VisionLabs также решают задачи бесконтактной идентификации людей для обеспечения безопасности и контроля доступа в финансовых и торговых учреждениях и на транспорте.

Программно-аналитический комплекс SOVA, разработанный компанией «СИТИЛАБС», активно используется при принятии управленческих решений по оптимизации транспортной системы таких крупных городов, как Москва, Санкт-Петербург, Воронеж, Казань, Екатеринбург.

Большое влияние оказывает компьютерное зрение и на ритейл. X5 Retail Group в сотрудничестве с Intelligence Retail на основе нейронных сетей реализовала систему контроля наличия и правильности выкладки товаров на полке. Инструмент способен распознавать около 1500 товаров с точностью 93,7%. В случае нехватки товаров сотрудники получают уведомление о необходимости добавить товар.

Одной из областей, в которой часто применяется компьютерное зрение, является управление беспилотными транспортными средствами. Система C-Pilot от российского разработчика Cognitive Technologies представляет собой инструмент для беспилотного вождения с высоким уровнем безопасности в условиях плохой видимости (туман, дождь, темное время суток) и на плохих дорогах, применяемый для всех видов наземного транспорта, включая легковые автомобили, коммерческие транспортные средства, сельскохозяйственную технику, железнодорожный транспорт и т. д.

Заключение

Российские продукты в сфере искусственного интеллекта по функциональному наполнению и качеству вполне могут конкурировать с крупными международными вендорами. В России существует много высокопрофессиональных команд с опытом в области лингвистического анализа, диалогового искусственного интеллекта, анализа данных, компьютерного зрения и распознавания образов. Чтобы современному бизнесу найти среди представленных решений идеальную модель, которая станет надежным помощником в общении с клиентами или сотрудниками, решении задач в энергетике, логистике, промышленности, транспортной сфере, компаниям следует руководствоваться основными бизнес-потребностями, но при этом учитывать, что система должна отвечать требованиям времени по функциональным возможностям и применяемым технологиям.

Поделиться:

Глобальные сетевые тенденции 2020
По мотивам «Отчета о глобальных сетевых тенденциях» (Global Networking Trends Report)

Взгляд Cisco
Спецпроект

Форум «ИТОПК-2020» оценил потенциал господдержки

Подробнее

Подпишитесь
на нашу рассылку