Знаковые проекты на российском поле Big Data

Игорь Кравченко, заместитель директора по инновационным рынкам, компания «Рексофт»

В числе современных ИТ-трендов почти все эксперты упоминают технологию Big Data. Наряду с активным внедрением соответствующих решений в коммерческом и производственном сегментах самым большим игроком на этом рынке в нашей стране остается государство. Чего стоит один грандиозный проект по созданию цифрового профиля гражданина. По мнению аналитиков IDC, к 2020 г. мировой объем рынка больших данных превысит 200 млрд долл. В России порядок цифр более скромный, но динамика также впечатляет. По оценкам Ассоциации больших данных, объем рынка Big Data в России в 2019 г. варьируется в пределах от 10 до 30 млрд руб., а к 2024 г. может достичь 300 млрд руб. На чем основан прогноз и какие проекты уже в стадии реализации?

Проекты с использованием этой технологии в России уже реализуются. Более половины отечественных компаний (55,4%) выделили бюджет на внедрение решений аналитики больших данных, что следует из опроса 101 компании с количеством сотрудников от 500 человек, который провели IDC и Hitachi Vantara. В среднем на такие решения приходится 5–10% ИТ-бюджета у 35% опрошенных и более 10% – у других 35%.

Лидерами рынка в области больших данных являются операторы связи, интернет-компании, банки и государство – именно они располагают наибольшими массивами данных о гражданах и бизнесе.

В 2017–2018 гг. в сфере Big Data наиболее масштабными были внутренние проекты банков и операторов связи по построению собственных Data Lake (хранилищ данных). Более того, они уже начали зарабатывать на анализе больших данных. В основном это доходы от внутренней монетизации, так как правовой статус торговли данными в России еще не определен. Например, МТС с помощью аналитики Big Data планирует строительство базовых станций, определяет места, форматы и ассортимент розничных салонов связи. По итогам 2018 г. совокупный экономический эффект от анализа больших данных в МТС превысил 3,5 млрд руб. В «ВымпелКоме» и «МегаФоне» используют решения Big Data для разработки тарифов и таргетирования новых маркетинговых инициатив.

Активно развивается сотрудничество операторов и банков по обогащению деперсонифицированных данных клиентов. Например, данные операторов востребованы в финансовом скоринге. В октябре 2019 г. стало известно, что «Ростелеком» и ВТБ намерены обмениваться данными и обрабатывать их, объединив различные данные о клиентах в пользовательские профили. Так, в системе может быть представлена информация о поле и возрасте человека, его покупках, предпочтениях, доходе и передвижениях. При этом операторы и банки подчеркивают, что персональные данные клиентов использоваться не будут: профили клиентов привязаны к абстрактным ID.

«Сбербанк» также в тренде. Дочернее предприятие банка «СберТех» ведет проект «Облако данных» – кластер Big Data под управлением Apache Hadoop на основе дистрибутива Cloudera, который был создан в 2017–2018 гг. В первую очередь были разработаны основные инфраструктурные сервисы для решения задач по безопасности, аудиту, журналированию и др. Затем был создан инструментарий для инкрементальной загрузки данных из высоконагруженных банковских систем в Data Lake, что позволяет загружать несколько десятков ТБ в сутки. Летом 2019 г. «Сбербанк» объявил конкурс на разработку ПО для системы «Облако данных», а также процедур контроля качества данных. Общая начальная стоимость контракта составляет 280 млн руб. Проект состоит из трех лотов. Первый – разработка процедур контроля качества данных систем «Облако данных» и «Аналитическое хранилище данных» (стоимость работ оценена в 120 млн руб.). Второй и третий лоты посвящены разработке соответственно back-end и front-end компонентов портала супермаркета данных (60 и 100 млн руб.), который намерен сделать «Сбербанк».

Свои Data Lake строят и промышленные предприятия. Здесь технологии Big Data востребованы в первую очередь для оптимизации производства. Из открытой информации показателен проект Новолипецкого металлургического комбината (НЛМК). На предприятии эксплуатируются десятки систем, которые накапливают и обрабатывают информацию о производственных и технологических процессах. Кроме того, в помещениях установлены десятки тысяч датчиков, непрерывно собирающих и передающих данные в систему. НЛМК требовался удобный инструмент для работы с получаемыми данными под разрабатываемые модели машинного обучения. В результате на предприятии создали Data Lake емкостью 300 Тбайт на базе отечественного дистрибутива распределенной платформы хранения Hadoop.

В рамках проекта специалисты запустили регулярную загрузку данных в Data Lake из более чем 70 источников (датчиков, а также MES и АСУ ТП), добавили исторические данные за последние несколько лет работы предприятия и составили карты данных технологических и производственных процессов отдельных цехов. Одна из первых задач, реализованных на этой базе, – разработка модели, которая позволяла бы максимально точно управлять расходом ферросплавов для минимизации их использования при соблюдении технологических параметров задания плавки. В результате были собраны данные по истории плавок: задания на плавки, температурные режимы, итоги присадки определенного количества легирующих веществ, результирующий химический состав стали на выходе. На их основании разработана математическая модель, встроенная в специальное программное обеспечение и передающая рекомендации на пульт управления сталевара. Рабочий, в свою очередь, управляет процессом добавления ферросплавов, используемых при внепечной обработке.

Но какими бы ни были внедрения Big Data на предприятиях, очевидно, что в России самый большой игрок на этом рынке – государство. Реальных проектов здесь пока не много, поскольку внедрения требуют немалых усилий и временных затрат, а главное – перенастройки внутренних процессов, что с учетом масштаба нашей страны весьма непросто.

Наиболее знаковый ведомственный кейс по теме Big Data – работа с данными Департамента информационных технологий (ДИТ) Москвы, который закупает у операторов связи геоаналитику с 2015 г. Так, в 2018 г. на эти цели было выделено 101,8 млн руб. В результате город знает, где живут и работают, как добираются до работы, куда и когда ездят на дачу москвичи с точностью до 500 м и нескольких минут. Геоаналитика в обезличенном виде – это данные о перемещении горожан, полученные в результате анализа движения SIM-карт граждан. Ориентируясь на данные операторов, Москва успешно модернизирует городские транспорт и инфраструктуру.

Заказчики геоаналитики есть и среди бизнес-структур, заинтересованных в том, чтобы оценить рентабельность торговой точки в конкретном месте, экономику магазинов. Благодаря таким данным развивается таргетирование SMS-рассылок по заказу предприятий среднего и малого бизнеса, которые заинтересованы в том, чтобы их получала потенциальная аудитория в зоне открытия точки.

В транспортной сфере коммерческий потенциал геоаналитики заключается в планировании междугородных перевозок. Крупные перевозчики, сочетая эти данные со статистикой продаж билетов, могут оптимизировать и маршруты, и периодичность перевозок. В данном контексте нельзя не упомянуть один из крупнейших федеральных проектов, который стартовал в 2019 г. По инициативе НП «ГЛОНАСС» был создан межотраслевой проектный консорциум «Автодата.Рус». В него вошли более 60 организаций, среди которых ПАО «Соллерс», группа «ГАЗ», АО «Электронный паспорт», Министерство промышленности и торговли РФ, Министерство цифрового развития РФ, ГК «Роскосмос», Федеральное дорожное агентство, ГК «Автодор», инновационный центр «Сколково», «Абсолют Страхование», МАДИ, МФТИ, «Сколтех», ИТ-компании, разработчики платформ, в том числе и «Рексофт».

Одна из задач консорциума – создание национального массива больших автомобильных данных – сервисной навигационно-телематической платформы «Автодата». Она будет собирать, хранить и обрабатывать транспортные данные уже существующих цифровых систем: информацию о состоянии водителя за рулем, эксплуатации автомобиля, а также о внешней окружающей среде (качестве дороги, погодных условиях и географии использования). Объем финансирования проекта до конца 2019 г. составляет 325 млн руб. На эти средства предусматривается проектирование платформы «Автодата» и создание на ее базе функциональных макетов сервисов, включая макеты «Умной дорожной сети», «Умной автомобильной магистрали» и страховой телематики.

Компания «Рексофт» погружена в проект «Автодата» практически с момента его запуска. Наши специалисты принимали активное участие в первом этапе проекта – формулировании общих требований к платформе, а затем составлении концепции и создании ее предварительной архитектуры. В настоящее время работа продолжается совместно с НП «ГЛОНАСС» и другими участниками консорциума.

Еще два крупных проекта в области Big Data ведутся в «Росстате». Первый – это создание единого хранилища первичных данных цифровой аналитической платформы ведомства. В системе через формат единого окна от министерств и ведомств будут аккумулироваться различные данные официального статистического учета. В дальнейшем проект позволит не только проводить регулярные статистические наблюдения, но и обеспечивать возможность многократного использования и анализа собранных данных, выполнять аналитику альтернативных и статистических данных различной природы (данных статистических переписей и обследований, отчетности в государственные органы). Кроме того, «Росстат» сможет оперативно предоставлять требуемую статистику по запросу других ведомств в нужных ракурсах.

Технологии анализа больших данных будут использоваться «Росстатом» и для переписи населения в 2020 г. В частности, это должно помочь оценить не только численность населения, но и миграционные потоки с помощью данных от операторов связи. В случае успешной реализации проект позволит государству не просто получать актуальную информацию по данным традиционной переписи населения, но и оценивать ситуацию в динамике.

Не менее грандиозный государственный проект – создание цифрового профиля гражданина. Он ведется в рамках нацпроекта «Цифровая экономика», за его реализацию отвечают ЦБ РФ, Минкомсвязь России и «Ростелеком». На создание концепции проекта предусмотрено привлечение более 3 млрд руб. внебюджетных средств до 2021 г.

Основными элементами платформы станут реестр цифровых идентификаторов, системы идентификации, реестр цифровых согласий на обработку данных и интерфейс для доступа к данным. Планируется, что архитектура профиля будет также содержать базу данных цифровых досье граждан, объединяющих все юридически значимые сведения о них. На первом этапе он будет состоять из 57 различных разделов о гражданине. В документах к проекту указано, что россияне смогут посмотреть, что известно о них, куда и когда передавались их данные. В рамках цифрового профиля гражданин сможет предоставлять и отзывать цифровые согласия на обработку данных, запретить передачу определенного вида данных и реализовать «право на забвение». Сделать это можно будет на портале госуслуг.

На основе перечисленных фактов можно поверить прогнозам о том, что к 2024 г. рынок Big Data в России достигнет 300 млрд руб. И у нас, и за рубежом данные не случайно называют новой нефтью. Потенциал технологии хорошо понимает руководство страны. В планах Правительства − до конца года утвердить генеральную схему развития инфраструктуры хранения и обработки данных. Параллельно идет законодательный процесс в этой области.

Следите за нашими новостями в Телеграм-канале Connect


Поделиться:



Следите за нашими новостями в
Телеграм-канале Connect

Спецпроект

Медицинские задачи для ИИ

Подробнее
Спецпроект

Цифровой Росатом

Подробнее


Подпишитесь
на нашу рассылку