Большие данные на государственной службе: реальность и перспектива

Евгений Курилович
Евгений Курилович, директор отделения аналитических технологий, компания «ФОРС»

Впервые термин Big Data был введен в 2008 г. Клиффордом Линчем, редактором журнала Nature. Сейчас под этим термином в различных контекстах понимают и сами большие данные, и технологии их обработки, сформировавшиеся за последние несколько лет. Это в первую очередь массивно-параллельная обработка данных (Hadoop/MapReduce, NoSQL базы данных и др.) и технологии in-memory. Сегодня они пришли практически во все сферы ИТ-индустрии. Первыми заказчиками и за рубежом, и в России оказались банки, телекоммуникационные компании и ритейлеры. В сферу государственного управления проекты с применением технологий Big Data пришли немного позже.

Главная отраслевая особенность здесь связана с назначением и характером прикладного использования технологий больших данных. Ведь в госсекторе накопились огромные массивы данных, в том числе неструктурированных. Технологии больших данных позволяют эффективно обрабатывать большие объемы информации и извлекать из нее полезные знания. Поэтому со стороны госструктур мы наблюдаем растущий интерес к такого рода решениям.

Принципиальным отличием проектов Big Data в госсекторе является то, что в качестве успеха проекта рассматривается не коммерческая выгода, а способность решать важные социальные задачи и создавать общественное благо. Однако всегда существует риск несоответствия задекларированных обязательств и реальности. Чтобы этого не произошло, на каждом из уровней государственного управления должна быть сформирована своя концепция применения новых технических решений, помогающая чиновникам сделать правильный выбор в пользу того или иного проекта. Государственным структурам нужны ИТ-специалисты, обладающие достаточной экспертизой в своей области, – разработчики, аналитики, data scientists (в России пока нет аналога названию этой специальности).

Необходимо также развивать инфраструктуру, позволяющую разворачивать подобные проекты. За рубежом это чаще делается в облаке, например в Amazon, что позволяет на начальном этапе не вкладываться в создание кластеров для распределенных вычислений. В России подобных сервисов, предоставляющих, в частности, Hadoop as a service, практически нет, а для проектов государственной важности размещение данных в облаке невозможно, поскольку не отвечает требованиям информационной безопасности.

Big Data позволяет решить в госсекторе такие задачи, как персонализация государственных сервисов и услуг, предвидение и предотвращение угроз национальной безопасности, катастроф и стихийных бедствий, выполнение различных социальных программ в области здравоохранения и социальной защиты, предотвращение попыток мошенничества и преступлений в области налогового законодательства и многое другое.

Другой класс задач связан с лингвистическим анализом текстов, семантическим поиском, извлечением дополнительных знаний из неструктурированных документов и пр. Среди наших заказчиков такие решения уже сейчас востребованы в государственных организациях – для эффективного взаимодействия с населением, обеспечения общественной безопасности, проактивной деятельности по борьбе с преступностью и пр. Это пока не массовые, а скорее штучные проекты, но со временем мы перейдем и к типовым промышленным решениям. Этому во многом поможет накопленный нами опыт в области классических аналитических технологий, проектной деятельности по построению систем бизнес-анализа и внедрению решений по управлению эффективностью предприятий (EPM).

Надеемся, что мощным драйвером развития этих технологий в России станет принятый правительством курс на применение программных продуктов с открытым кодом. Все основные разработки, пришедшие из мира Big Data, относятся к open-source, что делает их использование в стратегически важных проектах безопасным и прозрачным, а также, что не менее важно, снижает стоимость проектов и дальнейшего владения ИТ-системами.

При этом скорость развития программных продуктов остается очень высокой, и по своей функциональности в разрезе надежности и информационной безопасности они постепенно вырастают до уровня промышленных решений. Безусловно, речь не идет о замене традиционных продуктов – реляционных СУБД на Hadoop или NoSQL. Будущее за гибридными системами.

Отметим, что технологии больших данных напрямую и косвенно упоминаются и в программе фундаментальных научных исследований государственных академий наук на 2013–2020 гг. Пока же в России применение технологий больших данных в госсекторе находится на стадии исследования их потенциала для повышения эффективности деятельности федеральных, региональных и муниципальных учреждений. В целом рынок больших данных в России только формируется, большинство наших проектов являются демонстрационными или пилотными, а на создание устойчивого спроса уйдет несколько лет. Поэтому мы затрачиваем много усилий на информирование потенциальных заказчиков, демонстрацию готовых, работающих решений в различных индустриальных областях, на обучение и консультирование, тестирование и проведение исследований. Здесь важны два фактора. С одной стороны, новые возможности должны быть осознаны на уровне людей, принимающих решения на государственном уровне, с другой – в наличии к этому моменту уже должны быть отработанные технологии внедрения и использования решений уровня Big Data. И мы работаем над этим, в частности, адаптируем такие продукты к российской специфике. К примеру, обеспечиваем возможность применения специальных технологий для анализа русскоязычных текстов, который требует специального инструментария для учета морфологических, синтаксических и семантических особенностей конкретного языка, прежде всего русского.

Однако хорошим знаком является то, что ряд министерств и ведомств уже сделали конкретные шаги в этом направлении. Так, в сентябре 2014 г. Министерством культуры РФ был проведен конкурс на выполнение НИР «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры».

ФНС России также объявила конкурс на создание программно-аппаратного комплекса автоматизированных средств перекрестных проверок, реализующих функции камеральной налоговой проверки налоговых деклараций. Как известно, задача предотвращения мошенничества и уклонения от уплаты налогов относится к классу именно тех задач, которые успешно решаются при помощи технологий Big Data. Такая система может быть реализована на базе вычислительного кластера HBase, нереляционной распределенной колоночной СУБД с открытым исходным кодом, работающей поверх файловой системы HDFS. По сравнению с классическим решением на реляционной СУБД решение на HBase более простое в реализации, производительное и, главное, менее дорогостоящее.

Другая важнейшая область применения технологий Big Data – «умные города», а Москва развивается именно в этом направлении. Реализуются отдельные проекты с применением технологий Hadoop и нереляционных СУБД. Создаваемая в Москве интеллектуальная транспортная система предполагает использование в качестве одной из своих подсистем блок навигации всего городского транспорта. Для обеспечения требуемой скорости записи и чтения данных, а также масштабируемости с учетом постоянного увеличения объектов, передающих информацию, в качестве решения предлагается использовать нереляционную колоночную СУБД, например Cassandra или Riak. Конкурс на разработку системы уже объявлен, и в течение года она должна быть запущена в работу.

В правительстве города Москвы тоже проявляют интерес к новым возможностям, которые предоставляют технологии Big Data. В частности, стартовало несколько пилотных проектов по обработке обращений граждан с использованием инструментария Hadoop. Поскольку при создании крупных информационно-аналитических систем и ситуационных центров используются мощнейшие аналитические хранилища данных, размеры которых могут достигать нескольких десятков терабайт, то технологии больших данных будут широко востребованы и здесь.

В настоящее время запущен федеральный проект по созданию ГИС ЖКХ, в рамках которой также могут локально использоваться нереляционные СУБД, например при необходимости собирать показания с приборов учета. Компании-разработчики ПО для ЖКХ при создании прототипов таких систем используют NoSQL базы данных.

Мы уверены в том, что это только начало пути, и через несколько лет начнется активное внедрение платформ для углубленной аналитики не только в федеральных ведомствах, накопивших максимальные объемы данных, но и в органах местного самоуправления. Все предпосылки для этого есть – и технические, и социально-политические.

Поделиться:
Спецпроект

Напряженный трафик или Современные требования к инфраструктуре ЦОД

Подробнее
Спецпроект

Специальный проект "Групповой спутниковый канал для территориально-распределенной сети связи"

Подробнее

Подпишитесь
на нашу рассылку