«Используя большие данные, заказчик должен ясно понимать, к чему хочет прийти»

Сергей Золотарёв
Сергей Золотарёв

Интервью с главой представительства компании Pivotal* в России и СНГ.

Что представляет собой новая концепция больших данных? Специалисты все чаще оперируют терминами «большие» и «быстрые» данные. Вы разграничиваете эти понятия?

– «Быстрые данные» и «большие данные» – это, безусловно, два разных понятия. Под большими данными понимается большой объем информации, быстрые данные могут обладать не такими внушительными «размерами» (от нескольких гигабайт до нескольких терабайт), но требуют обработки с максимальной скоростью, которую может обеспечить физический носитель.

У нас есть решения для работы с обоими типами данных. Для больших данных мы предлагаем систему Shared cache, которая позволяет выстроить информационную систему с единой оперативной памятью, распределенной по территории земного шара. Из последних примеров использования такой системы можно назвать крупнейшую сеть бронирования путешествий Expedia и самый масштабный публичный проект по системе онлайн-бронирования для китайских железных дорог с оборотом продаж до 10 млн билетов в день.

Эффективность работы с быстрыми данными можно повысить за счет использования применения обработки информации в оперативной памяти – In-Memory, которые мы также предлагаем своим заказчикам. Одно из ключевых технологических преимуществ Pivotal перед другими игроками рынка заключается в быстрой интеграции между уровнями больших и быстрых данных. Наши технологии In-Memory легко интегрируются как с массивно параллельной архитектурой СУБД – MPP Greenplum, так и с нашей реализацией платформы Hadoop. Благодаря этому заказчик может использовать весь набор технологий в качестве единого стека.

Из каких основных и дополнительных компонентов состоит современная инфраструктура хранения для больших данных?

– У каждого производителя свой подход к реализации платформы для работы с большими данными, поэтому однозначно ответить на этот вопрос сложно.

Стандартный подход к построению инфраструктуры хранения для больших данных включает в себя следующие группы компонентов:

  • аппаратная платформа;
  • сетевая среда;
  • программные продукты.

Если говорить о наших решениях, то они универсальны. Мы используем стандартные серверы, стандартную сетевую среду для соединения узлов кластера между собой, а также наши программные продукты для реализации решений. Все технологии, которые мы предлагаем, могут работать как на физических, так и на виртуальных машинах, как в публичных, так и в частных облаках.

Какая роль отводится аналитическому потенциалу решений в сфере больших данных, насколько востребованы такие решения на российском рынке? Какое значение аналитический модуль имеет для эффективного хранения и использования неструктурированных данных?

– Аналитический модуль не играет ключевой роли в эффективном хранении и использовании неструктурированных данных. Аналитика данных и хранение данных – это две разные предметные области.

Очень часто при работе с большими данными используются те аналитические модули, которые ранее применялись для обработки незначительных объемов информации. Аналитическим системам приходится обрабатывать большой объем данных, однако они не могут выдавать нужный результат в короткие сроки, что, конечно, не устраивает пользователя. Закономерно, что заказчик ищет средства и технологии, способные осуществлять обработку и выборку информации в более короткие сроки, а значит, неминуемо переходит к инструментарию больших данных.

Какие инструменты оптимизации хранения больших данных предлагает ЕМС российским заказчикам?

– Наша компания предлагает полный «стек» для построения универсальной системы хранения и обработки больших данных. Такой подход носит название Data Lake («Озеро данных»), он означает единую систему, где осуществляется хранение данных, которые затем анализируются.

Уникальность наших решений заключается в том, что мы предлагаем технологии для структурированных и для неструктурированных больших данных, а также для быстрых данных.

Для каждого из этих типов у нас имеются соответствующие решения: на базе Hadoop – для неструктурированных данных, MPP Greenplum – для больших объемов структурированных данных, на базе технологий GemFire и SQLFire – для данных в оперативной памяти. Следует отметить, что все эти уровни интегрированы между собой и каждый из них обрабатывает тот массив данных, который ему подходит.


* Pivotal наряду с компаниями EMC, Vmware, RSA входит в федерацию ЕМС и специализируется на создании решений в области больших данных.

Поделиться:
Спецпроект

Напряженный трафик или Современные требования к инфраструктуре ЦОД

Подробнее
Спецпроект

Специальный проект "Групповой спутниковый канал для территориально-распределенной сети связи"

Подробнее

Подпишитесь
на нашу рассылку