Демократизация данных, или От гонки моторов к гонке идей

 

sasha
Александр Смирнов, Hadoop-евангелист, Teradata Россия

 Технологии больших данных давно перестали быть экзотикой даже для самых осторожных организаций. В ноябре прошлого года многие отраслевые журналисты успели похоронить этот термин. Однако, несмотря на заявления о том, что большие данные мертвы, дело их живет и бурно развивается. Рассмотрим самые значимые тенденции в развитии Big Data и попробуем сформулировать ряд прогнозов в этом сегменте.

 

Статус и динамика Apache Spark

На мой взгляд, в 2016 г. не стоит утверждать, что «Spark – это будущее больших данных». Apache Spark – это уже давно суровое настоящее, составная часть большинства Hadoop-дистрибутивов, поскольку используется множеством компаний в качестве части продуктивной среды, а не перспективной игрушки на тестовом кластере.

Начиная с версии 1.5 можно говорить о том, что Apache Spark избавился от большинства «детских болезней» – продукт стал значительно более стабильным и предсказуемым в работе. Однако не следует думать, что период бурного роста Apache Spark прошел. Одна из интересных, на мой взгляд, тенденций в развитии данного фреймворка – появление значительного количества узкоспециализированных инструментов на его основе:

  • Apache Magellan – фреймворк, обеспечивающий возможность работы с географическими и геометрическими данными с использованием механизмов Apache Spark. Magellan позволяет решать большинство традиционных задач ГИС в высокопроизводительной распределенной среде. Поддерживается большинство характерных для подобных систем операций: определение попадания точки в заданную область, определение пересечения двух областей и многое другое;

 

  • ADAM – открытый фреймворк, разработанный сотрудниками университета Беркли. Этот инструмент позволяет обрабатывать на платформе Spark данные геномного секвенирования. Поддерживаются все традиционные операции над подробными данными: сборка сиквенса, картирование прочитанного генома, построение отличий от референсного. Трудно переоценить значение этой разработки для мира науки. Дело в том, что долгое время инструменты для анализа подобного вида информации были по своей технологической примитивности несопоставимы с объемами, которые этими инструментами приходилось обрабатывать. ADAM не просто переносит рутинные вычисления в распределенную среду, но и позволяет уйти от закрытых индустриальных форматов данных, делая возможным анализ человеческого генома при помощи стандартных SQL-on-Hadoop инструментов. Становится возможным анализ этих данных даже при помощи стандартных BI-систем. Таким образом, инструмент позволяет в один прыжок преодолеть технологическую пропасть, разделявшую биоинформатику и современный мир больших данных.

Быстрые данные

Другая важная тенденция в развитии технологий больших данных – пристальное внимание к быстрым данным.

Подобно тому, как стремительное падение стоимости хранения информации привело к появлению и взрывному росту больших данных, снижение стоимости различных датчиков и их повсеместное распространение повышают востребованность инструментов обработки потока данных, поступающих с этих датчиков. Причем теперь речь идет не просто о возможности обработки потока, а о своевременной обработке. Это позволяет нам говорить о «быстрых данных». Сфер применения технологий быстрых данных огромное множество. Приведу лишь несколько примеров:

  • здравоохранение – все большее распространение персональных медицинских устройств (фитнес-браслетов, пульсометров и т. д.) приводит к необходимости обработки потока данных, причем как для ретроспективного анализа, так и для немедленной выдачи рекомендаций пользователям;
  • энергетика – непрерывный анализ потоков данных от различных счетчиков позволяет оптимизировать работу сети в реальном времени;
  • банковский сектор – благодаря новым технологиям поточной обработки банки получают возможность на лету определять все более изощренные мошеннические схемы.

В этом сегменте основными используемыми сегодня технологиями являются Apache Spark и Apache Storm.

Apache Storm – программный фреймворк, позволяющий осуществлять высокоскоростную обработку мощного потока данных в рамках Hadoop-кластера. Основные его отличия от предложений конкурентов – возможность действительно потоковой обработки приходящих пакетов по мере их поступления, а также наивысшая производительность среди подобных продуктов. «Расплата» за эти преимущества – довольно неудобный и громоздкий API, что, на мой взгляд, и является причиной его невысокой популярности среди пользователей.

Apache Spark – механизм обработки данных широкого профиля, успевший обзавестись собственной экосистемой, одним из важнейших элементов которой является Spark-Streaming – система потоковой обработки данных. В отличие от Storm Spark-Streaming не является в чистом виде системой поточной обработки, входящая информация разделяется в нем на так называемые микробатчи – небольшие порции данных, собранные обычно за несколько секунд. Благодаря такому механизму обработки Spark Streaming выделяется своей простотой и надежностью.

На самом деле эти две технологии не являются конкурентами, поскольку занимают разные ниши. Apache Storm используется там, где действительно критична задержка при обработке входящих пакетов и счет идет на миллисекунды. Как показывает практика, подобных случаев не так много. В ситуациях, когда обработка в реальном времени означает «задержку не больше 10 минут», обычно применяется Spark Streaming.

Открытое ПО

Один из трендов в развитии технологий Big Data – все большее смещение фокуса производителей платформ в сторону открытого ПО. В частности, на это указывает перевод в разряд открытого ПО такого продукта, как Pivotal HAWQ – интереснейшего SQL-on-Hadoop инструмента. Его отличительная черта – наивысшая среди основных конкурентов ANSI-SQL совместимость. На первый взгляд, такой ход со стороны Pivotal (подразделения именитой компании EMC) может показаться лишь отчаянной попыткой вдохнуть жизнь в явно не страдающий избытком популярности продукт. Подобного мнения может придерживаться исключительно поверхностный наблюдатель, не знакомый с рынком больших данных.

Монументальность такому, казалось бы, рядовому событию, как передача HAWQ под эгиду Apache Software Foundation, придает то, что оно может несколько изменить ситуацию для заказчика с выбором платформы – между Hortonworks и Cloudera. (В России организации, которые отважились наконец использовать Hadoop для решения своих задач, выбирают именно из этих двух дистрибутивов.) Дело в том, что чаще всего подобное решение принимается по следующему алгоритму: «Нужно ли решать на Hadoop задачи, требующие высокоскоростного исполнения SQL-запросов в многопользовательской среде, возможно, с подключением BI-инструментов? Если да, то берем Cloudera по причине наличия у них Impala, если нет, то Hortonworks».

С учетом этого нацеленность разработчиков HAWQ на интеграцию с дистрибутивом HDP лишает CDH его главного козыря – фактической монополии на MPP- подобный инструмент выполнения SQL-запросов в виде Impala. А если учесть большую ANSI-SQL совместимость HAWQ и лучшие результаты бенчмарков (хотя, конечно, часть из них является бенчмаркетингом), то ситуация для Cloudera довольно щекотливая. В любом случае, обострение конкуренции на рынке несомненно на пользу конечным пользователям.

Еще одно свидетельство победного шествия отрытого ПО по рынку Big Data – все большее вовлечение крупных вендоров в развитие открытых продуктов. Можно привести несколько примеров. Компания IBM, не дававшая повода уличить себя в чрезмерной приверженности идеям открытого ПО, не так давно заявила о том, что Apache Spark – наиболее значимый Open Source продукт десятилетия (!). Планируется привлечь до 3,5 тыс. специалистов для развития Spark и близких к нему технологий.

Другой пример участия крупного вендора в сообществе открытого ПО – компания Teradata, которая стоит на позициях поддержки открытого ПО в мире технологий Big Data. Вендор заявил о планах поддержки развития такого продукта, как Presto – SQL-on-Hadoop-инструмента. Его отличительная черта – возможность на лету без тяжелых (и дорогостоящих) ETL-процессов использовать данные, находящиеся за пределами Hadoop-кластера. Во многом этот инструмент выглядит как еще один элемент мозаики инструмента бесшовной интеграции данных Teradata Query Grid.

Куда более важным симптомом ориентации Teradata на открытые технологии является недавнее поглощение консалтинговой организации Think Big, основная аудитория которой – компании, решившие извлекать выгоду из накопленных разнородных данных. В зависимости от степени подготовленности компании эта выгода может заключаться в снижении расходов на поддержание инфраструктуры данных, сокращении времени и повышении качества решений, принимаемых на основе накопленных в компании данных. Наивысшая форма работы с данными – создание новых услуг и трансформация в Data-Driven-организацию.

В отличие от большинства конкурентов Think Big – платформонезависимая организация, ориентированная в первую очередь на использование открытого ПО. С недавних пор услуги этого подразделения Teradata доступны и в России.

Если шире смотреть на тенденцию большего проникновения открытого ПО, то можно утверждать, что мы является свидетелями парадигматического сдвига в мире работы с данными. На наших глазах разворачивается процесс, который можно назвать демократизацией данных. Суть его в том, что обработка больших объемов данных и извлечение из них прибыли перестают быть уделом исключительно крупных сверхбогатых корпораций. Возможность работы на стандартном аппаратном обеспечении, поддержка виртуальных сред и широчайшее распространение облачных сервисов, доступных даже разработчикам-одиночкам, превращают конкуренцию на рынке обработки данных из «гонки моторов» (участие в которой могли себе позволить лишь избранные) в «гонку идей».

В этих условиях попытки многих вендоров пойти проторенной десятилетиями дорогой навязывания клиенту закрытого продукта, через создание собственных, закрытых и глубоко модифицированных версий Hadoop выглядят досадным и неуместным архаизмом. В таком случае Россия может в ближайшие годы оказаться на самом гребне этой волны благодаря таким, казалось бы, неприятным вещам, как экономический кризис и набирающая силу программа импортозамещения. Оба фактора вынуждают отказываться от закупок дорогостоящего импортного ПО и все больше фокусировать внимание на открытом ПО.

***

Таким образом, мир больших данных продолжает бурно развиваться. Если обобщить наблюдения, можно обозначить ряд характерных трендов.

Победный марш Apache Spark, судя по всему, уже не остановить. В скором времени нам предстоит стать свидетелями того, как он заменит старый добрый MapReduce в Hadoop-кластерах. Остается открытым лишь вопрос о том, можно ли будет такие системы по-прежнему называть Hadoop- кластерами. Кроме того, будут широко развиваться узкоспециализированные инструменты на его основе (ADAM, Magellan, SparkTS и т. д.).

Быстрые данные. Разрастающийся рынок IoT требует новых инструментов. На этой ниве успешно трудятся Storm и Spark Streaming, но не за горами появление новых инструментов. Apache Flink и Apache Samza – главные претенденты на получение такого статуса в сфере обработки потоковых данных. Однако пока они находятся на раннем этапе развития, организациям нужно «иметь их в виду», а не торопиться с их внедрением.

Главный тренд – открытое ПО и демократизация данных. Наличие собственных закрытых Hadoop-инструментов становится для производителей платформ скорее отягощающим фактором, чем конкурентным преимуществом (по крайней мере, на российском рынке). Некоторые производители уже начинают перестраиваться, поддерживают развитие Open Source-продуктов, как Teradata, и переходят к модели оказания консалтинговых услуг на открытых технологиях.

В то же время многие продолжают прятать голову в песок, надеясь, что скоро все это закончится. Однако суровая правда заключается в том, что не перестроившиеся с учетом новой реальности динозавры могут сколь угодно долго соревноваться в выпуске все более дорогих и бессмысленных Hadoop-дистрибутивов, в то время как пользователь купит китайское аппаратное обеспечение и начнет решать свои проблемы на открытом ПО. В таких условиях в выигрыше останется тот вендор, кто раньше других примет новые правила игры и из категории держателей интеллектуальной собственности перейдет в разряд хранителей высочайшего качества экспертизы и апологетов открытого ПО.

Поделиться:
Спецпроект

Напряженный трафик или Современные требования к инфраструктуре ЦОД

Подробнее
Спецпроект

Специальный проект "Групповой спутниковый канал для территориально-распределенной сети связи"

Подробнее

Подпишитесь
на нашу рассылку