Быстрые данные приходят на смену большим

Когда разговор заходит о больших данных, как правило, говорят о платформе Hadoop или элементах так называемой экосистемы Hadoop. Давайте разберемся, что представляет собой эта платформа сегодня. Историки развития технологии больших данных обычно рассказывают о том, как две научные публикации специалистов компании Google изменили мир обработки данных, однако без краткого экскурса в историю Hadoop трудно понять нынешнюю ситуацию. Предыстория больших данных Итак, все началось с публикаций двух специалистов Google, в которых описывались модель распределенной обработки данных, получившая название MapReduce, и распределенная файловая система Google File System. На их основе группа разработчиков-энтузиастов создала платформу Hadoop, на которую обратили внимание такие мэтры ИТ-индустрии, как Yahoo и Facebook, став ведущими разработчиками этого проекта. Изначальную архитектуру можно представить в виде трех слоев. Первый слой – хранения данных. Изначально под слоем хранения данных подразумевалась исключительно распределенная файловая система Hadoop Distributed File System (HDFS). Она характеризуется высокой степенью устойчивости к выходу из строя отдельных узлов. Однако со временем начали появляться альтернативные варианты, такие как использование нереляционных БД (в первую очередь, конечно же, HBase, которая быстро стала частью всех значимых дистрибутивов Hadoop). Второй слой представляет собой фреймворк обработки данных MapReduce (MR), реализующий одноименную модель группировки информации. Он разделяет процесс обработки данных на два этапа: Map – генерация на […]


Полная версия доступна только зарегистрированным пользователям !








 

ИД «Connect» © 2015-2017

Использование и копирование информации сайта www.connect-wit.ru возможно только с письменного разрешения редакции.

Техподдержка и обслуживание Роман Заргаров


Яндекс.Метрика
Яндекс.Метрика