Китайские инструменты для анализа данных производительнее решений open source

Компания Axenix провела исследование рынка китайского ПО, используемого для создания систем класса DWH, и сравнила функциональность и производительность этих продуктов, с аналогами, используемыми на российском рынке.

С 2022 г. в России активно трансформируется рынок систем класса DWH (Data Warehouse, системы хранилищ данных). Компании энтерпрайз-сегмента реализуют проекты по миграции своих хранилищ данных на отечественные продукты, однако выбор доступных технологий сильно ограничен. На рынке нашей страны преобладают решения, построенные на базе open source продуктов. Наиболее распространенные – сборки российских вендоров на базе Greenplum и Clickhouse. Также активно развивается архитектура Lakehouse, в основе которой такие решения, как Impala, Trino, Spark.

Массово-параллельная аналитическая СУБД Greenplum часто используется российскими заказчиками благодаря сравнительно простой архитектуре и тому, что она основана на широко распространённой СУБД PostgreSQL. Это делает её удобной для внедрения и сопровождения. Однако у этой технологии есть ограничения, которые не позволяют охватить все требования российских компаний.

Методика тестирования

При выборе СУБД и платформ для анализа больших данных российские команды разработчиков часто не имеют возможности оценить реальную производительность решений тестирование проводится на ограниченном числе задач или в рамках узких кейсов. Поведение системы при масштабировании на реальном проекте нередко становится неожиданностью. Команда Axenix провела нагрузочное тестирование функциональности выполнения аналитических запросов.

Тестировались решения китайских вендоров Transwarp и YMatrix, а также наиболее популярные решения на базе open source: Greenplum, Trino и Apache Spark. Продукты китайских вендоров (Transwarp и YMatrix) продемонстрировали более высокую производительность по сравнению с популярными на рынке open source-инструментами.

«СУБД и платформы для обработки и аналитики данных – ключевые элементы в нашей практике Applied Intelligence. На их основе создаются корпоративные хранилища данных, их возможности учитываются при создании различных сервисов, которые эти данные используют. Расширенное тестирование решений от китайских вендоров позволило нам определить круг надёжных продуктов, способных не только эффективно обрабатывать десятки и сотни терабайт данных, но и выдерживать высокую конкурентную нагрузку в режиме близком к реальному времени», – рассказала Татьяна Кириленко, руководитель направления «Инженерия и архитектура данных» Axenix.

Результаты тестирования показали, что китайские решения превосходят Greenplum по производительности – в большинстве сценариев разница достигает кратных значений.

Выводы исследователей

В ходе тестирования специалисты Axenix пришли к следующим выводам:

  • Transwarp показал наивысшую производительность, сбалансированную стоимость и возможность сохранения логики приложений при миграции с Oracle и Teradata. Платформа также характеризуется зрелой экосистемой и высоким уровнем стабильности.
  • YMatrixзанял второе место по производительности. Решение развивается как совместимое с Greenplum, но имеет ряд улучшений, включая оптимизацию исполнения запросов и встроенные механизмы интеграции с потоковыми и другими источниками данных.
  • Greenplum– зрелая и надёжная платформа для построения корпоративных хранилищ данных. Несмотря на богатый функционал, архитектура Greenplum не в полной мере использует потенциал современных аппаратных решений, что может ограничивать её производительность в ряде сценариев. В ходе тестирования она продемонстрировала наименьшую производительность среди всех участников.
  • Trino– высокопроизводительный SQL-движок, ориентированный на выполнение интерактивных запросов к данным, находящимся в различных хранилищах. Он легко устанавливается, масштабируется и не требует переноса данных – работает «поверх» существующих источников. Trino не является СУБД в классическом смысле и не хранит данные самостоятельно.
  • Apache Spark– мощная платформа для распределённой обработки больших объёмов данных, включая потоковые и пакетные сценарии. Spark поддерживает SQL через модуль Spark SQL, а также более гибкие модели работы с данными, такие как DataFrame. Несмотря на универсальность, Spark показал меньшую производительность в интерактивных запросах по сравнению с Trino, что объясняется особенностями архитектуры.

Все протестированные решения показали стабильную работу при обработке больших объемов данных и различную степень масштабируемости и эластичности.

 Комментарий эксперта

«Результаты тестирования продуктов китайских вендоров показали, что они могут превосходить по эффективности популярные open source-решения. Transwarp, YMatrix и Trino продемонстрировали отличное быстродействие и могут быть успешно применены в проектах создания корпоративных хранилищ данных», – пояснил Андрей Михайлов, руководитель команды разработки хранилищ данных Axenix.

Для тестирования использовался стандартный бенчмарк TPC-DS (Transaction Processing Performance Council – Decision Support), предназначенный для оценки производительности аналитических СУБД. Он включает разнообразные сценарии и запросы, позволяет генерировать синтетические данные в нужных объёмах и обеспечивает сопоставимость результатов.

Тестирование проводилось на единых ресурсах, развернутых в облаке российского провайдера: использовались виртуальные машины с 16 vCPU, 64 ГБ оперативной памяти и быстрым SSD-хранилищем.

Следите за нашими новостями в Телеграм-канале Connect





Следите за нашими новостями в
Телеграм-канале Connect

Спецпроект

Цифровой девелопмент

Подробнее
Спецпроект

Машиностроительные предприятия инвестируют в ПО

Подробнее