Роль высокопроизводительных вычислений в современном университете

Алексей Широких, директор по ИТ, Сколковский институт науки и технологий (Сколтех)

«Правильно построенная киберинфраструктура» может восприниматься как достаточно общее определение, но она является важным элементом для университетских исследований и ИТ-специалистов, поддерживающих и развивающих эту инфраструктуру. Например, если в финансовой сфере большую роль играют надежность, защищенность, доступность ИТ-инфраструктуры, то в вузе на первый план выходят масштабируемость и гибкость. В частности, это касается задач, связанных с использованием высокопроизводительных ресурсов, например HPC (high-performance clusters) и суперкомпьютеров.

Развитие таких направлений, как анализ больших данных и моделирование сложных систем, обеспечивает университетам возможность применять новые технологические платформы и архитектуры для совместной работы в рамках реализации глобальных научно-исследовательских проектов. Примером таких проектов и программ является использование адаптивных высокопроизводительных платформ для решения задач − от моделирования погоды до cеквенирование белковых цепочек и ДНК.

С помощью суперкомпьютера ученые могут разрабатывать модели, эффективно анализировать большие объемы данных. В свою очередь, тесное взаимодействие с компаниями – партнерами из различных индустрий с использованием высокотехнологических вычислительных ресурсов университетов позволит лучше проводить анализ данных, ускорить процесс исследований и разработок, повысить эффективность и качество производственных процессов и как результат − конкурентоспособность этих компаний. В то же время разработка и проектирование нового поколения с высоким уровнем сложности требуют серьезных инициатив, которые будут способствовать глубокому сотрудничеству разработчиков приложений и поставщиков HPC-платформ.

История развития современных суперкомпьютеров может быть разделена на три ключевые эпохи вычислений: мэйнфреймы, векторные и массивно параллельные (Massive Paralel Proccessors). Наступает четвертая эра суперкомпьютеров − многоядерной архитектуры, характеризующейся большим количеством графических ускорителей (GPU) и значительным количеством простых вычислительных ядер (CPU), что позволяет создавать параллельную архитектуру вычислений.

Одновременно с созданием новых вычислительных архитектур большое внимание уделяется таким областям, как ИТ-инфраструктура для построения суперкомпьютерных ресурсов. Один из примеров − дата-центр в штате Массачусетс, построенный консорциумом пяти университетов, включающим такие образовательные организации, как МТИ, Гарвард – Massachusetts Green High-Performance Computing Center (www.mghpcc.org). Параметры данного ЦОД – более 650 вычислительных стоек, 15 МВ электрической мощности, PUE около 1,3, сертифицирован как LEED Platinum с точки зрения достижения энергоэффективности. Этот дата-центр планируется использовать для размещения высокопроизводительных ресурсов академического сообщества. В реализации данного проекта существенную помощь и поддержку оказывали власти штата Массачусетс.

Помимо реализации программы высокопроизводительных вычислений ключевыми элементами будущей экосистемы по предоставлению услуг HPC являются технологии, связанные с перспективными технологиями визуализации и высокопроизводительными сетями передачи данных. Стоит также отметить необходимость наличия квалифицированных ресурсов по миграции и написанию программного обеспечения, использующего новые процессорные архитектуры, которые появляются на рынке HPC, к примеру Национальный центр по вычислениям (NCSA) в Университете Иллинойс на базе суперкомпьютера BlueWaters, использующего гибридное решение Cray XE/XK CPU AMD 6276 и графические ускорители NVIDIA GK110. Пиковая производительность данного суперкомпьютера составляет 13,34 PF, общая доступная память около 1,476 PB, потребляемая электрическая энергия примерно 15 MW. Решение Центра вычислений в Университете Техас (TACC) Stampeede построено на аналогичной архитектуре со следующими параметрами: 6400 вычислительных узлов и 102 400 ядер, общая память 205 TB, пиковая производительность 14 PB и система хранения данных объемом в 1,6 PB.

Однако наличие мощных суперкомпьютеров не решает общую проблему высокопроизводительных вычислений. В частности, компьютерные платформы продолжают претерпевать период разрушительных перемен по переходу к новым моделям и архитектурам вычислений. HPC-индустрия должна быть готова и к сопутствующим разрушительным последствиям для научных приложений. Проблемы, связанные с этими значительными изменениями, также требуют целенаправленных мероприятий по подготовке научного сообщества. Необходимые технологические инновации для перехода на масштабы вычислений ExaScale хорошо известны и уже сегодня влияют и на разработчиков приложений, и на пользователей. Во-первых, это усложнение аппаратной части суперкомпьютеров. Компьютерная техника пока обеспечивает беспрецедентные уровни параллелизма и производительности. Однако аппаратная часть системы становится все более разнообразной и гетерогенной, в результате чего поведение производительности все сложнее диагностировать и использовать в вычислениях. Кроме того, возрастающее количество вычислительных ядер и увеличивающаяся плотность приводят к расхождению с реалиями рынка производителей типовых процессоров, составляющих основу новых платформ HPC. Во-вторых, увеличение сложности программного обеспечения и аппаратных платформ обусловливает усложнение стека ПО системы и прикладного. Задача реализации надежности исходного кода отражается и в требовании по поддержке программного обеспечения в рамках модульных решений и улучшений. В-третьих, возрастает сложность программной модели современного НPC. Спектр доступных программных решений для параллельных вычислительных систем стал шире, что обеспечивает выбор для различных потребностей разработчиков. В то же время набор программных элементов моделей, необходимых для получения высокой производительности и масштабируемости, является сложным, таким как MPI, OpenMP, CUDA и т. д. В ближайшее время этот список будет расширяться в направлении вычислений с использованием NVRAM, структурированных/ иерархических межсоединений (interconnects). Реализация всех этих задач является достаточно сложной ввиду того, что поставщики систем и разработчики инструментов сталкиваются с проблемой создания более эффективных пользовательского интерфейса и среды программирования. Также важно отметить повышенную потребность в инновациях в области создания алгоритмов. Аппаратные характеристики становятся более экстремальными, поэтому для приложения становится все труднее поддерживать пиковую производительность. Новые алгоритмы и модели программирования потребуются для того, чтобы предотвратить узкие места в производительности приложений и отказоустойчивости алгоритмов. Будущие разработки должны быть направлены на развитие критически важных алгоритмов и программного обеспечения для решения проблем с перспективным оборудованием для HPC. Прогнозы, касающиеся замедления роста производительности в рамках закона Мура вследствие устойчивого прогресса процессоров, и невозможность реализовать Exaflop-системы требуемой мощности будут оказывать негативное влияние на достижение исследовательских целей науки. Кроме того, инновации в аппаратных платформах будут способствовать улучшению управления питанием на уровне приложений и в рамках оптимизации алгоритмов и кодов.

Вопрос больших данных в рамках HPC-платформ исторически является одним из ключевых, так как высокопроизводительные решения используют большие объемы данных для анализа, а в масштабах ExaScale-вычислений генерация данных ожидается в гораздо большем масштабе. Улучшения в управлении данными, их анализе и моделировании обещают новые инновационные подходы в сфере высокопроизводительных вычислений и научные открытия в области анализа больших данных и их применения как в научной деятельности, так и в индустрии.

Следите за нашими новостями в Телеграм-канале Connect


Поделиться:



Следите за нашими новостями в
Телеграм-канале Connect

Спецпроект

Медицинские задачи для ИИ

Подробнее
Спецпроект

Цифровой Росатом

Подробнее


Подпишитесь
на нашу рассылку