Особенности проектирования и строительства катастрофоустойчивого дата-центра

Александр Мартынюк, генеральный директор «Ди Си квадрат»

Существует мнение, что задача обеспечения максимальной доступности приложений и полной защищенности информационных хранилищ имеет лишь один вариант решения – создание очень дорогостоящего объекта, на 99,995% устойчивого к любым неблагоприятным факторам. Так ли это? Давайте попробуем разобраться вместе.

Для начала необходимо понять, что именно и в каких масштабах необходимо защитить от нештатных ситуаций. Так ли уж важно, чтобы абсолютно все информационные ресурсы и массивы, в том числе постоянно обновляемые, были доступны для пользователей корпоративной информационной системы в любой момент времени в последней редакции? Какими параметрами можно измерить критичность тех или иных информационных ресурсов? Какова динамика изменения этих параметров на данный момент? Какой прогноз на перспективу? В какой степени разные категории информационных ресурсов организации/компании/производства влияют друг на друга и на итоговый продукт или услугу?

Чтобы ответить на эти вопросы, необходимо провести глубокий аудит ИТ-инфраструктуры, по окончании которого составляется детальный реестр – своеобразный ИТ-паспорт. Занятие это непростое, трудоемкое и самым непосредственным образом влияющее на успех всего проекта. Поэтому данный этап без преувеличения является ключевой особенностью проектов катастрофоустойчивых ЦОД. Основными исполнителями аудита становятся ИТ-специалисты организации. Кому, как не им, знать ответы на вышеперечисленные вопросы. В то же время не будет лишним привлечение опытного консультанта, имеющего в арсенале как собственные наработки, так и примеры из международной практики. Его участие поможет избежать досадных оплошностей, которые случаются либо в ходе проектирования, либо уже на стадии эксплуатации ЦОД. Кроме того, квалифицированный консультант приложит все усилия, для того чтобы проектная задача была сформулирована максимально точно, что снизит риск необоснованных затрат. Чем точнее задача – тем менее раздутым будет проектный бюджет и менее «резиновыми» сроки реализации.

Почему это так важно? Потому что если все сделать правильно, то может оказаться, что нет необходимости строить катастрофоустойчивый ЦОД уровня TIER IV (к примеру, на 200 стоек) с полным дублированием всех элементов инженерной инфраструктуры – вполне достаточно построить ЦОД Tier III, в пределах которого будет организована Tier IV-зона для критичных приложений с дублированием элементов энергоснабжения (в нашем примере это может быть соотношение 180 стоек Tier III к 20 Tier IV). А это уже совсем другие деньги: как видно из таблицы Uptime Institute, при совпадении базовых параметров Tier III и Tier IV стоимость оснащения 1 м² серверного зала и затраты на его жизнеобеспечение заметно отличаются. Но об этом чуть позже.

Сейчас объектом нашего внимания станет этап выбора концепции проекта. Тут есть три варианта:

реализация классической модели, в рамках которой создаются три дата-центра (основной, резервный, в пределах 7–10 км от первого, и «черный ящик», удаленный на 40–70 км);
строительство объекта, полностью соответствующего требованиям к Tier IV (с получением сертификата Uptime Institute);
организация территориально распределенной модели на уровне ИТ-ресурсов.

Прежде чем рассматривать достоинства и особенности каждого из этих концептов, стоит заметить, что возможен гибридный вариант, включающий в себя любые две или все три перечисленные модели.

Вариант классической трехузловой модели на протяжении не одного десятка лет остается наиболее популярным в Западной Европе и США. Это вполне логично и экономически оправданно. Во-первых, потому, что подобрать хорошую площадку под полноценный дата-центр Tier IV довольно сложно. В России – особенно (разве что за Уралом, и то не факт). Это должно быть не просто отдельно стоящее здание, оно должно стоять на незатопляемой территории, на удалении от железных дорог, аэропортов, оживленных транспортных магистралей (источников вибрации), вне зоны риска, связанного с прохождением газопроводов и наличием гидро- и атомных электростанций. При этом и строителям и, главное, сотрудникам дата-центра должно быть удобно добираться на объект и комфортно на нем работать. Добавим сюда же необходимость подведения качественных каналов связи, с которыми в России ситуация далека от желаемого.

Во-вторых, при разворачивании трехузловой сети в распоряжение заказчика поступает значительно бóльшая площадь, что открывает дополнительные возможности для наращивания ДЦ-инфраструктуры и ее модернизации после запуска.

В-третьих, используя терминологию финансистов, мы получаем более «длинные» деньги, что позволяет повысить эффективность их использования. Помимо этого улучшаются показатели ТСО (Total Cost of Ownership – совокупная стоимость владения).

Если все-таки сложилось понимание, что нужен именно дата-центр Tier IV, то оптимальным решением может стать вариант бункера. Но здесь следует учитывать, что есть серьезные ограничения по площади и отделке толстых стен, по размещению большого количества оборудования снаружи, по дороговизне проектирования и производства инженерных решений с заведомо более высокой плотностью их взаимного расположения, но при этом с удобным доступом людей для выполнения регламентных и аварийных работ. При этом для Tier IV все инженерные системы должны быть продублированы, а уровень автоматизации всех процессов должен свести к минимуму степень влияния человеческого фактора. Для того чтобы устранить данное противоречие (мало места, много дублирующих элементов), возможно, понадобится разработка индивидуальных конфигураций системы отвода тепла и других крупногабаритных элементов инженерной инфраструктуры.

Кроме того, раз уж так важно построить полноценный ЦОД Tier IV, то в бюджет проекта необходимо заложить расходы на сертификацию объекта в Uptime Institute – как минимум, на этапе разработки документации и при сдаче его в эксплуатацию плюс подтвердить компетентность службы эксплуатации впоследствии. Это действительно важно, потому что при столь высокой значимости проекта и размере возможных бизнес-потерь в случае нештатной ситуации наличие сертификата Uptime Institute свидетельствует о том, что была проведена многоступенчатая экспертиза дата-центра на предмет устойчивости приложений к рискам и угрозам. Практика показывает, что именно при таком подходе удается предусмотреть всевозможные и «невозможные» нештатные ситуации и регламентные работы, способные повлиять на непрерывную доступность приложений и хранилищ информации. Таким образом, у поставщика услуг дата-центра формируется необходимый ему запас уверенности в том, что при соблюдении рекомендованных для Tier IV условий эксплуатации дата-центра он сможет обеспечить заявленное качество сервисов и гарантии по SLA. Стоит иметь в виду, что сертификат на дизайн проект (Tier Certification of Design Documents) действителен два года, и если к моменту истечения этого срока дата-центр не сертифицирован в готовом виде (т. е. не получен Tier Certification of Constructed Facility), то первый сертификат теряет силу, так как Uptime Institute (UTI) не берет на себя ответственность за возможные отклонения от первичного замысла. Правда, возможны варианты, когда при задержке сроков окончания проекта, выполняемого в соответствии с сертифицированным дизайном дата-центра, UTI идет навстречу и сохраняет силу первого сертификата.

Раз уж зашла речь об UTI, то имеет смысл напомнить, что участие в проекте специалистов, прошедших обучение по программе Accredited Tier Designer (ATD), позволит лучше и быстрее подготовить дизайн-проект к сертификации и максимально корректно сформулировать критерии оценки качества для дальнейших этапов с учетом специфики деятельности заказчика и последовательности работ. К числу таких требований, помимо стандартных для Tier IV нагрузочной способности несущих конструкций и пола, параметров отделочных материалов, высокого качества монтажа и прочего, могут относиться меры по обеспечению дополнительной безопасности дата-центра (например, правильный выбор систем биометрического контроля, установка средств защиты от проникновения в помещения и т. д.). Особое внимание уделяется вопросам максимально возможной защиты работы ЦОД от вмешательства человека. Несмотря на то что использование средств автоматизации внутренних процессов заметно удорожает проект, эти затраты неизмеримо меньше возможных потерь и косвенного ущерба, который влекут за собой ошибки персонала. В остальном каких-либо уникальных секретов, отличающих проект создания катастрофоустойчивого дата-центра от стандартного Tier III, практически нет.

Повторюсь, решение о строительстве дата-центра, полностью отвечающего требованиям Tier IV, принимается довольно редко. Гораздо чаще предпочтение отдается компромиссному решению, когда в рамках дата-центра Tier III оборудуется зона с уровнем отказоустойчивости инфраструктуры Tier IV (в России подобные решения получили неофициальный статус Tier III+). Либо создаются сети из двух-трех дата-центров уровня Tier III, но их инженерная и вычислительная инфраструктура продумывается таким образом, чтобы в случае выхода из строя одной из площадок другая (другие) могла принять на себя всю нагрузку. Вариантов такой сети несколько. Это могут быть как собственные площадки, так и площадки на базе коммерческих дата-центров (лучше – сертифицированных)*.

Есть еще один подход, набирающий популярность в последние годы, – организация вычислительной инфраструктуры на базе территориально распределенных кластеров. По мере обеспечения безопасности облачных сред и средств шифрования информации этот подход приобретает все больше конкурентных преимуществ, поскольку позволяет частично или полностью уйти от капиталовложений и переориентировать усилия ИТ-специалистов на повышение качества и санкционированной доступности предоставляемых сервисов. В западной практике прогресс в данном направлении уже заметен. В России также прозвучали заявления о готовности обеспечить высокий уровень отказоустойчивости бизнес-процессов – вплоть до соответствия требованиям банковского стандарта безопасности данных индустрии платежных карт PCI DSS (Payment Card Industry Data Security Standard), разработанного Советом по стандартам безопасности индустрии платежных карт (Payment Card Industry Security Standards Council – PCI SSC). Не исключено, что в обозримом будущем катастрофоустойчивые решения такого типа получат необходимый кредит доверия и станут привычными.

В заключение приведем краткий перечень установок, на которые имеет смысл ориентироваться при рассмотрении вопросов обеспечения непрерывности и защищенности вычислительных операций и процессов обмена данными.

Катастрофоустойчивый дата-центр – не самоцель и не фактор ИТ-моды. Не разбрасывайтесь деньгами. Постарайтесь правильно расставить приоритеты и понять, что же вам на самом деле нужно. Не зацикливайтесь на стереотипных подходах к обеспечению непрерывности высокотехнологичных бизнес-процессов – возможно, именно в вашем случае оптимальным будет иной подход.
Привлекайте в проект сертифицированных специалистов, не пытайтесь выдать желаемое представление об уровне компетенций своих специалистов за действительность – это позволит избежать «непредвиденных» ситуаций и защитить инвестиции.
Не пренебрегайте сертификацией своего дата-центра как на этапе проработки дизайна, так и в процессе строительства – сотрудничество с опытными практиками и экспертами UTI поможет предусмотреть все риски и нюансы эксплуатации дата-центра и впоследствии обеспечит вам конкурентные преимущества.

Следите за нашими новостями в Телеграм-канале Connect

Особенности проектирования и строительства катастрофоустойчивого дата-центра

Следите за нашими новостями в
Телеграм-канале Connect

Еще по теме

Цифровой девелопмент

Машиностроительные предприятия инвестируют в ПО

Следите за нашими новостями вТелеграм-канале Connect

Еще по теме

Цифровой девелопмент

Машиностроительные предприятия инвестируют в ПО

Следите за нашими новостями в
Телеграм-канале Connect