Глобальные изменения на российском рынке ИТ-инфраструктуры затронули ключевой для любого ЦОДа сегмент электроснабжения. Рассказываем, как проходил процесс выбора и замены источников бесперебойного питания (ИБП) на новые.
В поиске
ИБП (источник бесперебойного питания), как и многие другие элементы ЦОД, имеет ограниченный срок службы, который указывается производителем оборудования. Как правило, вендор рекомендует производить замену компонентов в строго определенные сроки.
Большая часть замены приходится практически на конец срока службы. Для наших ИБП производитель определил 10 лет.
Поэтому замену компонентов системы ИБП в нашем ЦОДе в Петербурге мы планировали задолго до истечения срока эксплуатации «с прицелом на будущее». Обновив ключевые компоненты заранее, можно было продлить срок службы и работоспособность всей системы гарантированного электроснабжения.
В конце 2021 года мы запросили стоимость «железа» и работ по его замене у крупного европейского производителя ИБП, с которым работали с момента запуска дата-центра. Параллельно были разосланы запросы на стоимость нового оборудования и монтажа другим вендорам.
Результаты удивили: разрыв был огромный – установка нового оборудования, то есть полноценных ИБП альтернативных вендоров с нуля, обходилась почти в два раза дешевле, чем замена запасных частей на существующей системе.
К тому же, на новые машины мы получали гарантию минимум в 2 года. Ведь ни для кого не секрет, что от замены всех компонентов оборудование новым все равно не станет.
Поскольку речь шла о суммах в десятки миллионов рублей, выбор в пользу китайского вендора был очевиден.
Впрочем, помимо бюджетных соображений сыграли роль еще два фактора:
Например, в нужный момент из-за нарушений цепочек поставок и общего дефицита необходимого компонента на складе не окажется, а получить его в сжатые сроки будет просто неоткуда. Применительно к сегменту ИБП-решений это довольно критичный момент, игнорировать который чревато «падениями» дата-центра.
Моноблочный формат предполагает объединение в одном блоке, занимающем 2-2,5 телекоммуникационной стойки, всех ключевых компонентов ИБП. Такой подход к архитектуре несет в себе базовый риск – при поломке любого компонента, решение полностью выходит из строя.
Нужен либо максимально оперативный ремонт, либо такая же быстрая замена (переключение) на резервные мощности. Модульная архитектура ИБП предполагает включение в стойку несколько функциональных элементов определенной мощности, которые в сумме дают необходимый объем.
Например, вместо моноблока в 500 кВт можно установить всего один модульный ИБП, который обеспечит аналогичный запас прочности при той же самой мощности. Главное преимущество, помимо экономии пространства, – независимость модулей и возможность их замены « на горячую » силами дежурной смены.
То есть, в случае аварии одного такого модуля система ИБП продолжит нормально работать, «отминусуется» только мощность конкретного модуля, скажем 50 кВт, а не все 500кВт, как в случае с моноблочным решением. Таким образом надежность системы повышается и работоспособность ЦОДа при этом не страдает.
Переход на практике
Как происходил наш переход?
После получения нового оборудования мы начали планирование монтажных работ.
Мы применяем стратегию превентивной проработки различных аварийных ситуаций. Мы разработали и задокументировали все возможные сценарии, оформив их на одном листе с четким порядком действий по устранению аварий по каждому случаю отдельно.
Для обучения навыкам и отработки правильности действий дежурного персонала мы регулярно проводим тренировки. В ходе проекта по замене ИБП подтвердилось, что все это мы делаем не зря.
Работы были разделены на несколько этапов. Каждый подразумевал физическое отключение одного из ИБП. Сложность заключалась в том, что работы проводились на действующем оборудовании и отключения делались «на горячую».
Для отключения кабельных линий от одного из пары ИБП недостаточно отсоединить вводный кабель и батарейные автоматы, требуется еще и отключение нагрузки. Поэтому для проведения такого вида работ требовалась предварительная пошаговая проработка плана переключений.
Было принято решение работы проводить с переходом на байпас. Для этого мы, оценив все риски по недопущению отключения клиентского оборудования при работе, задействовали внешнюю линию электроснабжения.
Но ее нестабильность создавала угрозу отключения одной питающей линии, находившейся на байпасе. Пришлось думать, как снизить риск отключения.
При работе от внешнего источника электроснабжения не приходится рассчитывать на его стабильность. Ведь на бесперебойность подачи электроэнергии и ее качество вы повлиять не в силах. Другое дело принадлежащий вам источник электроснабжения (чаще всего это дизель-генераторная установка, или ДГУ). За его состояние, работоспособность и безотказность несет ответственность служба эксплуатации, т.е. в данном случае мы сами.
Мы решили проводить все работы питаясь от собственного резервного источника ДГУ, а отключение нагрузки выполнять с переходом на байпас.
Нам предстояло отключить пару ИБП, перевести систему на байпас, физически отключить все кабельные линии и линии связи от одного из пары ИБП А1, а затем включить оставшийся источник в работу.
С отключением кабельных линий бесперебойника мы справились немного быстрее, чем планировалось, поэтому второй ИБП мы запустили в работу, не дожидаясь перехода с ДГУ на внешние сети.
Инцидент
Однако в процессе произошел неприятный эпизод.
Мы упустили из вида, что конфигурация работы ИБП подразумевает работу только в паре.
Пришлось переключать линию параллельной работы и ставить заглушки для обхода
данных параметров. После перезагрузки ИБП и отключения байпасной линии система заработала в штатном режиме.
Так второй ИБП взял на себя практически полную нагрузку 95-98%, и время работы от аккумуляторов сократилось до 15 минут. Когда все демонтажные работы были выполнены, мы переключились на внешние сети.
Перейти в автоматическом режиме на внешний источник мы не смогли: при появлении питания на вводах от внешнего источника система должна осуществить переключение от ДГУ на город. Но этого не случилось, и вместо переключения произошло включение секционного выключателя между вводами от ДГУ.
Это никак не сказалось на работе системы, но мы задумались, почему это произошло.
Первое, что пришло в голову, это отказ контроллера управления ГРЩ (главный распределительный щит).
Тогда было принято решение заменить контроллер, переведя систему управления ГРЩ в ручной режим. Замена – длительный и кропотливый процесс, и спустя час контроллер был полностью демонтирован.
После переключения мы проверили состояние всех систем жизнеобеспечения. Все работало, как и прежде.
Спустя некоторое время мы увидели, что свет в электрощитовой «моргнул», затем еще раз, после чего произошло отключение внешнего электроснабжения. Пошла команда на запуск ДГУ. В этот момент все наше внимание было сосредоточено на безаварийном запуске ДГУ и системе гарантированного электроснабжения. Ведь именно она в этот момент находилась без должного резерва.
Для включения ДГУ в работу недостаточно только запуска, система должна быть синхронизирована. На это требуется некоторое время, поэтому, запустив ДГУ, мы отсчитывали время подачи напряжения на вводные автоматы.
Мы знали, что время с момента подачи сигнала запуска ДГУ до подачи напряжения составляет примерно 3 минуты. При этом система мониторинга предупреждала, что время автономной работы от аккумуляторных батарей стремительно падает.
Для нас время от момента запуска до принятия нагрузки длилось вечно, но на момент подачи напряжения на вводные шины и включения ИБП в работу время автономной работы составило те самые проектные и запланированные 3 минуты.
В такой ситуации обратный переход с ДГУ на город был бы невозможен без потери сервисов для ЦОД. Поэтому дежурному оператору внешних сетей было сообщено о том, что мы вынуждены работать на ДГУ до того момента, пока батареи не зарядятся до нужного уровня.
Несмотря на непредвиденные обстоятельства, нам удалось в срок и без потерь осуществить замену всех намеченных источников электроснабжения.
Роль документации
Успеху этой операции способствовали слаженные действия дежурного персонала, и здесь решающим фактором стало то, что у нас разработано большое количество аварийных инструкций, персонал обучен и прошел необходимые противоаварийные тренировки
Огромную роль сыграл уровень детализации в инструкциях на такие случаи: например, очень помог документ «Е-ЕОР-001. Отказ в работе АВР в щите ГРЩ».
Еще задолго до старта проекта в процессе работы с инженерными системами в ЦОДе мы пришли к необходимости проработки любых, даже самых редких и маловероятных (казалось бы) ситуаций путем моделирования, отработки всех возможных сценариев развития инцидентов.
Как мы убедились на практике, подход себя полностью оправдал. Правильно разработанные и понятные инструкции вместе с регулярными тренировками — залог надежной работы ЦОД.
Заключение
Сегодня наблюдается стремительный рост запросов бизнеса и государства на ИТ-инфраструктуру, и модульный формат вписывается в набор инструментов для оптимального ответа на этот тренд.
Моноблочные решения в коммерческих дата-центрах устаревают, и передислоцируются в корпоративные ЦОДы, предполагающие стабильную и прогнозируемую нагрузку.
Традиционные вендоры оборудования в этом сегменте меняться в сторону модульных решений не спешат в силу внутренней бюрократичной системы А многие – просто не могут в силу инерции и необходимости провести революционную перестройку для такого перепрофилирования.
Освобождается ниша, которую, как видим, активно осваивает Китай. Вендоры из Поднебесной быстро проводят тестирование, рассчитывают КП, доставляют свои решения, организовывают внедрение и сопровождение, включая бесплатное обучение и техподдержку.
В это же время вендоры предыдущего поколения предпочитают зарабатывать, выставляя счета (нередко – завышенные по принципу «вы платите за бренд») за компоненты и обслуживание ИБП.
Растет и технологический разрыв в качестве управления между модульными ИБП новых китайских игроков и решениями «мастодонтов» рынка. Например, у модульных ИБП новых компаний управление параметрами часто реализовано через тачскрин-панель, на которой доступны все часто используемые интерфейсы, такие как SNMP, MODBUS TCP, USB.
Обновление ПО для контроллеров доступно через USB-флэш накопитель с файлами прошивок, тогда как в классических ИБП лидеров отрасли настройки до сих пор обновляются через перепрограммирование после полного отключения оборудования системы резервного питания.
Все вышеизложенное мы прошли на собственном опыте. Несмотря на все «приключения» в ходе модернизации, в настоящий момент мы полностью удовлетворены обновлением и планируем с текущих 50% модульных ИБП на площадке нарастить их объем до 100%.
Закажите консультацию специалиста