Облачная платформа

К разделу «Облачная платформа

Облачные ресурсы IaaS
Облачные ресурсы IaaS
Облачная платформа на базе собственных дата-центров уровня TIER III
Ускоренные вычисления на базе NVIDIA GPU
Ускоренные вычисления на базе NVIDIA GPU
Для сложных вычислений, машинного обучения и обработки видео/3D-графики
Частное облако
Частное облако
Защищенное частное облако (УЗ-1, К-1, лицензии ФСБ и ФСТЭК)
Кластеры Kubernetes
Кластеры Kubernetes
Развертывание, масштабирование, репликация и мониторинг контейнерных приложений
Защищенное облако 152-ФЗ
Защищенное облако 152-ФЗ
Размещение конфиденциальных данных в защищенной инфраструктуре и аудит работы с персональными данными
DRaaS — аварийное восстановление
DRaaS — аварийное восстановление
Аварийное восстановление ИТ-инфраструктуры. Защитите ИТ-системы уже сегодня!
Серверы в аренду VPS/VDS
Серверы в аренду VPS/VDS
Высокопроизводительные виртуальные серверы для бизнеса и разработчиков
Резервное копирование для бизнеса
Резервное копирование для бизнеса
Автоматизированное управление резервными копиями виртуальных машин и баз данных
База данных в облаке
База данных в облаке
Управляемые СУБД с масштабированием по мере необходимости и высоким SLA
Миграция в облако Linx Cloud
Миграция в облако Linx Cloud
Перенос IT-инфраструктуры в облако Linx Cloud из других платформ
Объектное хранилище S3
Объектное хранилище S3
Защищенное объектное хранилище S3 по стандартам 152-ФЗ на платформе Linx Cloud
Облако для ВУЗов
Облако для ВУЗов
25% скидка на облачные сервисы от цены прайса на год!
Безопасность

К разделу «Безопасность

Статический анализ исходного кода SAST
Статический анализ исходного кода SAST
Облачный сервис для защиты приложений на этапе разработки исходного кода
Двухфакторная аутентификация MFA
Двухфакторная аутентификация MFA
Удаленный доступ – легко и безопасно. Сервис MFA подходит для любого типа инфраструктуры
Облачная защита WAF + AntiDDoS
Облачная защита WAF + AntiDDoS
Многоуровневая защита интернет-ресурсов и веб-приложений с минимальными вложениями
Межсетевой экран нового поколения NGFW
Межсетевой экран нового поколения NGFW
Виртуальный межсетевой экран нового поколения для комплексной защиты ресурсов в облаке
Антивирус
Антивирус
Защита инфраструктуры от вирусов и шифровальщиков
Сканирование на уязвимости
Сканирование на уязвимости
Мониторинг и оценка уязвимостей ИТ-инфраструктуры
Security Operations Center (SOC)
Security Operations Center (SOC)
Центр противодействия кибератакам на любом этапе инцидента
ГОСТ-VPN
ГОСТ-VPN
Защищенный канал связи для ИСПДн
Межсетевой экран
Межсетевой экран
Защита сети компании от несанкционированного доступа извне
Аттестация частного облака для ГИС
Аттестация частного облака для ГИС
Размещение госинформационных систем «под ключ» с соблюдением К1 и УЗ-1 (ИСПДн)
Security Awareness
Security Awareness
Обучение сотрудников навыкам информационной безопасности на базе онлайн-платформы
Тарифы База знаний
Облако
Назад к публикациям

Топ-5 ошибок службы эксплуатации ЦОД

Статья
23.08.2023 3 минуты чтения
Топ-5 ошибок службы эксплуатации ЦОД

Как мы обещали ранее, в данной статье попытаемся перечислить типовые ошибки службы эксплуатации ЦОД. В очередной раз оговоримся, что все описанное ниже является сугубо нашим личным мнением, базирующемся на собственном опыте и взаимодействии с примерно десятком других служб эксплуатации, что, конечно же, не является большой выборкой. Но раз ранее уже было написано про ошибки потребителей услуг и проектировщиков, то нельзя обойти и третью сторону...

Боязнь тестировать ДГУ на полную нагрузку ЦОД

В предыдущей статье мы подробно описывали причины, почему собственный ДГУ должен быть надежным источником электроснабжения ЦОД, постоянно готовым к работе любой длительности. Более того, отключение городской сети и переключение на ДГУ должны восприниматься дежурным персоналом ЦОД как рутинный, многократно отработанный переход на работу от другого источника энергии, а не экстремальная ситуация. В пункте 2.5 Uptime Institute Tier Standard: Topology это описано так: «Перебои в электрической сети (внешней – примечание автора) считаются не аварийной ситуацией, а ожидаемым рабочим условием, к которому площадка полностью подготовлена». Только если в процессе перехода какая-то система сработает «нештатно», ситуацию следует признать аварийной и требующей своевременного устранения.

Добиться такого отношения к этой для многих «волнительной» процедуре можно только регулярными плановыми переключениями всей нагрузки ЦОД с основного источника электроснабжения на ДГУ. В результате будет проверено влияние переключения на всю технологическую цепочку критического оборудования ЦОД, выявлены и улучшены технические уязвимости. Персонал, в свою очередь, отработает действия при этих переключениях в реальных условиях, а не на бумаге, что позволит дежурным не растеряться при реальном отключении городского ввода.

К сожалению, в некоторых ЦОДах придерживаются принципа «а как бы чего не случилось» и либо тестируют ДГУ исключительно на нагрузочные модули (так называемые индивидуальные испытания), либо вообще запускают ДГУ только на холостом ходу. В результате при первом реальном отключении выясняется, что либо ДГУ не готовы к полноценной работе на полную нагрузку ЦОД, либо другие критические системы (например холодоснабжение) не работают корректно во время и после перехода на ДГУ, либо персонал растерялся и не способен устранить даже элементарные сбои в процессе переключения.

Тестовые переключения ЦОД с основного источника на ДГУ должны выполняться регулярно на основании заранее утвержденного графика. Каких-либо нормативов на этот счет нет, мы выбрали для себя такой график – запуск ДГУ без нагрузки (так называемый «прогрев») один раз в неделю, полное переключение ЦОД на работу от ДГУ – раз в квартал.

Поделимся нашим лайфхаком по организации таких переключений. Как при наличии напряжения на основном вводе перейти на ДГУ, не переводя автоматику ГРЩ в «ручной режим» и тем самым сильно увеличивая вероятность человеческой ошибки? Для этого достаточно предусмотреть в ГРЩ режим под условным названием «принудительное отключение основного ввода». При повороте соответствующего тумблера со входа контроллера АВР ГРЩ будет отключаться сигнал наличия напряжения на основном вводе, что в свою очередь приведет к активации автоматического режима перехода на ДГУ. Данная функция также будет вам полезна, если напряжение (или частота) на основном вводе нестабильны, в результате чего ЦОД циклично переходит на ДГУ и обратно. Она позволит вам, оставаясь в автоматическом режиме, игнорировать появление и пропадание напряжения на основном вводе и получать стабильное электроснабжение от вашего ДГУ, пока внешний поставщик не исправит ситуацию с параметрами напряжения на основном вводе.

Отсутствие контроля за парными нагрузками и управления мощностями ЦОД

Что такое парные нагрузки и к чему приводит превышение их лимита, мы подробно описывали тут. Для сохранения требуемого уровня резервирования служба эксплуатации должна вести контроль парных нагрузок между всеми резервирующими друг друга компонентами критических систем ЦОД, в частности:

  • комплекс ДГУ и городской ввод,
  • ГРЩ А и B,
  • ИБП А и B,
  • щиты гарантированного питания А и B,
  • шинопроводы А и B,
  • PDU А и В,
  • трассы холодоснабжения А и B (если система охлаждения имеет их).

Также нужно контролировать соблюдение лимита N для систем с резервированием N+1, чаще всего это:

  • агрегаты ДГУ,
  • чиллеры или градирни,
  • фанкойлы или кондиционеры.

Процесс контроля парных нагрузок должен быть совмещен с процессом управления ресурсами, выделенными для ЦОД (например, сколько энергии куплено у города), и ресурсами, доступными для клиентов (например, сколько установлено ИБП и ДГУ). Так как ЦОД заполняется постепенно, на основании данных, полученных от отдела продаж, служба эксплуатации должна заранее заказывать у поставщиков и вводить в работу новые мощности технологического оборудования ЦОД, чтобы избежать ситуации, когда оборудование новых клиентов устанавливается за счет резервной мощности. Напомним еще раз — любая избыточность, заложенная для резервирования, позволяет потреблять больше ресурсов, но как только это случается, уровень резервирования превращается в N (то есть резерва нет).

Использование устаревших систем мониторинга

Если технологическое оборудование подвержено износу и ЦОДы вынуждены постепенно модернизировать его и заменять на более современное, как это сделали мы с ИБП, то датчики и софт системы мониторинга могут работать очень долго даже без обновлений и поддержки, при этом катастрофически устаревая морально на фоне новых программных продуктов.

Основные черты систем мониторинга ЦОД были заложены в самом начале формирования индустрии ЦОД. Традиционно развитие шло по двум направлениям, с одной стороны стандартные «коробочные» версии от больших вендоров, с ограниченным функционалом не предполагающим кастомизации под ваши задачи, и с другой стороны, так как многие провайдеры ЦОДов вышли из телеком-операторов, применялись системы на базе инструментов мониторинга ИТ/телеком-инфраструктуры Zabbix и Prometheus+Grafana. Реже применялись «самописные» решения на базе открытых SCADA систем, а иногда встречались и такие примитивные решения, как на фото .

Не все службы эксплуатации понимают, что за более чем 10 лет архитектура и функционал доступного программного обеспечения ушли далеко вперед и от системы мониторинга можно добиться много большей эффективности, мобильности, информативности и надежности. Возможно, это происходит в том числе из-за того, что на рынке до сих пор очень мало достойных систем мониторинга, действительно отличающихся от классических устаревших продуктов, а создание решений “с нуля” под свои требования сопряжено с большими сложностями и трудозатратами.

Обратим внимание, что система мониторинга, хоть и не является критической системой ЦОД, в случае сбоя радикально снижает способность команды эксплуатации реагировать на аварийные ситуации, поэтому отдельное внимание следует уделить отказоустойчивости ее основных компонентов.

Низкий уровень коммуникаций с клиентами

В зоне ответственности клиентов находится много вопросов, напрямую влияющих на надежность их инфраструктуры, расположенной в ЦОД. Не стоит ожидать, что клиенты заранее будут понимать все особенности и правила правильного размещения оборудования в ЦОД. Поэтому службе эксплуатации ЦОД следует вести превентивную работу по информированию клиентов, которая может быть реализована следующими способами:

  • Вводный инструктаж с каждым сотрудником клиента, имеющим постоянный доступ, на котором помимо традиционного перечисления «опасных факторов на производстве» значительное внимание должно быть уделено особенностям данного ЦОД и типовым ошибкам клиентов с рекомендациями, как их избежать.

Например, в нашем ЦОД реализован онлайн вводный инструктаж, доступный для клиентов по внешней ссылке.

В конце инструктажа необходимо пройти тест, после выполнения которого на службу охраны ЦОД автоматически поступает сообщение об успешном прохождении вводного инструктажа.

  • Предоставление клиентам документа (желательно оформленного как приложение к договору размещения оборудования) под условным названием «Руководство клиента ЦОД», в котором исчерпывающе изложены все вопросы, касающиеся размещения оборудования клиента в ЦОД. Именно на основании этого документа и создается вводный инструктаж.
  • Наглядная агитация в серверных в виде обучающих плакатов и табличек, как на стенах помещений, так и внутри стоек.

  • Мониторинг парных нагрузок в стойках средствами БМС ЦОД и информирование клиента о их превышении.
  • Предоставление клиентам услуги личного кабинета, в котором в реальном времени отражается информация из системы мониторинга ЦОД.

Боязнь аудитов и нежелание проходить их самостоятельно

Многие ЦОДы всячески стараются избегать прохождения аудитов, так как либо не уверены в своих силах, либо не видят в них пользы. Обычно для таких служб эксплуатации важным является выполнение только требований обязательных норм и правил (электробезопасность, охрана труда, пожарная безопасность и т.п.). Дополнительно они вынуждены проходить аудиты со стороны клиентов, каждый из которых является серьезным стрессоми требует специальной подготовки. Команда эксплуатации ЦОД Linx Datacenter прошла большое число различных аудитов, и мы абсолютно точно можем утверждать, что:

  • Большинство применимых отраслевых аудитов (Uptime Management and Operations, ISO, проверки Ростехнадзора, аудиты со стороны клиентов и т.д.) имеют множество действительно полезных и обоснованных требований, а главное большинство проверяемых вопросов схожи, хотя зачастую и звучат по-разному.
  • Вполне реально создать систему («экосистему», как сейчас модно говорить) процессов и документации, удовлетворяющую всем требованиям различных аудитов, при этом не ведя «двойную» документацию под требования различных аудитов.
  • Созданные процессы, документация и уровень осведомленности персонала службы эксплуатации могут и должны поддерживаться на уровне, позволяющем в любой момент пройти любой применимый аудит без специальной подготовки.
  • Прохождение аудитов гарантированно повышает уровень процессов службы эксплуатации и помогает их совершенствовать, а боязнь аудитов наоборот не дает службе эксплуатации развиваться. Даже самый типовой аудит может поставить перед вами вопрос, который вы упустили в своих процессах. И это замечательно, ведь вам помогли найти уязвимость, и вы получили возможность устранить ее. Если аудитор обладает высокой квалификацией и четко понимает, почему он что-то требует, проходить аудит становится очень интересно и полезно.

Но как перестать бояться аудитов и начать говорить с аудиторами на одном языке? В одной статье это невозможно описать, поэтому наша команда готовит к изданию книгу, в которой подробно, с примерами и ссылками, описан процесс эксплуатации ЦОД с учетом требований обязательных норм и правил, отраслевых «best practice», философии MOP, SOP, EOP и опыта прохождения всевозможных аудитов, в том числе многократной аттестации Uptime Institute Management & Operations Stamp of Approval.

Константин Нагорный
Автор статьи
Константин Нагорный

Главный инженер ЦОД Linx Datacenter в Санкт-Петербурге

Остались вопросы?

Опишите вашу задачу, и мы поможем вам ее решить

Или напишите нам info@linxdatacenter.com
Нажимая кнопку «Отправить», вы соглашаетесь с Политикой обработки персональных данных ООО «Связь ВСД»
Читать также
Открытые и не-мейнстримные инструменты для развертки инфраструктуры на Kubernetes [а также лучшие практики]
Открытые и не-мейнстримные инструменты для развертки инфраструктуры на Kubernetes [а также лучшие практики]
Статья
11.12.2025 6 мин. минут чтения 6 мин. мин
Алексей Корулин, Linx Cloud — Когда бизнес дозревает до частного облака
Алексей Корулин, Linx Cloud — Когда бизнес дозревает до частного облака
Статья
20.10.2025 10 мин. минут чтения 10 мин. мин
Граница на замке – особенности работы с персональными данными в России
Граница на замке – особенности работы с персональными данными в России
Статья
14.10.2025 5 мин. минут чтения 5 мин. мин
Linx Cloud запускает новое направление профессиональных сервисов
Linx Cloud запускает новое направление профессиональных сервисов
Новость
02.10.2025 3 мин. минуты чтения 3 мин. мин
Linx Cloud повысил гарантированный SLA по облачным сервисам до 99,99%
Linx Cloud повысил гарантированный SLA по облачным сервисам до 99,99%
Новость
25.09.2025 5 мин. минут чтения 5 мин. мин
Linx Cloud запустил сервис облачного объектного хранилища S3
Linx Cloud запустил сервис облачного объектного хранилища S3
Новость
10.09.2025 3 мин минуты чтения 3 мин мин
Linx Cloud модернизировал сеть дата-центра в Москве: скорость передачи данных выросла в 10 раз
Linx Cloud модернизировал сеть дата-центра в Москве: скорость передачи данных выросла в 10 раз
Новость
03.09.2025 3 мин минуты чтения 3 мин мин
Kubernetes на базе Deckhouse в облаке Linx Cloud: встроенный мониторинг, безопасность и управление сертификатами
Kubernetes на базе Deckhouse в облаке Linx Cloud: встроенный мониторинг, безопасность и управление сертификатами
Статья
16.07.2025 5 мин. минут чтения 5 мин. мин
Linx Cloud запускает облако на OpenStack в опытно-промышленную эксплуатацию
Linx Cloud запускает облако на OpenStack в опытно-промышленную эксплуатацию
Новость
11.07.2025 3 мин. минуты чтения 3 мин. мин
Linx Cloud вошел в топ-10 провайдеров в рейтинге IaaS Enterprise
Linx Cloud вошел в топ-10 провайдеров в рейтинге IaaS Enterprise
Новость
04.07.2025 3 мин. минуты чтения 3 мин. мин