Облачная платформа

К разделу «Облачная платформа

Облачные ресурсы IaaS
Облачные ресурсы IaaS
Облачная платформа на базе собственных дата-центров уровня TIER III
Ускоренные вычисления на базе NVIDIA GPU
Ускоренные вычисления на базе NVIDIA GPU
Для сложных вычислений, машинного обучения и обработки видео/3D-графики
Частное облако
Частное облако
Защищенное частное облако (УЗ-1, К-1, лицензии ФСБ и ФСТЭК)
Кластеры Kubernetes
Кластеры Kubernetes
Развертывание, масштабирование, репликация и мониторинг контейнерных приложений
Защищенное облако 152-ФЗ
Защищенное облако 152-ФЗ
Размещение конфиденциальных данных в защищенной инфраструктуре и аудит работы с персональными данными
Резервное копирование для бизнеса
Резервное копирование для бизнеса
Автоматизированное управление резервными копиями виртуальных машин и баз данных
База данных в облаке
База данных в облаке
Управляемые СУБД с масштабированием по мере необходимости и высоким SLA
Миграция в облако Linx Cloud
Миграция в облако Linx Cloud
Перенос IT-инфраструктуры в облако Linx Cloud из других платформ
Объектное хранилище S3
Объектное хранилище S3
Защищенное объектное хранилище S3 по стандартам 152-ФЗ на платформе Linx Cloud
Облако для ВУЗов
Облако для ВУЗов
25% скидка на облачные сервисы от цены прайса на год!
Безопасность

К разделу «Безопасность

Статический анализ исходного кода SAST
Статический анализ исходного кода SAST
Облачный сервис для защиты приложений на этапе разработки исходного кода
Двухфакторная аутентификация MFA
Двухфакторная аутентификация MFA
Удаленный доступ – легко и безопасно. Сервис MFA подходит для любого типа инфраструктуры
Облачная защита WAF + AntiDDoS
Облачная защита WAF + AntiDDoS
Многоуровневая защита интернет-ресурсов и веб-приложений с минимальными вложениями
Аварийное восстановление в AWS
Аварийное восстановление в AWS
Быстрое и экономичное восстановление данных и приложений. RPO — секунды, RTO — минуты
DRaaS — аварийное восстановление
DRaaS — аварийное восстановление
Аварийное восстановление ИТ-инфраструктуры. Защитите ИТ-системы уже сегодня!
Межсетевой экран нового поколения NGFW
Межсетевой экран нового поколения NGFW
Виртуальный межсетевой экран нового поколения для комплексной защиты ресурсов в облаке
Антивирус
Антивирус
Защита инфраструктуры от вирусов и шифровальщиков
Сканирование на уязвимости
Сканирование на уязвимости
Мониторинг и оценка уязвимостей ИТ-инфраструктуры
Security Operations Center (SOC)
Security Operations Center (SOC)
Центр противодействия кибератакам на любом этапе инцидента
ГОСТ-VPN
ГОСТ-VPN
Защищенный канал связи для ИСПДн
Межсетевой экран
Межсетевой экран
Защита сети компании от несанкционированного доступа извне
Аттестация частного облака для ГИС
Аттестация частного облака для ГИС
Размещение госинформационных систем «под ключ» с соблюдением К1 и УЗ-1 (ИСПДн)
Security Awareness
Security Awareness
Обучение сотрудников навыкам информационной безопасности на базе онлайн-платформы
Тарифы База знаний
Облако
Назад к публикациям

Как мы учились учить управлять ЦОДом и что из этого получилось

Статья
06.07.2023 3 минуты чтения
Как мы учились учить управлять ЦОДом и что из этого получилось

Бесперебойный и производительный дата-центр всегда опирается на компетентную службу эксплуатации. Как эффективно распространить лучшие практики в этой области на целую отрасль?

Статьи до кафедры доведут

Эксплуатации дата-центра нигде и никогда не учили. Все, что доступно начинающим специалистам эксплуатации, – это перенимать опыт старших коллег, в том числе «из уст в уста», и, конечно, изучать стандарты различных надзорных и инспектирующих органов, которым нужно соответствовать.

Тем не менее обучение процессу эффективной эксплуатации ЦОДа – это такая же формализуемая задача, как и любая другая, а значит, можно накапливать релевантный опыт и транслировать лучшие практики коллегам. Инженерная инфраструктура критически важна для работы ИТ-систем ЦОДа, поэтому управлять ею по принципу «учимся на своих ошибках» нельзя.

Наша работа по систематизации теории эксплуатации ЦОДов началась благодаря внутреннему проекту – сертификации площадки дата-центра по стандарту Uptime Institute в области операционного управления ЦОДами – Management & Operations Stamp of Approval (M&O). Стандарт был создан на основе анализа специалистами Uptime более 6 тыс. случаев отказов центров обработки данных, собранных за 20 лет. Его результаты показали, что более 75% всех сбоев вызваны ошибками персонала ЦОДа. Соответственно, оптимизация процессов управления приводит к снижению вероятности инцидентов.

В процессе подготовки к сертификации M&O мы придумали и внедрили множество вещей, которые помогли нам совместить требования M&O и действующие нормы. Мы прошли первый аудит M&O с оценкой квалификации персонала ЦОДа в Санкт-Петербурге, а также аттестацию процессов эксплуатации оборудования и политик в 2018 г. С тех пор компания переаттестовывалась дважды, улучшая показатель с полученных в первый раз 84 баллов (из 100 возможных) до 95,1 в 2020-м и до 96 баллов в 2021 г. Надо сказать, что и в 2023 г. Linxdatacenter – единственный ЦОД в России… и в мире, прошедший эту аттестацию трижды.

Погружаясь в M&O, мы решали задачу формирования культуры управления инженерными системами, разработки документации, обучения персонала и синхронизации этих составляющих между собой. У нас получилось создать универсальную «экосистему» документов и процессов, применимых в любом ЦОДе.

С момента первого аудита мы охотно делились наработками по M&O через публикации и продолжаем это делать по сей день. На свои материалы мы всегда получали хороший отклик, что свидетельствовало о существовании в отрасли глубокого информационного вакуума в вопросах эксплуатации.

Поняв, что наш опыт может быть применен в любом ЦОДе, мы запустили услугу профессионального консультирования по вопросам проектирования и эксплуатации дата-центров. Однако сама по себе эта деятельность в некий образовательный проект не складывалась, мы просто аккумулировали опыт.

Все начало меняться, когда появилась площадка Координационного совета по ЦОДам и облачным технологиям (АНО КС ЦОД), где был запущен обучающий курс по управлению дата-центрами – первый в своем роде в России и странах СНГ.

Вызовы ситуации

Получив приглашение к участию в курсе в качестве лекторов-экспертов, мы сначала отнеслись к нему с изрядной долей скепсиса. Преподавание не вызывало энтузиазма, поскольку мы видели массу попыток подхода к этому снаряду и почти всегда это оказывалось либо скучной голой теорией без внятной практической пользы, либо просто рекламными проектами от вендоров.

Кроме того, чтение лекций было полностью новым форматом для каждого из нас. Систематизировать свои знания и навыки в некий понятный и воспринимаемый формат для представления аудитории – само по себе серьезный вызов.

Другое испытание – необходимость в рамках четырех академических часов по 40 мин донести материал таким образом, чтобы у слушателей возникло понимание проблемы и закрепились начальные знания о вариантах решений. Педагогических навыков или богатого лекторского опыта у наших специалистов не было.

Третий момент – изначальная настороженность по поводу самой сути проекта. Мы опасались, что он окажется очередной тусовкой для презентаций продуктов и продаж с бесплатными обедами.

Однако после первого тренинга мы увидели, что организаторы на самом деле привлекли экспертов отрасли и сделали акцент на реальной практике работы ЦОДа. Это заставило нас отнестись к задаче максимально серьезно.

Багаж знаний

В качестве пробного шара мы решили выйти на площадку с лекциями по процессам эксплуатации ЦОДа, работе систем мониторинга, контроля доступа и противопожарной безопасности (Константин Нагорный), а также по безопасной работе систем энергообеспечения дата-центров (Андрей Чеснов).

Может возникнуть вопрос: какие тут могут быть тайны и ноу-хау, которые неизвестны рынку?

Во-первых, наша практика по управлению инженерной составляющей ЦОДов совмещает в себе соответствие как стандартам Uptime, так и требованиям нормативов РФ. То есть мы можем дать реальное руководство, как построить процессы эксплуатации дата-центра, чтобы они проходили любой существующий сегодня аудит. Многим кажется, что эти требования совместить нельзя, но мы на примерах показываем, что это возможно.

Во-вторых, за годы работы мы последовательно совершенствовали целый комплекс подсистем и групп процессов управления ЦОДом: от профилактического ухода за дизель-генераторными установками, контроля уровня давления и подпора воздуха в серверных помещениях до модернизации и повышения точности системы управления зданием (BMS), а также внедрения широкого спектра компонентов системы LOTO.

В-третьих, некоторые практики Linxdatacenter – в частности, методика контроля качества топлива и система регулярной проверки знаний у дежурных инженеров – были включены в состав обучающих курсов Uptime Institute по эксплуатации ЦОДа в качестве best practices.

Наконец, мы можем по пунктам рассказать обо всем вышеизложенном в простой и доступной манере.

Как это выглядит

По сути, площадка АНО КС ЦОД представляет собой дискуссионный клуб – профессионалы получают доступ к аудитории коллег для того, чтобы поделиться опытом и обсудить самые актуальные и самые спорные отраслевые темы.

Грубо говоря, в одном и том же тематическом блоке могут быть представлены два выступления с полярными точками зрения на решение конкретной проблемы. Например, что лучше – литий-ионные батареи в ИБП или свинцово-кислотные, какой газ использовать в системе пожаротушения и т.д. После выступлений завязывается обсуждение в свободном формате.

Это заставляет постоянно совершенствовать материалы курса. Так, с первой лекции по вопросам безопасности системы электроснабжения ЦОДа по настоящие время наша презентация претерпела 16 редакций с учетом ответов на вопросы аудитории, споров с коллегами и развития технологической составляющей.

Зачастую за счет свободного формата рассказ о каком-либо решении плавно перетекает в обучение тому, как воспроизвести его на собственной площадке, т.е. трансформируется в семинар.

Если в начале мы не были уверены, что сможем набрать материала на лекцию длиннее часа, то сегодня материала столько, а потребность в нем у аудитории так велика, что можем общаться со слушателями четыре-пять часов.

Кому и зачем

На курсах мы встретили много новых и старых знакомых – как коллег из других дата-центров, так и представителей вендоров, а также компаний-подрядчиков.

Какую ценность дает им обучение?

Одна из главных целей: объяснить принципы составления процессов и инструкций по эксплуатации ЦОДа через упрощение и сокращение объемов документации. Это востребовано потому, что классические 100-страничные документы в этом жанре крайне редко дочитываются до конца. Это значит, что требования должным образом также не выполняются.

Стандартная группа слушателей на курсах – 25–30 человек, это технари, практически без маркетологов и продавцов. В отличие от других площадок тут не принято называть вендоров решений, о которых так или иначе заходит речь в рамках лекций.

Участники узнают неочевидные для себя вещи, напрямую касающиеся работы ЦОДа, –получают представление об устройстве и принципах работы, особенностях использования оборудования, влиянии на работу ЦОДа различных систем и подсистем. Приходят даже проектировщики различных систем ЦОДов: им нужен практический опыт в отношении того, какой вариант планировки помещения оптимален с учетом расположения, количества стоек, планируемой мощности и т.д.


Часто развеиваются мифы, которые бытуют в отрасли, но не подтверждены практикой. Из последнего можно вспомнить вопрос о полезности «падающих» крыш холодных коридоров для работы системы газового пожаротушения. Решение, часто применяемое в отрасли, оказывается, не имеет под собой никакого обоснования. Проектировщики газового тушения его не требуют, т.е. на самом деле оно не нужно.

Представителям вендоров полезно присутствовать на трнингах, чтобы быть в курсе типичных «болячек» оборудования, с которыми сталкиваются службы эксплуатации ЦОДов.

Будущее в книге

Что касается развития преподавательских практик, то логичным направлением нам видится создание учебного пособия с уклоном в практикум. Работа над книгой ведется, в течение 2023 г. она будет завершена. Текст уже полностью готов, дело за организацией издания книги. В ней будут освещены вопросы построения службы эксплуатации ЦОДа с нуля: формирование правильной структуры, создание системы документооборота, упорядочение работы и координации служб, обеспечение безопасности, обучение и подбор персонала, выстраивание алгоритмов работы с подрядчиками и т.д.

Рекомендации будут носить универсальный характер и применимы для организации аналогичных процессов за пределами ЦОДов, на любых площадках, где инженерная инфраструктура играет важную роль.

Тарас Чирков
Автор статьи
Тарас Чирков

Руководитель ЦОД Linxdatacenter в Санкт-Петербурге

Константин Нагорный
Автор статьи
Константин Нагорный

Главный инженер ЦОД Linx Datacenter в Санкт-Петербурге

Остались вопросы?

Опишите вашу задачу, и мы поможем вам ее решить

Или напишите нам info@linxdatacenter.com
Нажимая кнопку «Отправить», вы соглашаетесь с Политикой обработки персональных данных ООО «Связь ВСД»
Читать также
Kubernetes на базе Deckhouse в облаке Linx Cloud: встроенный мониторинг, безопасность и управление сертификатами
Kubernetes на базе Deckhouse в облаке Linx Cloud: встроенный мониторинг, безопасность и управление сертификатами
Статья
16.07.2025 5 мин. минут чтения 5 мин. мин
Linx Cloud запускает облако на OpenStack в опытно-промышленную эксплуатацию
Linx Cloud запускает облако на OpenStack в опытно-промышленную эксплуатацию
Новость
11.07.2025 3 мин. минуты чтения 3 мин. мин
Linx Cloud вошел в топ-10 провайдеров в рейтинге IaaS Enterprise
Linx Cloud вошел в топ-10 провайдеров в рейтинге IaaS Enterprise
Новость
04.07.2025 3 мин. минуты чтения 3 мин. мин
Частные облака от Linx Cloud вошли в топ-5 рейтинга по версии "Компьютерры"
Частные облака от Linx Cloud вошли в топ-5 рейтинга по версии "Компьютерры"
Новость
06.06.2025 1 мин. минута чтения 1 мин. мин
Linx Cloud на ИТ-Полигоне 2025
Linx Cloud на ИТ-Полигоне 2025
Новость
28.05.2025
Комплексная защита приложений на базе SAST и облачного WAF
Комплексная защита приложений на базе SAST и облачного WAF
Новость
27.05.2025 1 минута чтения 1 мин
Linx Cloud показал 81% рост за 2024 год
Linx Cloud показал 81% рост за 2024 год
Новость
30.04.2025
Кибератаки 2025: кто в зоне риска и чем поможет WAF
Кибератаки 2025: кто в зоне риска и чем поможет WAF
Статья
28.04.2025 3 минуты чтения 3 мин
Сильная облачность: что еще ждет рынок IT-инфраструктуры в 2025 году
Сильная облачность: что еще ждет рынок IT-инфраструктуры в 2025 году
Статья
03.04.2025 5 минут чтения 5 мин
SAST: что такое Static Application Security Testing
SAST: что такое Static Application Security Testing
Статья
27.03.2025 18 минут чтения 18 мин