Linx Datacenter
Команда эксплуатации
19.08.2024
7 мин

Как практика выросла в теорию: книга об эксплуатации ЦОД

Мы сделали это. Годы работы, тематические статьи, преподавание, выступления, аудиты и подготовка к ним – все это отныне упаковано в удобный формат книги «Эксплуатация ЦОД: практическое руководство» коллектива авторов компании Linx. Обзор и хайлайты – в нашем материале. 

Обучение эксплуатации дата-центров долгое время оставалось делом исключительно практическим. Наш путь к созданию структурированной теории в этой области начался с проекта по сертификации собственного ЦОДа по стандарту Uptime Institute.

Первая и последующие успешные стали толчком к дальнейшей систематизации опыта. Мы начали активно делиться наработками в области управления дата-центрами, получая отклик от коллег. Очевидная потребность рынка в глубоких знаниях об эксплуатации ЦОДов привела нас к созданию услуги профессионального консультирования.

Следующим этапом развития экспертизы стал наш вклад в образовательный процесс: эксперты компании получили предложение преподавать на учебных курсах по управлению дата-центрами, организованном Координационным советом по ЦОДам и облачным технологиям.

О чем книга

По мере систематизации опыта оформилось видение книги – мануала по тому, как управлять дата-центром как инженерным объектом.

Важно: мы не идем в ИТ-плоскость, не трогаем верхнеуровневые моменты типа виртуализации, облаков и проч. Мы разбираем дата-центр с точки зрения эксплуатации комплекса инженерных систем.

Это комплексное пособие, охватывающее все аспекты эксплуатации дата-центров: от проектирования и построения до непосредственной эксплуатации и технического обслуживания.

В книге: подробный анализ сертификационных стандартов и норм, рекомендации по обеспечению бесперебойной работы критически важных систем, методы оценки и повышения эффективности персонала, а также стратегии по управлению рисками и автоматизации процессов.

Особое внимание уделено проблеме человеческого фактора, предложены проверенные методики минимизации ошибок, обучения и сертификации персонала, а также разработки и внедрения стандартизированных операционных процедур.

Раздел, посвященный современным трендам в эксплуатации ЦОД, включает применение искусственного интеллекта для мониторинга и управления системами, а также инновационные подходы к организации работы дата-центров в условиях повышенных требований к информационной безопасности.

Лучшие моменты

Выходу книги предшествовали десятки публикаций на самых разных площадках, которые так или иначе отражают темы, затронутые в ней.

В качестве тизера книги предлагаем короткий взгляд на ее фрагменты, которые носят относительно новый характер и отдельного внимания в нашей предшествующей работе в этом направления не получали.

Например, мы учим, как увеличить сроки эксплуатации «железа»:

«Продление срока службы оборудования» 

Срок службы оборудования — это срок его использования, который заложил вендор при его создании. Обычно этот срок составляет 10 лет для оборудования, используемого для построения ЦОД. Фактическое состояние оборудования по истечении этого срока может быть близким к идеальному, но как формализовать эту «идеальность»?

На помощь нам приходят нормы ПТЭЭП 1.6.7: «По истечении установленного нормативно-технической документацией срока службы все технологические системы и электрооборудование должны подвергаться техническому освидетельствованию комиссией, возглавляемой техническим руководителем Потребителя, с целью оценки состояния, установления сроков дальнейшей работы и условий эксплуатации».

ИНФОРМАЦИОННОЕ ПИСЬМО  

Настоящим письмом компания АО «Поставщик Электрик» выражает Вам свое почтение и подтверждает, что обеспечение возможности ремонта и технического обслуживания оборудования является одним из способов обеспечения возможности использования товара по назначению в течение всего его срока службы.  

Поставки запасных частей производятся в течение всего срока производства товара, а после снятия его с производства — в течение срока службы товара.  

Модели кондиционера Uniflair TDCV4300A, TDCV4300A производились до 2018 г. В течение 10 лет с момента снятия товара с производства АО «Поставщик Электрик» обязуется поставлять запасные части и проводить ремонтные работы. В данном случае речь о 2028 г.  

Модель кондиционера Uniflair LDCV4300A все еще производится. После снятия товара АО «Поставщик Электрик» обязуется поставлять запасные части и проводить ремонтные работы также в течение 10 лет.

Рис. 46. Пример письма вендора с указанием срока поддержки оборудования 

То есть существует легальная процедура оценки состояния оборудования и продления срока его службы. Что вам потребуется для этого сделать?

  1. Создать комиссию с участием руководства ЦОД и представителя вендора (достаточно авторизованного сервис-центра).
  1. Провести обследование оборудования («глубокое ТО»).
  1. Оформить отчет и заключение, в котором комиссия постановит, что оборудование негодно или годно к дальнейшей работе в течение Х лет.
  1. Обновить информацию о сроке службы в базе учета оборудования, ведущейся службой эксплуатации, установить новый срок оценки его состояния.
  1. Сообщить финансовому департаменту, что основное средство признано работоспособным и продолжает функционировать.
  1. Более внимательно относиться к такому «пожилому» оборудованию во время ТО; возможно, проводить для него дополнительные тесты и технические процедуры, рекомендуемые вендором».

Другой фрагмент касается задач автоматизации управления эксплуатацией.

«Система управления эксплуатацией ЦОД (CMMS/MMS)» 

На определенном этапе жизнедеятельности ЦОД его руководство начинает задумываться о приобретении программного обеспечения для ведения учета оборудования и автоматизации процессов эксплуатации, воплотив все вышеописанные в книге процессы и процедуры в едином программном продукте.

Такое программное обеспечение называется CMMS — Computerized Maintenance Management System. С помощью CMMS можно:

  • автоматизировать управление расписанием техобслуживания и контроль его своевременного выполнения;
  • вести учет рабочего времени, затраченного на те или иные виды работ;
  • вести учет активов ЦОД, в том числе расходных материалов и запасных частей, автоматизируя учет их использования при выполнении тех или иных работ и автоматически же перезаказывая их при достижении точки перезаказа;
  • отслеживать информацию об оборудовании и тенденции ошибок;
  • создавать различную отчетность.

Очевидно, что система CMMS — полезный инструмент для автоматизации ЦОД, и ее желательно иметь.

***

Наши рекомендации по созданию системы CMMS могут быть следующими: начинать эксплуатацию ЦОД нужно с самостоятельного создания именно отдельных документов, например в формате Excel; следует отработать их, понять, зачем они нужны, оптимизировать их содержание, обучить сотрудников, а уже после отработки и отладки этих процессов переходить к выбору CMMS-решения.

***

В общем случае, если вы решили построить свою систему CMМS, то у вас есть два пути:

  • разработать уникальный продукт под себя и свои процессы, создать которые вам, как мы надеемся, поможет эта книга;
  • выбрать «коробочную» версию из представленных на рынке и подстроить свои процессы под нее.

Первый путь чаще всего подразумевает длительный процесс внедрения с непредсказуемым результатом, второй — зависимость от одного вендора и невозможность идеально настроить ПО под свои нужды.

Например, вам подходит сам продукт, но также нужно программное резервирование, которое не предусмотрено, и вы должны идти на компромисс, отказываясь от резервирования. Или выбирать первый путь. Везде есть свои риски».

Наконец, приподнимем завесу над областью управления рисками для руководителей дата-центра. В книге этому посвящена отдельная глава.

«Управление рисками» 

Управление рисками — это знание и выявление рисков, их оценка и наличие мероприятий по их компенсации. Например, вы знаете, что скоро заканчивается срок поддержки ИБП, но они не могут быть заменены на новые из-за особенностей архитектуры.

Следовательно, можно попробовать договориться с вендором о продлении срока поддержки специально для вас или закупить запасные части, пока они есть в продаже у вендора. Или, предположим, над вашим ЦОД есть еще один этаж с офисными помещениями.

Один из основных рисков в данном случае — это протечка и затопление. Следовательно, вы предпримете меры по минимизации этих рисков путем устройства гидроизоляции помещения (если это возможно) или установки на верхнем этаже датчиков протечки и создадите EOP на случай протечки из этих помещений.

В каждом ЦОД должен быть актуальный список рисков и мероприятий по их снижению. Это требуется как стандартами ISO, так и здравым смыслом для обеспечения ключевой задачи этого вида деятельности — непрерывности работы.

***

Список рисков должен быть формализован и периодически пересматриваться в рамках регулярных процессов для руководителей ЦОД. Это может быть реализовано в виде таблицы Excel либо посредством специализированного программного обеспечения.

План оценки и обработки рисков (Risk Treatment Plan) 
Как минимум план оценки рисков должен содержать в себе следующую информацию:

  • Дата. Указывается время выявления риска.
  • Зона риска. Указывается зона риска, позволяющая производить сортировку информации. Например: здание ЦОД, система резервной генерации и т. д.
  • Кто выявил. ФИО сотрудника, выявившего и внесшего этот риск в документ.
  • Описание и последствия риска. Указание того, в чем заключается риск, и возможные последствия в том случае, если рисковый случай произойдет.
  • Оценка уровня риска ДО (до начала работ с риском). Для сортировки и оценки рисков нам нужно сделать четкую и понятную систему их ранжирования, выражающуюся в цифровых значениях. С ее помощью мы сможем сортировать риски ЦОД по их значимости. Оценивается этот параметр как произведение вероятности риска на степень риска (серьезности влияния на ЦОД)».

***

В целом у нас получился не только источник знаний для специалистов в области эксплуатации дата-центров, но и увлекательное чтиво для всех, кто интересуется технологиями и хочет понять, как функционирует цифровая инфраструктура современного мира.

Приятного чтения!

Команда эксплуатации Linx Datacenter

Другие новости и публикации
Новость
05.11.2024
Linx Cloud запустил сервис управляемых баз данных в облаке
Вас также могут заинтересовать
Linx NGFW
IS-18.png
Виртуальный межсетевой экран следующего поколения для ком...
PrivateCloud
Linxcloud
Готовая платформа для надежной работы бизнес-приложений
Migration
Migration-to-cloud-04-02-1024x576
Перенос ИТ-ресурсов в облако Linx Cloud из других облачны...
Nwtwork own PC
Разместите свое оборудование в дата-центрах с высоким уро...
Backup
Backup copy
Автоматизированное управление резервными копиями виртуаль...
Outsourcing
Remote work
Аудит, модернизация и оптимизация ваших серверных мощностей
Network
Remote work
Обеспечьте отказоустойчивость и бесперебойную работу сети
Linx DRaaS
DraaS-023
Облачный сервис для аварийного восстановления ИТ-инфрастр...
Linx Private Cloud
Linxcloud
Готовая платформа для надежной работы бизнес-приложений
IaaS
Iaas-02 copy
Отказоустойчивая и масштабируемая ИТ-инфраструктура для с...
Что вас интересует?
Получить промокод
остались вопросы?

Закажите консультацию специалиста

заказать тест-драйв
Получить демо-доступ

Спасибо за ваш запрос, мы свяжемся с вами в ближайшее время!