CIO Пикабу Николай Семенов — о том, как выстроить гибридную инфраструктуру на базе ЦОД и облачного провайдера Linx
ИТ-инфраструктура должна быть эластичной, то есть уметь скейлиться быстро, выдерживать нагрузки и при этом не стоить как крыло от Боинга
—Николай Семенов CIO Пикабу
Пикабу — ведущая российская онлайн-платформа для публикации пользовательского контента, ориентированная на юмор, мемы и развлекательные материалы. Сегодня это устойчивый медиа бизнес с аудиторией свыше 11 миллионов зарегистрированных пользователей и ежемесячным трафиком около 35–40 миллионов визитов. Этот успех опирается на надежную ИТ-инфраструктуру, способную масштабироваться под растущую нагрузку. Мы побеседовали с ИТ-директором Пикабу и выяснили, как компания развивает бизнес и технологии.
Николай Семенов: Пикабу — это в первую очередь большая социальная площадка, где люди обмениваются информацией и общаются. Она в большой степени отражает собой срез общества. Мы ориентируемся на широкую аудиторию — это не какой-то премиальный сегмент, а обычные люди вроде нас с вами: от айтишников до работников полярных станций и машинистов метро. И мы стараемся отвечать потребностям людей общаться, развлекаться и решать повседневные проблемы вместе.
Если говорить про нашу стратегию на горизонте нескольких лет, то мы собираемся диверсифицировать продукт и создали два новых направления. Первое – это скидки и промокоды: для многих боль, например рост цен в магазинах, поэтому мы запустили и продвигаем промокоды, чтобы пользователи могли экономить. И второе – игры. Люди устают на работе и хотят расслабиться, вот мы и даем возможность играть бесплатно, что особенно актуально с учетом роста цен в Cтиме. Есть мысли и о других направлениях, чтобы закрывать потребности нашей аудитории.
Николай Семенов: Наша ИТ-инфраструктура должна позволять поддерживать существующие нагрузки, а они достаточно серьезные. Речь иногда идёт о десятках тысяч запросов в секунду. Плюс, какой-нибудь новый пост может быстро завируситься, и это в большинстве случаев непредсказуемо. Получается, что помимо стабильно высокой нагрузки, мы должны быть готовы к ещё большим всплескам. Причём бывает резкий, но все же прогнозируемый рост нагрузки, как, например, с Чёрной пятницей. Тут секрет всем известен: если у вас готовится распродажа, подготовьте и серверы. А в нашем случае всё чуть сложнее – невозможно предсказать всплески интереса к отдельным постам, которые внезапно привлекли внимание миллионов людей.
Поэтому наша ИТ-инфраструктура должна быть приспособлена к этому. Она должна быть эластичной, то есть уметь скейлиться быстро и выдерживать нагрузки.
И при этом не стоить как крыло от Боинга.
Николай Семенов: Мы комбинируем нескольких подходов к организации ИТ. Мы используем гиперконвергентную инфраструктуру, то есть у нас есть своё приватное облако, которым мы сами управляем, оно выдерживает наши основные нагрузки и абсорбирует невысокие всплески. Оборудование, на котором развернуто облако, мы арендуем, что позволило нам избежать масштабных инвестиций и перевести основную часть ИТ-затрат из CAPEX в OPEX.
Для пиковых нагрузок мы используем публичное облако Linx Cloud, которое находится рядом в том же ЦОДе, подключено к нам и в любой момент готово к приёму нагрузок, когда у нас пошел вал запросов. При этом мы платим за дополнительные мощности только тогда, когда их реально используем. Этот подход помогает достичь баланса масштабируемости и затрат. Постоянно держать у себя в резерве избыточные вычислительные ресурсы – невыгодно. В то же время если использовать только облачную инфраструктуру, то это будет дороже, по крайней мере в нашем случае, так как у нас сильная собственная команда и мы научились делать ИТ и DevOps очень эффективным и недорогим.
Николай Семенов: Безусловно. Как вообще выглядит наша инфраструктура – это основной ЦОД (мы располагаемся в Linx Datacenter и есть еще второй резервный ЦОД. С одной стороны, мы доверяем собственной инфраструктуре: она наша, мы её сами администрируем. С другой стороны, всякое может случиться, и все критичные данные реплицируются как в другой ЦОД, так и внутри нашего основного ЦОДа в облако, которым мы не управляем.
Николай Семенов: Не секрет, что у нас был инцидент в начале 2022-го, утекли email'ы пользователей и ники, без паролей. Как раз тогда на нас обрушивались большие очень тяжёлые DDoS-атаки. С тех пор мы сделали выводы, перестроили инфраструктуру по принципам PCI DSS. Пользовательские данные у нас хранятся в минимальном объёме — email, телефон, связка с соцсетями. Они размещены в изолированном контуре, зашифрованы, ключ раздроблен по сегментам. Аудируем доступ, на границах сети стоят анализаторы. коммутаторы резервированные, используем VLAN/QinQ для разделения. Ну, в общем, сделали так, как это и должно быть устроено.
Николай Семенов: Изначально мы использовали bare metal-серверы, администрируемые внешней командой. Это работало для маленького Пикабу, но приводило к проблемам с управляемостью и производительностью. Поворотным моментом стал крупный инцидент — потеря пользовательских медиафайлов из-за ошибки внешних администраторов. После этого мы начали консолидировать разнородную инфраструктуру, перешли к гомогенной среде, сформировали собственный DevOps-штат.
Для поддержки гибких нагрузок перешли к контейнеризации: сейчас основа — Proxmox с виртуальными машинами на Docker Swarm или одиночными Docker-контейнерами (ресурсоёмкие workloads разворачиваются отдельно). Сегодня это мощные одинаковые вычислительные серверы в России, связанные быстрой сетью и тёмным волокном с резервной площадкой для репликации критичных данных. Внутри кластеров — ручная балансировка нагрузки (мы решили, что автоматизация тут не нужна, чтобы не усложнять зря). Рядом на основной и резервной площадках есть облака для слива пиковых нагрузок и бэкапов. Кроме того, объёмы растут, а железо не всегда докупишь мгновенно. А наш кластер легко расширяем при необходимости, и это оптимальный баланс на сегодня.
Николай Семенов: Да, было масштабное событие в 2023 году — полный переезд Пикабу с распределенной инфраструктуры в Германии в дата-центр в России. Там был микс приватного облака, bare metal и виртуалок. Это был сложный кейс, плюс мигрировали при просевших каналах Европа-Россия. Обычно переезд платформ такого размера даже между ЦОДами в рамках одной страны с хорошим линком требует большого даунтайма и это сложная инженерная задача. Мы уложились в 4 часа! Конечно, была предварительная подготовка: заранее тянули часть данных, которые можно мигрировать долго и печально – на железо в резервный ЦОД, потом заливали на основную площадку с трёх сторон. Linx каналами и поддержкой отлично отработал. После такого опыта любой переезд уже не пугает, хотя объём данных в нашей инфраструктуре уже перевалил за 1 Петабайт.
Николай Семенов: Для нас было критично, чтобы публичное облако провайдера удобно связывалось с нашим частным облаком, которое хостится в том же ЦОДе. В зарубежных ЦОДах очень часто клауд-сегмент отделён и связать Private Cloud с Public Cloud прямо очень сложно. В случае Linx Cloud это сделано гибко. А также возможность, когда это нужно, быть на прямой связи с сетевыми инженерами, с людьми, которые непосредственно в ЦОДе работают руками, с ребятами, которые занимаются поставками — это очень ценно. Тот, кто работал с очень большими клауд провайдерами, знает, что обычно это не так.
Николай Семенов: У нас были эксперименты с серверами на GPU — мы смотрели, как это работает в бизнесе. За прошлый год провели минимум пять пилотов по интеграции GPU-моделей в бизнес-процессы и порталы. Вывод: на наших масштабах пока экономика чаще не сходится — GPU это дорого, ошибки первого и второго рода большие, а на своем железе масштабировать модели невыгодно. В бизнес-процессах используем облачные модели, но собственного GPU в продукте пока нет.
Иностранные нейронки мы не используем исходя из ограничений законодательства и собственных требований безопасности. Внешние сервисы и агенты применяем для микропродуктов, простые продукты так можно разрабатывать. Что касается сложных продуктов с большим жизненным циклом, где высокие нагрузки — то тут с осторожностью относимся к моделям. В общем-то, протестировав, посчитав экономику скорость и качество работы мы проект с ИИ пока свернули. Возможно, вернёмся к нему в этом году.
Николай Семенов: Я упоминал в начале: ключевые планы по развитию бизнеса — это развитие новых продуктов: промокоды и игры. Это два больших направления, они растут и приносят людям пользу — и это очень здорово. В играх уже сотни тысяч пользователей в месяц, заметный продукт на рынке, а запущен в прошлом году. И его можно масштабировать бесконечно.
Николай Семенов: Мы выступаем здесь в качестве агрегатора: предоставляем разработчикам площадку, на которой они могут презентовать новые игры обширной аудитории, получать живой фидбек и легко монетизировать свои проекты.
Желаем вам и Пикабу успехов!
Спасибо.
Опишите вашу задачу, и мы поможем вам ее решить