Data center
infrastructure
management
(DCIM)

Разрабатываем ядро современного автоматизированного дата-центра, которое объединяет управление устройствами, учёт ИТ-активов, планирование мощностей и мониторинг в единую интеллектуальную платформу.

DCIM — это критическая инфраструктура для построения любых сервисов Яндекса: от облачных гиперскейлеров до финансовых транзакций и AI/ML платформ.

 
12M+ ядер

Устройств под управлением

 
150+ МВт

Мощности

 
дата-центров

Зоны доступности

 
10+ эксабайт

Объёмы данных в хранилищах

Направления работы DCIM

Планирование мощностей

Интеллектуальный процесс, в котором датчики, машинное обучение и предиктивная аналитика объединяются, чтобы предсказывать нагрузки, оптимизировать размещение оборудования и предотвращать критические перегрузки. Мы создаём алгоритмы, способные анализировать исторические данные, текущие метрики и тренды, чтобы обеспечивать серверными мощностями растущие облачные сервисы.

Особенности

  • Конечная цель — эффективность дата-центров.
  • Средства визуализации и навигации для инженеров.

Мониторинг

Система, которая обеспечивает непрерывный сбор, анализ и визуализацию данных о работе оборудования, энергопотреблении, температурных режимах и сетевой активности дата-центра для своевременного выявления аномалий, оптимизации ресурсов и поддержания бесперебойной работы инфраструктуры.

Особенности

  • Высокие требования к отказоустойчивости.
  • Миллионы показателей в секунду с IT и инженерного оборудования.

Управление устройствами

Направление, которое оркестрирует физические ресурсы и позволяет программно настраивать серверы и устанавливать операционные системы, организовывать безопасный доступ к управляющим функциям серверов и удалённый доступ, массово обновлять прошивки, тестировать конфигурации большого парка разных устройств. Всё это позволяет минимизировать ручную работу, повысить отказоустойчивость и обеспечить масштабируемость инфраструктуры.

Особенности

  • Управление парком из 150 000 серверов.
  • Автоматический self-healing дата-центров.

Онлайн-карты дата-центров

Интерактивная карта, которая визуализирует инфраструктуру дата-центров: планы модулей со стойками, а также их содержимое с текущим состоянием — серверы, дисковые полки, сетевые устройства, электропитание.

Карты являются мощным инструментом для управления и анализа данных, так как на них отображаются схемы инженерного оборудования с показаниями датчиков в реальном времени, где можно отследить состояние серверов, нагрузку, потребление электроэнергии и загрузку дата-центров.

Особенности

  • Сбор и обработка большого числа данных.
  • Создание удобных и не прегруженных интерфейсов.
  • Данными карты управляют сами пользователи.

Как мы работаем

Пишем на Python, Go, Typescript, React.

Используем Docker, k8s, PostgreSQL.

Как попасть к нам в команду

В DCIM есть задачи для разных технических специалистов. Нужны амбициозные middle-разработчики и опытные ведущие инженеры, активные технические менеджеры.

Вы также можете попробовать свои силы в формате буткемпа в Core Infrastructure.