Локация

Senior DevOps / Site Reliability Engineer, SRE

Нейротехнологии
Москва Опыт работы от 1 года Постоянная занятость Полный день
Поделиться

Описание

Наш проект GPU-платформа на ранней стадии, где мы строим собственную инфраструктуру для ML / AI-нагрузок с фокусом на безопасность, изоляцию клиентов и стабильную работу GPU-серверов.

Сейчас мы в поиске сильного Senior DevOps / SRE, который возьмёт на себя построение и развитие GPU-инфраструктуры, автоматизацию onboarding а серверов, безопасность и orchestration вычислений, а также станет ключевым техническим партнёром для продукта.

Задачи:

- Подключение и активация GPU-серверов (host onboarding): установка и поддержка daemon а платформы, автоматические проверки GPU, драйверов, CUDA/cuDNN, стабильности
- Формирование и поддержка паспорта машины (inventory): модель GPU, VRAM, состояние, ошибки, метрики
- Проектирование и реализация изоляции клиентов:
* Docker + NVIDIA Container Toolkit
* namespaces / cgroups
* управление секретами (tokens, SSH keys)
* сетевая изоляция (firewall, zero-trust подход)
- Запуск и управление вычислительными задачами (training / inference):
* лимиты CPU / RAM / Disk / GPU
* очереди, статусы, retry-механики
- Настройка логирования, метрик и алертов
- Интеграции с S3-совместимыми хранилищами, volumes, кеширование датасетов, checkpointing

Что нам важно:

- Уровень Middle+ / Senior DevOps или SRE
- Сильный Linux (администрирование, а не пользователь )
- Практический опыт с Docker и контейнерной изоляцией
- Опыт работы с NVIDIA stack: drivers, CUDA, nvidia-smi, NVIDIA Container Toolkit
- Понимание сетевой безопасности и изоляции
- Опыт работы с GPU-серверами обязателен

Будет большим плюсом:

- Kubernetes + GPU scheduling
- Terraform / Ansible
- опыт с RunPod / Vast / Lambda / CoreWeave
- понимание ML-нагрузок (training vs inference)

Условия:
- Формат работы: удалённо
- График работы: full-time 5/2, готовность быть гибким и работать на результат
- Заработная плата: обсуждается индивидуально (фикс + бонусы)

день назад Источник: hh.ru
Обращаем Ваше внимание, что вакансия взята с внешнего источника hh.ru. Администрация сайта не несет ответственность за ее содержание.
Рекомендуемые вакансии
  • Finstar Financial Group
  • Москва
... мобильное приложение. Сейчас мы ищем Site Reliability Engineer (SRE) , который будет отвечать за стабильность ... документации); Опыт работы в роли SRE / DevOps / Infrastructure Engineer от 3 лет; Отличное ...
16.12.2025
  • Kameleoon
  • Москва
... и развитии внутренней платформы Тесно взаимодействовать с backend и platform-командами Ваш профиль: Обязательно: Опыт работы DevOps Engineer / SRE от 2 3 лет Глубокое понимание Linux, сетей и distributed-систем Практический опыт с Kubernetes (deployments ...
05.01.2026
  • BetBoom
  • Москва
... . Мы ищем опытного и инициативного SRE-инженера, который готов присоединиться к ... специалиста, который: Имеет опыт работы SRE/DevOps в высоконагруженных production-средах. Обладает ...
25.12.2025