Главная
Работа в Москве
Senior DevOps / Site Reliability Engineer, SRE

Senior DevOps / Site Reliability Engineer, SRE

Нейротехнологии

Москва Опыт работы от 1 года Постоянная занятость Полный день

Поделиться Сохранить

Описание

Наш проект GPU-платформа на ранней стадии, где мы строим собственную инфраструктуру для ML / AI-нагрузок с фокусом на безопасность, изоляцию клиентов и стабильную работу GPU-серверов.

Сейчас мы в поиске сильного Senior DevOps / SRE, который возьмёт на себя построение и развитие GPU-инфраструктуры, автоматизацию onboarding а серверов, безопасность и orchestration вычислений, а также станет ключевым техническим партнёром для продукта.

Задачи:

- Подключение и активация GPU-серверов (host onboarding): установка и поддержка daemon а платформы, автоматические проверки GPU, драйверов, CUDA/cuDNN, стабильности
- Формирование и поддержка паспорта машины (inventory): модель GPU, VRAM, состояние, ошибки, метрики
- Проектирование и реализация изоляции клиентов:
* Docker + NVIDIA Container Toolkit
* namespaces / cgroups
* управление секретами (tokens, SSH keys)
* сетевая изоляция (firewall, zero-trust подход)
- Запуск и управление вычислительными задачами (training / inference):
* лимиты CPU / RAM / Disk / GPU
* очереди, статусы, retry-механики
- Настройка логирования, метрик и алертов
- Интеграции с S3-совместимыми хранилищами, volumes, кеширование датасетов, checkpointing

Что нам важно:

- Уровень Middle+ / Senior DevOps или SRE
- Сильный Linux (администрирование, а не пользователь )
- Практический опыт с Docker и контейнерной изоляцией
- Опыт работы с NVIDIA stack: drivers, CUDA, nvidia-smi, NVIDIA Container Toolkit
- Понимание сетевой безопасности и изоляции
- Опыт работы с GPU-серверами обязателен

Будет большим плюсом:

- Kubernetes + GPU scheduling
- Terraform / Ansible
- опыт с RunPod / Vast / Lambda / CoreWeave
- понимание ML-нагрузок (training vs inference)

Условия:
- Формат работы: удалённо
- График работы: full-time 5/2, готовность быть гибким и работать на результат
- Заработная плата: обсуждается индивидуально (фикс + бонусы)

Откликнуться

день назад Источник: hh.ru

Обращаем Ваше внимание, что вакансия взята с внешнего источника hh.ru. Администрация сайта не несет ответственность за ее содержание.

Рекомендуемые вакансии

Site Reliability Engineer (SRE)

Finstar Financial Group
Москва

... мобильное приложение. Сейчас мы ищем Site Reliability Engineer (SRE) , который будет отвечать за стабильность ... документации); Опыт работы в роли SRE / DevOps / Infrastructure Engineer от 3 лет; Отличное ...

16.12.2025

DevOps Engineer / Site Reliability Engineer (SRE)

Kameleoon
Москва

... и развитии внутренней платформы Тесно взаимодействовать с backend и platform-командами Ваш профиль: Обязательно: Опыт работы DevOps Engineer / SRE от 2 3 лет Глубокое понимание Linux, сетей и distributed-систем Практический опыт с Kubernetes (deployments ...

05.01.2026

Site Reliability Engineer (SRE)

BetBoom
Москва

... . Мы ищем опытного и инициативного SRE-инженера, который готов присоединиться к ... специалиста, который: Имеет опыт работы SRE/DevOps в высоконагруженных production-средах. Обладает ...

25.12.2025

Посмотреть все похожие вакансии