DevOps Engineer / MLOps (в офис)
АРЕАЛОписание
Обязанности:
Проектирование и построение ML/AI инфраструктуры:
Создание и поддержка архитектуры для разработки, обучения и эксплуатации ИИ-моделей
Проектирование и внедрение MLOps-платформы для управления жизненным циклом ML-моделей
Настройка окружений для разработки, тестирования и продакшена ИИ-решений
Организация инфраструктуры для работы с LLM (Large Language Models) и векторными базами данных
Обеспечение возможности работы с GPU-ресурсами для обучения и инференса моделей
CI/CD и автоматизация
Разработка и внедрение CI/CD пайплайнов для ИИ-решений и микросервисов
Автоматизация процессов сборки, тестирования и развертывания приложений
Настройка версионирования моделей, данных и артефактов
Создание инструментов для автоматизированного мониторинга качества моделей (model drift detection).
Подбор и настройка инструментов для автоматизации рутинных операций
Контейнеризация и оркестрация:
Проектирование и внедрение решений на базе контейнерных окружений
Развертывание и администрирование Kubernetes-кластеров
Создание Helm-чартов для стандартизации развертывания приложений (опционально)
Настройка масштабирования сервисов в зависимости от событий и метрик производительности
Оптимизация использования ресурсов контейнеров
Мониторинг и обеспечение надежности:
Внедрение систем мониторинга инфраструктуры и приложений (Prometheus, Grafana, ELK Stack)
Настройка алертинга и систем оповещения о критических событиях
Мониторинг производительности ИИ-моделей в продакшене
Обеспечение высокой доступности (HA) критичных сервисов
Разработка и тестирование процедур disaster recovery
Проведение анализа инцидентов и внедрение мер по их предотвращению
Безопасность и соответствие требованиям:
Внедрение практик DevSecOps на всех этапах разработки
Обеспечение безопасности контейнеров и образов
Настройка сетевой безопасности и политик доступа
Аудит безопасности инфраструктуры и устранение уязвимостей
Обеспечение соответствия требованиям по защите данных
Масштабирование и оптимизация:
Планирование и реализация стратегии масштабирования инфраструктуры
Оптимизация использования вычислительных ресурсов и затрат на облачную инфраструктуру
Проведение нагрузочного тестирования и capacity planning
Помощь в оптимизации производительности приложений и баз данных
Внедрение кэширования и CDN для ускорения работы сервисов
Стандартизация и документирование:
Разработка и внедрение стандартов DevOps-практик для команды
Создание и поддержка Infrastructure as Code (IaC) с использованием Terraform, Kustomization, Helm,
Документирование архитектуры, процессов и процедур
Создание runbook'ов для типовых операционных задач
Разработка best practices для разработчиков по работе с инфраструктурой
Взаимодействие и менторинг:
Тесное сотрудничество с командами разработки (AI/ML Engineers, Data Engineers)
Консультирование разработчиков по вопросам инфраструктуры и деплоя
Участие в архитектурных сессиях и технических ревью
Обучение команды современным практикам взаимодействия с инфраструктурой
Организация knowledge sharing сессий
Требования:Обязательные:
Контейнеризация и оркестрация: практический опыт администрирования Kubernetes (3+ года)
CI/CD: опыт построения пайплайнов в GitLab CI/CD, Jenkins, GitHub Actions или аналогах
Infrastructure as Code: уверенное владение Terraform, Helm, Kustomization
Облачные платформы: практический опыт работы с AWS, Azure, Yandex Cloud или аналогичными облачными провайдерами
Автоматизация: уверенное владение актуальными средствами автоматизации Bash, preHooks etc
Мониторинг: опыт настройки актуальных систем мониторинга (ELK EFK Loki, Grafana, OpenTelemetry, Prometheus etc)
Системное администрирование: глубокое знание Linux
Сетевые технологии: понимание TCP/IP, DNS, Load Balancing, Reverse Proxy. Так же плюсом будет знание BGP и Service Mesh
Версионирование: продвинутое владение Git, Git Flow
Базы данных: опыт администрирования Clickhouse, PostgreSQL, NoSQL KeyValue (Valkey, Dragonfly, Redis etc), , понимание репликации и backup-стратегий
Желательно (будет плюсом):
MLOps: опыт работы с MLflow, Kubeflow, Airflow для ML-пайплайнов
Service Mesh: знание Istio, Linkerd
Безопасность: опыт работы с HashiCorp Vault, настройка RBAC, Network Policies
Observability: опыт с Jaeger, OpenTelemetry для distributed tracing
GitOps: знание ArgoCD, Flux
Serverless: опыт работы с AWS Lambda, Knative
GPU-инфраструктура: опыт настройки CUDA, nvidia-docker для ML-задач, NVIDIA Operator k8s
Векторные БД: опыт развертывания Qdrant, Milvus, Weaviate
Message Brokers: опыт работы с Kafka, RabbitMQ, NATS
Условия:-
Офис находится : г. Москва, наб. Пресненская, д.10 (Москва-Сити);
-
График работы: пятидневная рабочая неделя с понедельника по пятницу , выходные: суббота, воскресенье;
-
Период испытательного срока: 3 месяца;
-
ДМС;
-
Годовой бонус;
-
Профессиональное обучение и развитие;
-
Возможность реализовать свой потенциал и построить карьеру.
-
Конкурентоспособный уровень заработной платы.
-
Участие в интересных и масштабных проектах.