Senior DevOps Engineer
Отдел: Delivery
Местоположение: Португалия
Тип занятости: Полная занятость
Опыт: Senior
Описание
Мы ищем DevOps/SRE инженера для усиления нашей команды!
Требования
- Минимум 5 лет опыта работы в роли DevOps и/или Site Reliability Engineering
- Глубокий практический опыт администрирования систем Linux
- Обширный опыт развертывания, эксплуатации и масштабирования Kubernetes как в облачных, так и в bare-metal средах
- Глубокая экспертиза и практический опыт работы с хотя бы одним основным облачным провайдером (предпочтительно Google Cloud Platform)
- Опыт инференса ML на GPU/CPU будет большим плюсом
- Подтвержденный опыт внедрения практик SRE и построения стеков наблюдаемости с использованием Grafana, Prometheus и Loki
- Строгое соблюдение принципов GitOps, Infrastructure as Code (IaC) и CI/CD
- Продвинутая экспертиза в Terraform, Ansible и Python
- Комфортное ощущение в условиях высокой неопределенности: мы создаем новый продукт, требования быстро меняются, поэтому способность быстро осваивать новые технологии и паттерны является ключевой
- Проактивный настрой: способность видеть за рамками DevOps задач и активно отлаживать и понимать продукт
- Стратегическое мышление: способность выбирать технологии и архитектурные подходы, основываясь на долгосрочных целях, а не на краткосрочных компромиссах
Обязанности
- Развертывание, эксплуатация и развитие платформы на базе микросервисов, работающей в кластерах Kubernetes в средах AWS, GCP и on-prem (Rancher)
- Эксплуатация и поддержка сервисов инференса ML на GPU (Triton Inference Server, vLLM), развернутых на RunPod, Scaleway и Nebius
- Создание и поддержка Docker-образов для всех микросервисов и обеспечение стабильного жизненного цикла сервиса
- Поддержка и масштабирование кластеров Kubernetes для разработки и продакшена, активное участие в отладке развертываний, расследовании инцидентов и устранении проблем с производительностью
- Разработка, поддержка и развитие кастомных Helm-чартов для каждого сервиса
- Проектирование и эксплуатация CI/CD пайплайнов с использованием GitHub (код и пайплайны) и GitLab для on-prem развертываний у клиентов
- Обеспечение соответствия платформы требованиям SOC 2 и активное участие в улучшении процессов безопасности и соответствия требованиям
- Управление доступом к кластеру через NetBird VPN, внедрение ролевого контроля доступа с использованием групповых политик
- Развертывание и управление инфраструктурой с использованием практик IaC с помощью Terraform и Ansible
- Разработка и постоянное совершенствование систем наблюдаемости:
- Grafana & Prometheus для метрик
- ELK stack для централизованного хранения и анализа логов
- Постоянная оптимизация инфраструктуры в областях IaC, IAM, Observability и CI/CD
- Работа с технологическим стеком, включающим: Python, Kubernetes, Linux, Docker, GitHub CI/CD, PostgreSQL, ClickHouse, Kafka, Superset, Terraform, Ansible
Что мы предлагаем
- Команда создала отмеченные наградами AI-продукты для технологических корпораций — устройства, голосовые помощники, реальные продукты, используемые в мире
- Передовой технологический стек: Speech Technologies, NLP, Generative AI (LLM, diffusion models), агентная архитектура с приоритетом конфиденциальности и развертыванием on-premises
- Высокая планка инженерной культуры и реальная ответственность — команда заботится о том, что реально работает в продакшене, а не о том, как это выглядит в демо, и вы напрямую увидите результаты своей работы
- Быстрый карьерный рост — команда с преобладанием senior-специалистов и большой объем реальных задач означают, что вы будете расти быстрее, чем где-либо еще
- Темп стартапа при стабильности крупной компании — реальные клиенты, реальная выручка, отсутствие бюрократии
- Полностью удаленная работа
- 21 день отпуска + государственные праздники + 5 дней больничного
- Частные уроки английского языка через Preply