Site Reliability Engineer (SRE)
Мы ищем Site Reliability Engineer (SRE) в нашу команду на Кипре (работа в офисе) или удаленно. В этой роли вы будете отвечать за поддержание стабильности и надежности нашей производственной среды.
Tech stack
- Операционные системы: Linux
- Базы данных: PostgreSQL, MongoDB, Clickhouse
- Кэширование: Redis
- Обмен сообщениями: RabbitMQ, Kafka
- CI/CD: GitLab
- Мониторинг: VictoriaMetrics / Prometheus, Grafana
- Логирование: ELK / VictoriaMetrics Logs
- Контейнеризация: Docker, Kubernetes
- Управление секретами: Vault
- Инфраструктура и автоматизация: Terraform, Ansible
- Облачные технологии и виртуализация: GCP
- Развертывание: Kustomize, Helm, Argo CD
- Языки программирования: Python, Bash, PHP
- Оркестратор обработки: Temporal
Обязанности
- Обеспечение стабильности производственной и dev-инфраструктуры
- Разработка и улучшение систем мониторинга, оповещения и наблюдаемости (метрики, логи, трассировка)
- Настройка и оптимизация систем метрик и логирования
- Анализ инцидентов и предотвращение их повторения
- Работа с алертами и повышение их качества
- Повышение надежности сервисов и отказоустойчивости
- Оптимизация производительности и стабильности систем
Требования
- Глубокое понимание Linux
- Опыт работы в роли SRE / DevOps / System Engineer
- Уверенный опыт работы с инструментами мониторинга и оповещения (Prometheus, Grafana или аналогичные)
- Понимание наблюдаемости (метрики, логи, трассировка)
- Опыт работы с Kubernetes и контейнеризацией
- Опыт анализа инцидентов и поиска неисправностей в продакшене
- Навыки автоматизации (Bash, Python)
- Понимание сетей, производительности и отказоустойчивости
- Опыт работы с GCP будет плюсом
Мы предлагаем
- Удаленная работа или работа из нашего офиса в Лимасоле
- Компенсация курсов английского или греческого языка
- Медицинская страховка (только для Кипра)
- Обеды в офисе (только для Кипра)
- Гибкое начало рабочего дня