SRE в Yandex Cloud Managed Kubernetes

Yandex Cloud — технологическая платформа для создания и развития ИТ-продуктов, а наш сервис Managed Kubernetes — её ключевая часть, которая служит фундаментом для тысяч кластеров наших клиентов и критически важных внутренних сервисов Яндекса.

Наша команда отвечает за бесперебойную работу Managed Kubernetes и развитие в условиях постоянного роста. Мы проектируем, масштабируем и автоматизируем инфраструктуру, которая включает тысячи серверов и Kubernetes-кластеров в нескольких дата-центрах. Этот масштаб создаёт уникальные инженерные задачи в области надёжности, автоматизации и предсказуемого масштабирования, которые нам предстоит решать.

В качестве SRE вы будете отвечать за развёртывание управляющих компонентов и необходимой для них инфраструктуры, поддержание надёжности и производительности как внутренних сервисов, так и кластеров внешних клиентов и адаптацию новых облачных технологий к процессам разработки.

Мы — коллектив инженеров, которые ценят глубину экспертности, открытость и взаимопомощь. У нас нет культуры «героя-одиночки»: сложные инциденты мы решаем вместе, а идеи по улучшению архитектуры всегда находят поддержку. Мы работаем в тесном контакте с разработчиками платформы, что позволяет влиять на продукт на всех этапах.

В работе мы используем: * Golang — для разработки сервисов и автоматики. * Terraform — для описания инфраструктуры. * TeamCity и Spinnaker — для процессов CI/CD.

О команде

Подписывайтесь на телеграм-канал Inside Yandex Cloud, чтобы узнать больше про нашу команду и технологии!

Какие задачи вас ждут

Infrastructure as Code Вам предстоит создавать и внедрять единый стандарт IaC для сложной, географически распределённой инфраструктуры, влиять на стабильность и скорость развёртывания всего сервиса, создавать единый, понятный, удобный, гибкий способ доставлять изменения в облачные ресурсы и приложения.

SDLC Вы будете строить и автоматизировать SDLC через CI/CD-пайплайны (TeamCity, Spinnaker) для безопасного и удобного применения изменений конфигураций десятков приложений, сотен облачных ресурсов и большого количества кластеров со всем разнообразием их компонентов. Будете напрямую влиять на скорость и безопасность доставки фич пользователям, улучшение Developer Experience для всей команды разработки, создание инструментов, которыми будут пользоваться каждый день.

On-call-дежурства и SRE-мониторинг Вам нужно будет расследовать и устранять уникальные и сложные инциденты, требующие глубокой экспертности на уровне ОС, K8s, сети и облачных сервисов, что позволяет постоянно расширять технический кругозор и навыки. Вы будете работать в рамках отлаженных и зрелых on-call-процессов, включающих blameless post-mortems, сбалансированную ротацию и систему взаимной поддержки. Кроме того, вам предстоит строить современную observability-платформу на базе облачных сервисов для инфраструктуры большого масштаба: не просто настраивать алерты, а создавать систему, способную отслеживать аномалии в тысячах объектов и десятках паттернов их использования и реагировать на них.

Безопасность Вы будете развивать решения, соответствующие стандартам безопасности (PCI DSS, ГОСТ Р 57580, ISO 27001), и решения, позволяющие обновить десяток сервисных компонентов разных версий на тысячи нод без деградации текущей функциональности.

Облачные технологии Вам предстоит адаптировать опенсорсные и проприетарные инструменты и технологии как для внутреннего потребления, так и для внешних клиентов. Вы сможете быть на острие технологий: пробовать не только опенсорс-инструменты, но и их аналоги, построенные на основе больших систем Яндекса и с учётом его многолетнего опыта, проводить их глубокий анализ, сравнивать с аналогами и внедрять лучшие из них на основе продакшн-опыта Яндекса.

Больше о разработке в Яндексе — в канале Yandex for Developers

Мы ждём, что вы

Способны взять на себя ответственность в одном или нескольких ключевых описанных направлениях
Обладаете экспертностью, которая позволит вам определять подход, влиять на архитектуру и напрямую улучшать продукт

Какие задачи вас ждут

Больше о разработке в Яндексе — в канале Yandex for Developers

Мы ждём, что вы

Способны взять на себя ответственность в одном или нескольких ключевых описанных направлениях

Обладаете экспертностью, которая позволит вам определять подход, влиять на архитектуру и напрямую улучшать продукт

Key Skills

Contacts

Average salary for this role

Details

О команде

Какие задачи вас ждут

Мы ждём, что вы

Similar vacancies

SRE for the YDB Automation Team

SRE Engineer for the Plus Loyalty Team

SRE Engineer

SRE Engineer for the Infrastructure Team

Site Reliability Engineer

Managed Kubernetes Backend Developer at Yandex Cloud

Senior SRE Engineer at Domiland

SRE

Senior DevOps (SRE) Engineer

Yandex Cloud Infrastructure Developer

DevOps Engineer

DevOps engineer

Key Skills

Contacts

Average salary for this role

Details

О команде

Какие задачи вас ждут

Мы ждём, что вы

Similar vacancies

SRE for the YDB Automation Team

SRE Engineer for the Plus Loyalty Team

SRE Engineer

SRE Engineer for the Infrastructure Team

Site Reliability Engineer

Managed Kubernetes Backend Developer at Yandex Cloud

Senior SRE Engineer at Domiland

SRE

Senior DevOps (SRE) Engineer

Yandex Cloud Infrastructure Developer

DevOps Engineer

DevOps engineer