Reach out directly about this role
By job title
5 years
Experience
Full-time
Employment
Hybrid, Remote, Onsite
Work Format
Senior
Grade
DevOps
Specialization
IT & Tech
Industry
Corporation
Company Type
SRE в Yandex Cloud Managed Kubernetes
Yandex Cloud — технологическая платформа для создания и развития ИТ-продуктов, а наш сервис Managed Kubernetes — её ключевая часть, которая служит фундаментом для тысяч кластеров наших клиентов и критически важных внутренних сервисов Яндекса.
Наша команда отвечает за бесперебойную работу Managed Kubernetes и развитие в условиях постоянного роста. Мы проектируем, масштабируем и автоматизируем инфраструктуру, которая включает тысячи серверов и Kubernetes-кластеров в нескольких дата-центрах. Этот масштаб создаёт уникальные инженерные задачи в области надёжности, автоматизации и предсказуемого масштабирования, которые нам предстоит решать.
В качестве SRE вы будете отвечать за развёртывание управляющих компонентов и необходимой для них инфраструктуры, поддержание надёжности и производительности как внутренних сервисов, так и кластеров внешних клиентов и адаптацию новых облачных технологий к процессам разработки.
Мы — коллектив инженеров, которые ценят глубину экспертности, открытость и взаимопомощь. У нас нет культуры «героя-одиночки»: сложные инциденты мы решаем вместе, а идеи по улучшению архитектуры всегда находят поддержку. Мы работаем в тесном контакте с разработчиками платформы, что позволяет влиять на продукт на всех этапах.
В работе мы используем: * Golang — для разработки сервисов и автоматики. * Terraform — для описания инфраструктуры. * TeamCity и Spinnaker — для процессов CI/CD.
Подписывайтесь на телеграм-канал Inside Yandex Cloud, чтобы узнать больше про нашу команду и технологии!
Infrastructure as Code Вам предстоит создавать и внедрять единый стандарт IaC для сложной, географически распределённой инфраструктуры, влиять на стабильность и скорость развёртывания всего сервиса, создавать единый, понятный, удобный, гибкий способ доставлять изменения в облачные ресурсы и приложения.
SDLC Вы будете строить и автоматизировать SDLC через CI/CD-пайплайны (TeamCity, Spinnaker) для безопасного и удобного применения изменений конфигураций десятков приложений, сотен облачных ресурсов и большого количества кластеров со всем разнообразием их компонентов. Будете напрямую влиять на скорость и безопасность доставки фич пользователям, улучшение Developer Experience для всей команды разработки, создание инструментов, которыми будут пользоваться каждый день.
On-call-дежурства и SRE-мониторинг Вам нужно будет расследовать и устранять уникальные и сложные инциденты, требующие глубокой экспертности на уровне ОС, K8s, сети и облачных сервисов, что позволяет постоянно расширять технический кругозор и навыки. Вы будете работать в рамках отлаженных и зрелых on-call-процессов, включающих blameless post-mortems, сбалансированную ротацию и систему взаимной поддержки. Кроме того, вам предстоит строить современную observability-платформу на базе облачных сервисов для инфраструктуры большого масштаба: не просто настраивать алерты, а создавать систему, способную отслеживать аномалии в тысячах объектов и десятках паттернов их использования и реагировать на них.
Безопасность Вы будете развивать решения, соответствующие стандартам безопасности (PCI DSS, ГОСТ Р 57580, ISO 27001), и решения, позволяющие обновить десяток сервисных компонентов разных версий на тысячи нод без деградации текущей функциональности.
Облачные технологии Вам предстоит адаптировать опенсорсные и проприетарные инструменты и технологии как для внутреннего потребления, так и для внешних клиентов. Вы сможете быть на острие технологий: пробовать не только опенсорс-инструменты, но и их аналоги, построенные на основе больших систем Яндекса и с учётом его многолетнего опыта, проводить их глубокий анализ, сравнивать с аналогами и внедрять лучшие из них на основе продакшн-опыта Яндекса.
Больше о разработке в Яндексе — в канале Yandex for Developers