Разработчик бэкенда в ApplicationTeam (Observability)

Платформа Observability Яндекса — ключевой инструмент, обеспечивающий надёжность инфраструктуры компании. Это централизованная платформа мониторинга, которая в реальном времени каждую секунду обрабатывает 2,4 миллиарда запросов на запись и 2 миллиарда — на чтение. Такие масштабы диктуют особые требования к производительности, отказоустойчивости и качеству решений, которые мы создаём.

Практически все команды Яндекса, а также тысячи внешних клиентов Yandex Cloud ежедневно пользуются нашими инструментами для мониторинга работы своих систем и предотвращения инцидентов.

ApplicationTeam — входная точка в платформу Observability. Мы отвечаем за взаимодействие пользователей с системой: обрабатываем все входящие запросы к системе мониторинга, проектируем масштабируемые API, поддерживаем SDK и строим интеграции с сервисами разного масштаба. Мы тесно взаимодействуем с другими командами и предоставляем доступ к метрикам, логам, трейсам и алертам.

О команде

В ApplicationTeam сейчас шесть опытных бэкенд-разработчиков, которые разрабатывают взаимодействие с платформой Observability. Наш основной стек — Java, но для некоторых задач мы используем C++ и Go. Мы тесно работаем с другими бэкенд‑командами и UI‑разработчиками, вместе делая Observability-платформу.

Как мы работаем: * Работаем по Scrum: разбиваем задачи на спринты и планируем долгосрочные цели на несколько месяцев * Для новичков предусмотрен онбординг: вы получите своего ментора, доступ к внутренней документации и серию воркшопов по устройству Observability * Работаем распределённо: члены команды живут в разных городах и странах. При этом мы регулярно встречаемся офлайн, чтобы обсудить планы и просто провести время вместе

Подписывайтесь на телеграм-канал Inside Yandex Cloud, чтобы узнать больше про нашу команду и технологии!

Какие задачи вас ждут

Замониторенность из коробки Сегодня, чтобы начать мониторинг нового сервиса, разработчику нужно долго разбираться в конфигурациях, интеграциях и ручной настройке метрик. Наша цель — сделать так, чтобы максимальный объём информации о состоянии сервисов собирался и визуализировался автоматически, без дополнительных телодвижений со стороны пользователя. Вы будете проектировать и реализовывать технологии автообнаружения сервисов, динамической генерации метрик и автоматического создания дашбордов, которые работают «из коробки» даже в самых сложных сценариях — от bare-metal до распределённых облачных систем. Вам предстоит решать очень крутую задачу: как покрыть 90% типов сервисов, не написав ни единой строчки дополнительного кода? Как гарантировать полную замониторенность даже в условиях внезапных изменений инфраструктуры?

Мгновенный drilldown при инцидентах и получение инсайтов В современных распределённых системах локализовать инцидент бывает сложнее, чем его починить. Ваша задача — создавать инструменты, которые в ситуации «пожара» позволяют зайти в платформу и сразу понять, что случилось, где именно возник сбой, как он повлиял на систему и что делать дальше, — вместо того, чтобы потеряться в огромном объёме сырых данных. Пользователь видит не разрозненные данные, а связанную историю происходящего: система подсказывает возможные руткозы и предлагает способы быстро углубиться в детали для локализации сбоя.

Интерфейсы и протоколы взаимодействия с платформой В нашей экосистеме классических решений часто оказывается недостаточно — поэтому многое приходится изобретать с нуля или адаптировать под свои цели. Чтобы обрабатывать миллионы метрик в секунду, мы создали собственный бинарный формат Spack: в отличие от Protobuf, он поддерживает динамические наборы метрик без схемы, эффективно сжимает и быстро декодирует данные (LZ4, ZSTD), что критично для стабильной работы под экстремальными нагрузками.

Вам предстоит проектировать архитектуру API, разрабатывать SDK и gRPC-интерфейсы, развивать внутренние протоколы и форматы обмена данными, чтобы обеспечивать единые стандарты и высокую отказоустойчивость для всех сервисов Яндекса.

Интеграция AI/ML Мы хотим перейти от реактивного мониторинга к проактивному — такой системе, которая умеет выявлять корневые причины инцидентов и предугадывать проблемы, которые ещё не обнаружились явно, но уже могут быть предсказаны. Вам предстоит разработать интеллектуальный слой для нашей платформы: от создания и внедрения моделей определения аномалий (на основе показателей, логов, трасс) до построения механизмов оповещений и диагностики сложных сбоев. Вы будете решать сложные задачи: как учиться на инцидентах, которые не повторяются? Как сокращать время до обнаружения и локализации проблем в инфраструктуре?

Мы ждём, что вы

Понимаете, как устроены распределённые и высоконагруженные системы, знакомы с особенностями их архитектуры и требованиями к отказоустойчивости
Имеете опыт промышленной разработки на Java (опыт работы с большими кодовыми базами)
Знакомы с базовыми алгоритмами и структурами данных, знаете, как их применять в работе
Владеете основами работы в Unix-системах и используете их инструменты для диагностики и анализа сервисов
Разрабатывали API, SDK или библиотеки для разработчиков
Умеете проектировать удобные, расширяемые и безопасные REST/gRPC-интерфейсы

Будет плюсом

Работали с системами мониторинга: Prometheus, Grafana, ELK, Jaeger, DataDog или аналогами
Знакомы с Terraform или другими инструментами IaC

Смотрите другие вакансии направления Yandex Cloud Observability Platform по ссылке.

Контакты

О команде

Какие задачи вас ждут

Мы ждём, что вы

Будет плюсом

Похожие вакансии

Разработчик бэкенда в Yandex Monitoring

Разработчик бэкенда в Yandex Crowd

Бэкенд-разработчик в команду Документов

Разработчик в группу событийного мониторинга

Go-разработчик в команду Мониторинг

Технический менеджер платформы Observability

Backend разработчик Go (команда Звонки СберЧат)

Разработчик системы логирования в Observability Platform

Разработчик бэкенда сервисов телефонии

Разработчик на Java в команду инфраструктуры Директа

Java-разработчик со знанием Go (Platform V Monitor EVVA)

Java/Kotlin-разработчик в группу внутренней инфраструктуры бэкенда Финтеха

Разработчик бэкенда в ApplicationTeam (Observability)

Ключевые навыки

Детали

Средняя заработная плата на позиции