Свяжитесь напрямую по этой вакансии
Разработчик дата-платформы Logos
Наша команда разрабатывает внутреннюю платформу управления данными Logos. С её помощью ML-инженеры, дата-инженеры и аналитики Яндекса строят ETL-пайплайны обработки данных, хранилища данных для аналитики и отчётности, собирают датасеты для машинного обучения и обучают модели. Под управлением нашей платформы находится около 10 тысяч регулярных процессов, которые каждый день обрабатывают десятки и сотни петабайт данных. Среди наших пользователей — Реклама, Маркет, Кинопоиск, Музыка, Плюс и многие другие сервисы Яндекса.
Мы помогаем нашим пользователям сосредоточиться на содержимом обрабатываемых данных и извлекать из них пользу, а инфраструктуру, оркестрацию пайплайнов и надёжность их работы берём на себя. Ищем коллегу, который будет помогать нам развивать платформу, используя всю мощь систем хранения и обработки данных Яндекса.
Подробнее о нас можно узнать из статей и видео: * Как мы тестируем дата-пайплайны в рекламе Яндекса (видео тут) * Опыт построения DMP в рекламе Яндекса * Как регулярно строить всё больше ML-пулов на MapReduce, а дежурить всё меньше
Разработка ETL-фреймворка Наши пользователи создают свои конвейеры обработки данных на Python с помощью фреймворка, который мы разрабатываем. Вам предстоит расширять его возможности, делать его более гибким и открывать новые сценарии применения. Одновременно с этим вас ждут задачи по упрощению базовых сценариев и сокращению объёма бойлерплейт-кода, который должны писать пользователи, чтобы снизить трудозатраты на разработку и поддержку процессов обработки данных.
Развитие платформы обработки данных Среди наших пользователей такие крупные сервисы Яндекса, как Реклама, Маркет, Плюс, Фантех. Все они используют общую инфраструктуру Яндекса, при этом данные и процессы каждого сервиса обладают своими особенностями. Наша задача — снизить стоимость и сократить время внедрения общих решений, а также распространять лучшие практики, сохраняя при этом максимальную гибкость, чтобы учесть особенности каждого сервиса. Вы сможете поучаствовать в разработке общих инструментов для управления данными, например data-quality-инструментов, поработать над поддержкой различных систем хранения и обработки данных в рамках дата-платформы.
Повышение надёжности сервиса Под управлением нашей платформы находятся десятки петабайт данных и тысячи процессов, принадлежащих десяткам команд более чем дюжины различных сервисов. На таких масштабах пользователям необходимы инструменты, которые позволяют тестировать их конвейеры в рамках CI/CD и обеспечивать бесперебойную работу процессов в продакшне. В ваши задачи будут входить разработка средств мониторинга проблем в продакшне и реагирования на них, внедрение лучших практик Яндекса по обеспечению надёжности высоконагруженных сервисов, чтобы наши пользователи могли самостоятельно обслуживать свои конвейеры.
Больше о бэкенде в Яндексе — в канале Yandex for Backend
5 лет
Опыт работы
Полная занятость
Тип занятости
Офис, Гибрид
Формат работы
Middle
Грейд
Data Engineering
Специализация
IT & Tech
Отрасль
Корпорация
Тип компании
По стране
Data Engineering
Специализация
IT & Tech
Отрасль
Корпорация
Тип компании