Разработчик дата-платформы Logos

Наша команда разрабатывает внутреннюю платформу управления данными Logos. С её помощью ML-инженеры, дата-инженеры и аналитики Яндекса строят ETL-пайплайны обработки данных, хранилища данных для аналитики и отчётности, собирают датасеты для машинного обучения и обучают модели. Под управлением нашей платформы находится около 10 тысяч регулярных процессов, которые каждый день обрабатывают десятки и сотни петабайт данных. Среди наших пользователей — Реклама, Маркет, Кинопоиск, Музыка, Плюс и многие другие сервисы Яндекса.

Мы помогаем нашим пользователям сосредоточиться на содержимом обрабатываемых данных и извлекать из них пользу, а инфраструктуру, оркестрацию пайплайнов и надёжность их работы берём на себя. Ищем коллегу, который будет помогать нам развивать платформу, используя всю мощь систем хранения и обработки данных Яндекса.

Подробнее о нас можно узнать из статей и видео: * Как мы тестируем дата-пайплайны в рекламе Яндекса (видео тут) * Опыт построения DMP в рекламе Яндекса * Как регулярно строить всё больше ML-пулов на MapReduce, а дежурить всё меньше

Какие задачи вас ждут

Разработка ETL-фреймворка Наши пользователи создают свои конвейеры обработки данных на Python с помощью фреймворка, который мы разрабатываем. Вам предстоит расширять его возможности, делать его более гибким и открывать новые сценарии применения. Одновременно с этим вас ждут задачи по упрощению базовых сценариев и сокращению объёма бойлерплейт-кода, который должны писать пользователи, чтобы снизить трудозатраты на разработку и поддержку процессов обработки данных.

Развитие платформы обработки данных Среди наших пользователей такие крупные сервисы Яндекса, как Реклама, Маркет, Плюс, Фантех. Все они используют общую инфраструктуру Яндекса, при этом данные и процессы каждого сервиса обладают своими особенностями. Наша задача — снизить стоимость и сократить время внедрения общих решений, а также распространять лучшие практики, сохраняя при этом максимальную гибкость, чтобы учесть особенности каждого сервиса. Вы сможете поучаствовать в разработке общих инструментов для управления данными, например data-quality-инструментов, поработать над поддержкой различных систем хранения и обработки данных в рамках дата-платформы.

Повышение надёжности сервиса Под управлением нашей платформы находятся десятки петабайт данных и тысячи процессов, принадлежащих десяткам команд более чем дюжины различных сервисов. На таких масштабах пользователям необходимы инструменты, которые позволяют тестировать их конвейеры в рамках CI/CD и обеспечивать бесперебойную работу процессов в продакшне. В ваши задачи будут входить разработка средств мониторинга проблем в продакшне и реагирования на них, внедрение лучших практик Яндекса по обеспечению надёжности высоконагруженных сервисов, чтобы наши пользователи могли самостоятельно обслуживать свои конвейеры.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

Мы ждём, что вы

Отлично знаете Python
Знаете базовые принципы и паттерны проектирования ПО
Стремитесь писать код, который легко читать и поддерживать
Работали с реляционными и нереляционными базами данных и понимаете их устройство

Будет плюсом

Писали на С++ и Golang
Разрабатывали и поддерживали библиотеки на Python
Понимаете, как устроены отказоустойчивые распределённые системы
Занимались обработкой больших данных, работали с хранилищами данных DWH
Знакомы с ETL-фреймворками Airflow, Luigi, Dagster и другими

Контакты

Какие задачи вас ждут

Мы ждём, что вы

Будет плюсом

Похожие вакансии

Data Engineer (DevEx)

Инженер данных в Едадил

Big Data Engineer (NRT/Spark)

Инженер данных в Финтех

Дата-инженер в Яндекс 360

Data engineer (Корпоративное взыскание)

Data Engineer (Kandinsky)

Software Engineer (Data Pipeline)

Data Engineer

Дата инженер

Data-инженер

Аналитик Данных

Разработчик дата-платформы Logos

Ключевые навыки

Детали

Средняя заработная плата на позиции