Разработчик интеграции Apache Spark с YTsaurus

YT (YTsaurus) — это основная платформа для аналитики и построения batch-процессов в Яндексе, которая включает несколько видов хранилищ, планировщик ресурсов и встроенный MapReduce-движок. Apache Spark — популярный открытый фреймворк для распределённой обработки больших объёмов данных.

Уже больше 5 лет мы занимаемся интеграцией Spark с YTsaurus в рамках проекта SPYT. За это время Spark стал одним из основных аналитических инструментов для работы с данными, которые хранятся в YTsaurus и используются как внутри Яндекса, так и внешними пользователями. Исходный код SPYT доступен в опенсорсе в репозитории. За последние годы мы несколько раз рассказывали про наш проект на конференциях:

— Как подключить к Apache Spark проприетарный источник данных — Помогаем планировщику Apache Spark быть ещё эффективнее — Внедряем Spark SQL в массы

Перед нами стоят всё более интересные и амбициозные задачи, и мы ищем сильного разработчика, который станет частью нашей команды.

О команде

Мы искренне увлечены большими распределёнными системами и сложными техническими задачами. Многие из нас имеют академический опыт и до сих пор активно преподают — в МФТИ, ВШЭ, ШАД и других вузах. Несколько человек занимали призовые места в соревнованиях по спортивному программированию.

В команде сохраняется дух стартапа: дружно общаемся в рабочее и нерабочее время, вместе штурмуем задачи, экспериментируем и участвуем в CTF.

Работаем в Москве, Белграде, Ереване, Минске и других локациях, в том числе удалённо.

Какие задачи вас ждут

Поддержка всех современных версий Spark Сам Spark продолжает активно развиваться, поэтому необходимо поддерживать нашу интеграцию в соответствии со всей новой функциональностью, реализуемой в основном фреймворке. Например, нужно будет сделать поддержку Java 17 и Java 21, а также интегрировать со Spark Connect, появившемся в Spark 3.4.0.

Развитие интеграции Spark и YTsaurus Мы работаем над созданием собственного внешнего shuffle-сервиса и хотим его интегрировать для использования в Spark-расчётах. Кроме того, повышаем эффективность выполнения задач Spark в YTsaurus, развивая более тесную интеграцию с хранилищем данных и планировщиков задач.

Продвижение опенсорс-проекта C 2023 года код YTsaurus, в том числе и SPYT, доступен в открытом доступе, поэтому мы активно работаем над развитием внешнего комьюнити вокруг проекта.

Мы ждём, что вы

Работали с Apache Spark не менее трёх лет
Умеете разрабатывать на Java и Python, также желательно знать Scala
Понимаете принципы распределённого хранения и обработки больших объёмов данных

Будет плюсом

Работали с Hadoop-стеком (HDFS, YARN)
Работали с Docker и Kubernetes
Принимали участие в работе над опенсорс-проектом
Знаете C++ или Go

Контакты

О команде

Какие задачи вас ждут

Мы ждём, что вы

Будет плюсом

Похожие вакансии

Big Data Engineer (NRT/Spark)

Data Engineer в Платформу данных Yandex Cloud

Разработчик бэкенда в команду инфраструктуры рекомендательных систем

Data engineer GigaData

Data-инженер

Data Scientist в ML-сервисы Yandex Cloud

Владелец продукта

DATA ENGINEER (SMT)

Senior Data Engineer

Data Engineer (SafeHub)

Data Engineer

Java-разработчик в тему "Квартиры"

Разработчик интеграции Apache Spark с YTsaurus

Ключевые навыки

Детали

Средняя заработная плата на позиции