Свяжитесь напрямую по этой вакансии
Разработчик интеграции Apache Spark с YTsaurus
YT (YTsaurus) — это основная платформа для аналитики и построения batch-процессов в Яндексе, которая включает несколько видов хранилищ, планировщик ресурсов и встроенный MapReduce-движок. Apache Spark — популярный открытый фреймворк для распределённой обработки больших объёмов данных.
Уже больше 5 лет мы занимаемся интеграцией Spark с YTsaurus в рамках проекта SPYT. За это время Spark стал одним из основных аналитических инструментов для работы с данными, которые хранятся в YTsaurus и используются как внутри Яндекса, так и внешними пользователями. Исходный код SPYT доступен в опенсорсе в репозитории. За последние годы мы несколько раз рассказывали про наш проект на конференциях:
— Как подключить к Apache Spark проприетарный источник данных — Помогаем планировщику Apache Spark быть ещё эффективнее — Внедряем Spark SQL в массы
Перед нами стоят всё более интересные и амбициозные задачи, и мы ищем сильного разработчика, который станет частью нашей команды.
Мы искренне увлечены большими распределёнными системами и сложными техническими задачами. Многие из нас имеют академический опыт и до сих пор активно преподают — в МФТИ, ВШЭ, ШАД и других вузах. Несколько человек занимали призовые места в соревнованиях по спортивному программированию.
В команде сохраняется дух стартапа: дружно общаемся в рабочее и нерабочее время, вместе штурмуем задачи, экспериментируем и участвуем в CTF.
Работаем в Москве, Белграде, Ереване, Минске и других локациях, в том числе удалённо.
Поддержка всех современных версий Spark Сам Spark продолжает активно развиваться, поэтому необходимо поддерживать нашу интеграцию в соответствии со всей новой функциональностью, реализуемой в основном фреймворке. Например, нужно будет сделать поддержку Java 17 и Java 21, а также интегрировать со Spark Connect, появившемся в Spark 3.4.0.
Развитие интеграции Spark и YTsaurus Мы работаем над созданием собственного внешнего shuffle-сервиса и хотим его интегрировать для использования в Spark-расчётах. Кроме того, повышаем эффективность выполнения задач Spark в YTsaurus, развивая более тесную интеграцию с хранилищем данных и планировщиков задач.
Продвижение опенсорс-проекта C 2023 года код YTsaurus, в том числе и SPYT, доступен в открытом доступе, поэтому мы активно работаем над развитием внешнего комьюнити вокруг проекта.
3 лет
Опыт работы
Полная занятость
Тип занятости
Гибрид
Формат работы
Senior
Грейд
Data Engineering
Специализация
IT & Tech
Отрасль
Корпорация
Тип компании
По городу
Data Engineering
Специализация
IT & Tech
Отрасль
Корпорация
Тип компании