Свяжитесь напрямую по этой вакансии
Big Data Engineer (NRT/Spark)
Финтех в Яндексе — это одно из ключевых и наиболее динамично развивающихся направлений компании. Это экосистема финансовых сервисов, встроенная в повседневную жизнь миллионов пользователей и бизнесов. Это молодое, смелое направление, которое уже доказало свою пользу и продолжает активно расти.
Ключевые продукты Финтеха: Яндекс Пэй, Сплит, Сейвы, Карта Плюса, кредитные продукты, Яндекс ID, Яндекс Про и многое другое.
Это сложная инженерная и аналитическая среда, где пересекаются высокая нагрузка, большие данные и жёсткие требования регуляторов.
В команду платформенных данных требуется специалист по Apache Spark с глубоким понимаем внутренней архитектуры фреймворка. Основная задача — развитие платформы для обработки NRT-данных (near real time), повышение отказоустойчивости и производительности потоковых процессов.
Вот с чем вам предстоит столкнуться: * Высокие нагрузки: миллионы транзакций, таблицы с объёмом далеко за 1 млн записей * Распределённые данные: используются Greenplum, ClickHouse, Hadoop, Spark для обработки огромных массивов информации * Архитектура DWH: строятся сложные хранилища данных, витрины для отчётности (регуляторной и управленческой), настраиваются ETL-процессы * Безопасность и интеграция: проработка интеграций с внешними источниками (БКИ, СМЭВ), автоматизация ручных процессов бэк-офиса, работа с автоматизированными банковскими системами
Стек для ежедневных задач: * Язык: Python (основной для разработки пайплайнов и скриптов) * Оркестрация: Apache Airflow (разработка пайплайнов) * Обработка данных: Apache Spark (Spark SQL, DataFrame) * Запросы: Trino (работа с данными через движок)
Подробнее о нас — на странице Финтеха.
Проектирование и развитие облачной дата-платформы Мы готовимся к кратному росту объёмов обрабатываемых данных. Вы будете оптимизировать инфраструктуру и проектировать новые компоненты платформы с использованием облачных технологий Yandex Cloud.
Построение единой observability-платформы для таблиц DWH Мы обеспечиваем наблюдаемость и контролируемость процессов. Вам предстоит создать единую точку входа для мониторинга статусов сборки, качества данных и анализа зависимостей, включая построение datalineage и процессы логирования.
Ускорение текущих процессов поставки данных Наша задача — ускорить обработку растущих потоков данных. Вы будете оптимизировать существующие и выстраивать новые надёжные процессы поставки данных, включая процессы взятия снепшотов, загрузки инкрементов напрямую, из аудит-таблиц и CDC, а также внедрять Spark Streaming или аналогичные решения для обеспечения обновления данных с минимальной задержкой.
Построение тестовых окружений Мы выстраиваем среду безопасной разработки и повышаем надёжность разрабатываемых решений. В ваши задачи войдёт создание изолированных сред разработки, тестирования и предпрода с автоматизированными процессами проверки.
Развитие фреймворков обработки данных Для ускорения разработки мы создаём low-code-решения. Вам предстоит развивать внутренние фреймворки для загрузки, трансформации и контроля качества данных.
3-5 лет
Опыт работы
Полная занятость
Тип занятости
Гибрид, Офис
Формат работы
Senior
Грейд
Data Engineering
Специализация
ФинТех
Отрасль
Корпорация
Тип компании
По городу
Data Engineering
Специализация
ФинТех
Отрасль
Корпорация
Тип компании