Big Data Engineer (NRT/Spark)

Финтех в Яндексе — это одно из ключевых и наиболее динамично развивающихся направлений компании. Это экосистема финансовых сервисов, встроенная в повседневную жизнь миллионов пользователей и бизнесов. Это молодое, смелое направление, которое уже доказало свою пользу и продолжает активно расти.

Ключевые продукты Финтеха: Яндекс Пэй, Сплит, Сейвы, Карта Плюса, кредитные продукты, Яндекс ID, Яндекс Про и многое другое.

Это сложная инженерная и аналитическая среда, где пересекаются высокая нагрузка, большие данные и жёсткие требования регуляторов.

В команду платформенных данных требуется специалист по Apache Spark с глубоким понимаем внутренней архитектуры фреймворка. Основная задача — развитие платформы для обработки NRT-данных (near real time), повышение отказоустойчивости и производительности потоковых процессов.

Вот с чем вам предстоит столкнуться: * Высокие нагрузки: миллионы транзакций, таблицы с объёмом далеко за 1 млн записей * Распределённые данные: используются Greenplum, ClickHouse, Hadoop, Spark для обработки огромных массивов информации * Архитектура DWH: строятся сложные хранилища данных, витрины для отчётности (регуляторной и управленческой), настраиваются ETL-процессы * Безопасность и интеграция: проработка интеграций с внешними источниками (БКИ, СМЭВ), автоматизация ручных процессов бэк-офиса, работа с автоматизированными банковскими системами

Стек для ежедневных задач: * Язык: Python (основной для разработки пайплайнов и скриптов) * Оркестрация: Apache Airflow (разработка пайплайнов) * Обработка данных: Apache Spark (Spark SQL, DataFrame) * Запросы: Trino (работа с данными через движок)

Подробнее о нас — на странице Финтеха.

Какие задачи вас ждут

Проектирование и развитие облачной дата-платформы Мы готовимся к кратному росту объёмов обрабатываемых данных. Вы будете оптимизировать инфраструктуру и проектировать новые компоненты платформы с использованием облачных технологий Yandex Cloud.

Построение единой observability-платформы для таблиц DWH Мы обеспечиваем наблюдаемость и контролируемость процессов. Вам предстоит создать единую точку входа для мониторинга статусов сборки, качества данных и анализа зависимостей, включая построение datalineage и процессы логирования.

Ускорение текущих процессов поставки данных Наша задача — ускорить обработку растущих потоков данных. Вы будете оптимизировать существующие и выстраивать новые надёжные процессы поставки данных, включая процессы взятия снепшотов, загрузки инкрементов напрямую, из аудит-таблиц и CDC, а также внедрять Spark Streaming или аналогичные решения для обеспечения обновления данных с минимальной задержкой.

Построение тестовых окружений Мы выстраиваем среду безопасной разработки и повышаем надёжность разрабатываемых решений. В ваши задачи войдёт создание изолированных сред разработки, тестирования и предпрода с автоматизированными процессами проверки.

Развитие фреймворков обработки данных Для ускорения разработки мы создаём low-code-решения. Вам предстоит развивать внутренние фреймворки для загрузки, трансформации и контроля качества данных.

Мы ждём, что вы

Занимались коммерческой разработкой от четырёх лет
Глубоко понимаете устройство баз данных: оптимизация запросов, планы выполнения, партиционирование, шардирование и индексы
Владеете СУБД разного типа: PostgreSQL, Oracle, MongoDB, Greenplum
Имеете опыт работы с CDC (Change Data Capture): понимаете принципы и умеете реализовывать пайплайны
Уверенно работаете с S3-совместимыми хранилищами

Контакты

Какие задачи вас ждут

Мы ждём, что вы

Похожие вакансии

Data engineer GigaData

Data Engineer в Платформу данных Yandex Cloud

Senior Data-инженер

Senior Data engineer

Дата инженер

DATA ENGINEER (SMT)

Data Engineer (Премиальные решения)

Senior Data Engineer

Data Engineer (Scala)

Data Engineer (SafeHub)

Инженер данных в Финтех

Data Engineer (Python) / Python Developer

Big Data Engineer (NRT/Spark)

Ключевые навыки

Детали

Средняя заработная плата на позиции