Старший инженер по данным (Senior Data Engineer) (ж/м/д)
Что вы будете делать
- Масштабировать Feature Store: Использовать Apache Flink для преобразования требований Data Science в высокопроизводительные потоки реального времени. Позвольте специалистам по Data Science добавлять новые признаки и реализуйте их самостоятельно при необходимости.
- Обеспечивать качество, наблюдаемость и целостность данных: Внедрять процессы валидации, мониторинга и управления данными для поддержания точности, согласованности и надежности всех наборов данных и признаков в Feature Store.
- Оптимизировать производительность конвейеров: Выявлять и устранять узкие места в сложных ETL-задачах, трансформируя длительные процессы в оптимизированные циклы быстрой итерации.
- Связывать команды Data Science и Backend: Выступать в качестве ключевого связующего звена между командами Data Science и Backend, обеспечивая бесшовную интеграцию и использование данных в масштабах всей организации.
- Исследовать новые источники данных: Сотрудничать с Data Scientists для создания пользовательской логики приема данных из неструктурированных или нетипичных источников, обрабатывая интенсивную предварительную обработку, необходимую для экспериментальных исследований.
- Развивать архитектуру данных: Поддерживать и оптимизировать наше Data Lake. Вы поможете нам принять решение о будущем нашего хранилища (например, переход к модели Data Lakehouse) и внедрить лучшие практики.
- Работать в международной среде: Присоединиться к международной англоговорящей команде, ориентированной на вывод нашей adtech-платформы на новый уровень.
Кто вы
- У вас более 5 лет опыта разработки программного обеспечения, работы с современным стеком инженерии данных.
- У вас есть подтвержденный опыт работы с Apache Flink для обработки потоков данных с сохранением состояния и вычисления признаков в реальном времени.
- У вас есть обширный опыт работы с системами потоковой передачи данных в реальном времени, такими как Kafka, Kinesis или Pub/Sub.
- У вас есть опыт работы с системами, обрабатывающими несколько ТБ данных в день и несколько тысяч событий в секунду.
- Вы знаете, как выявлять узкие места в конвейерах данных, и у вас есть опыт их оптимизации и масштабирования.
- У вас есть глубокие знания Java, знание Golang/Python будет плюсом.
- Вы тесно сотрудничали с Data Scientists над системами онлайн-машинного обучения с низкой задержкой.
- Вы знаете, как выйти за рамки «сырых данных» для проектирования надежных многоуровневых архитектур данных. У вас есть практический опыт использования dbt для построения этих уровней, и вы можете консультировать нас по лучшим инструментам и форматам для управления ими в масштабе.
- Вы знаете системы планирования, такие как Airflow / Kubeflow.
- Вы знаете концепции качества данных и как применять их на практике.
- Вы знакомы с реляционными базами данных и базами данных NoSQL.
- Вы готовы к переезду в Гамбург, Германия.
- У вас есть сильные навыки решения проблем и способность справляться со сложными техническими задачами.
- Плюс: У вас есть практический опыт работы с AWS, Terraform и Kubernetes.
- Плюс: Вы знакомы с Medallion Architecture и имеете опыт создания Semantic Layers для последующего использования данных.
Технический стек и детали команды
Наш технический стек: самостоятельно размещенные технологии с открытым исходным кодом, работающие на базе AWS. Apache Kafka, Apache Flink (Java), Go, Kubernetes, Terraform, S3, Druid, DynamoDB, Redis, TensorFlow, PyTorch, TensorFlow Serving, Triton, Prometheus, Grafana, ELK, OpenObserve, Airflow. Масштаб с первого взгляда: тысячи запросов в секунду, p99 задержка 100 мс для моделей машинного обучения, 100 тыс.+ прогнозов машинного обучения в секунду, 2 ТБ данных в реальном времени, ежедневно поступающих, 100+ заданий Airflow.
Преимущества и культура (основные моменты)
- Инвестируйте в свое будущее с программами развития и возможностями для роста.
- Поддержка при переезде в Гамбург, помощь с визой, поддержка в изучении языка, бонус на переезд.
- Гибридная работа с 3 основными офисными днями, гибкий график, 30 дней отпуска, возможность удаленной работы в год.
- Доступ в собственный спортзал, поддержка психического здоровья через EAP, офис с видом на Альстер, закуски и напитки.
- Регулярные командные и корпоративные мероприятия, хакатоны, социальные встречи.