Data Engineer
Компания Suvoda ищет умелого и целеустремленного Cloud Data Engineer (инженера по данным в облаке), который поможет развить нашу платформу данных в направлении архитектуры Data Mesh. В этой роли вы будете проектировать и создавать доменно-ориентированные продукты данных и поддерживать отчетность, близкую к реальному времени. Вы будете работать над созданием и оптимизацией ETL/ELT-пайплайнов с использованием AWS Glue и PySpark, обеспечивая масштабируемую и высокопроизводительную обработку данных на всей нашей платформе.
Обязанности:
- Участвовать в проектировании и реализации архитектуры Data Mesh с использованием GraphQL API для предоставления доменных продуктов данных.
- Создавать и поддерживать современное хранилище данных на основе AWS с использованием S3, Glue, Lake Formation, Athena и Redshift.
- Разрабатывать и оптимизировать ETL/ELT-пайплайны с использованием AWS Glue и PySpark для поддержки пакетных и потоковых рабочих нагрузок данных.
- Реализовывать пайплайны AWS DMS для репликации данных в Aurora PostgreSQL для аналитики и отчетности, близких к реальному времени.
- Поддерживать передовые практики в области управления данными, качества данных, наблюдаемости и проектирования API.
- Взаимодействовать с командами продукта, разработки и аналитики для предоставления надежных, повторно используемых решений для работы с данными.
- Вносить вклад в автоматизацию и практики CI/CD для инфраструктуры и пайплайнов данных.
- Быть в курсе новых технологий и отраслевых трендов, чтобы помогать развивать платформу.
Требования:
- Степень бакалавра в технической области, такой как компьютерные науки или математика.
- Не менее 4 лет опыта в инженерии данных с подтвержденным опытом владения сложными системами данных.
- Уверенный опыт работы с технологиями озера данных AWS (S3, Glue, Lake Formation, Athena, Redshift).
- Понимание принципов Data Mesh и децентрализованной архитектуры данных.
- Владение Python, SQL.
- Опыт проектирования моделей данных, работы с инструментами оркестрации (например, Airflow) и пайплайнами CI/CD.
- Хорошие коммуникативные навыки и навыки сотрудничества.
Предпочтительные квалификации:
- Степень магистра, особенно с фокусом на инженерию данных, распределенные системы или облачную архитектуру.
- Практический опыт работы с инструментами инфраструктуры как кода (например, Terraform, CloudFormation).
- Экспертные знания AWS Glue и PySpark для разработки масштабируемых ETL/ELT-процессов.
- Опыт работы с событийно-ориентированными архитектурами (например, Kafka, Kinesis).
- Знакомство с инструментами каталогизации данных и управления метаданными.
- Знание стандартов конфиденциальности и соответствия данных (например, GDPR, HIPAA).
- Опыт работы в гибкой методологии разработки и практиках DevOps.