О нас
Data Never Lies — это команда из Великобритании, которая верит в силу фактов, а не догадок. Годами мы помогаем бизнесу копаться в самых темных уголках их данных (и да, у данных есть темные уголки — обычно там, где никто не удосуживается навести порядок), чтобы превратить полученные сведения в действия.
Описание вакансии
Это удаленная позиция.
Мы ищем Junior/Middle Data Engineer с сильным фокусом на Python, SQL и построении конвейеров данных (data pipelines).
Основная задача этой роли — подключение к различным источникам данных, извлечение данных через REST API, базы данных, файлы и сторонние платформы, их обработка и загрузка в хранилище данных для дальнейшей аналитики и BI-отчетности.
Мы ищем того, кто понимает, что конвейер данных — это не просто скрипт, а стабильный процесс с логированием, обработкой ошибок, повторными попытками, мониторингом и проверками качества данных.
Местоположение: Казахстан/Удаленно
Требования
Обязательные навыки и опыт
- Глубокое знание Python и практический опыт его использования в задачах инженерии данных.
- Опыт построения конвейеров данных для загрузки, обработки и трансформации данных.
- Опыт работы с различными источниками данных: REST API, базы данных, CSV/Excel/JSON файлы, облачные хранилища и сторонние платформы.
- Практический опыт интеграции с REST API: аутентификация, пагинация, лимиты запросов, повторные попытки, обработка таймаутов и ошибок.
- Понимание того, как строить отказоустойчивые конвейеры.
- Опыт настройки инкрементальной загрузки данных и обработки частичных загрузок.
- Умение работать с JSON и полуструктурированными данными.
- Глубокое знание SQL: JOINs, CTEs, агрегатные функции, оконные функции.
- Опыт загрузки данных в базы данных или хранилища данных, такие как PostgreSQL, BigQuery, Snowflake, Redshift, MS SQL или аналогичные системы.
- Понимание подходов ETL/ELT.
- Опыт логирования, мониторинга и базового устранения неполадок конвейеров.
- Опыт работы с Git.
Желательно
- Опыт работы с dbt: модели, источники, тесты, документация, инкрементальные модели.
- Опыт работы с Spark / PySpark.
- Опыт использования инструментов оркестрации, таких как Airflow, Prefect, Dagster или аналогичных.
- Опыт внедрения проверок качества данных: свежесть, дубликаты, полнота, согласованность.
- Опыт работы с облачными хранилищами: AWS S3, Google Cloud Storage, Azure Blob Storage.
- Опыт работы с Docker.
- Понимание принципов моделирования данных (dimensional modeling): таблицы фактов/измерений, star schema, data marts.
- Опыт оптимизации SQL-запросов и конвейеров.
Бонусные баллы
- Опыт работы с BI-инструментами, такими как Power BI, Tableau, Looker, QuickSight, Domo или аналогичными.
- Опыт подготовки наборов данных для BI-отчетности и аналитических витрин данных (data marts).
- Базовое понимание облачных платформ, таких как GCP, AWS или Azure.
- Опыт работы с CI/CD для проектов по работе с данными.
- Умение четко документировать логику конвейеров, источники данных и трансформации.
Преимущества
- Разнообразие проектов: поверьте, вам не будет скучно.
- Здоровый график: мы ориентируемся на задачи, а не на часы — но приходить к полудню каждый день не очень приветствуется.
- Команда, ценящая экспертизу и юмор: да, мы иногда шутим про SQL — не волнуйтесь, если не засмеетесь сразу.
- Выберите свое приключение: углубитесь в один масштабный проект или выберите режим «исследования», сотрудничая с несколькими глобальными клиентами в различных областях. Вы можете получить практический опыт работы с передовыми стеками данных для всего, от игр и знакомств до строительства небоскребов и ядерной энергетики. Если вы жаждете разнообразия, вы найдете его здесь.