О нас
Data Never Lies — это команда из Великобритании, которая верит в силу фактов, а не догадок. Годами мы помогаем компаниям копаться в самых темных уголках их данных (и да, у данных есть темные уголки — обычно там, где никто не удосужился навести порядок), чтобы превратить идеи в действия.
Информация о вакансии
- Тип занятости: Полный рабочий день
- Отрасль: IT-услуги
- Зарплата: 20-30$ в час
- Удаленная работа
Описание вакансии
Это удаленная позиция.
Мы ищем Junior/Middle Data Engineer с сильным фокусом на Python, SQL и построении пайплайнов данных.
Основная ответственность на этой должности — подключение к различным источникам данных, извлечение данных через REST API, базы данных, файлы и сторонние платформы, их обработка и загрузка в хранилище данных для дальнейшей аналитики и BI-отчетности.
Мы ищем человека, который понимает, что пайплайн данных — это не просто скрипт, а стабильный процесс с логированием, обработкой ошибок, повторными попытками, мониторингом и проверками качества данных.
Местоположение: Казахстан/Удаленно
Требования
Обязательные навыки и опыт
- Глубокое знание Python и практический опыт его использования в задачах инженерии данных.
- Опыт построения пайплайнов данных для загрузки, обработки и трансформации данных.
- Опыт работы с различными источниками данных: REST API, базы данных, CSV/Excel/JSON файлы, облачные хранилища и сторонние платформы.
- Практический опыт интеграции с REST API: аутентификация, пагинация, ограничения скорости запросов, повторные попытки, обработка таймаутов и ошибок.
- Понимание того, как строить отказоустойчивые пайплайны.
- Опыт настройки инкрементальной загрузки данных и обработки частичных загрузок.
- Умение работать с JSON и полуструктурированными данными.
- Глубокое знание SQL: JOINs, CTEs, агрегатные функции, оконные функции.
- Опыт загрузки данных в базы данных или хранилища данных, такие как PostgreSQL, BigQuery, Snowflake, Redshift, MS SQL или аналогичные системы.
- Понимание подходов ETL/ELT.
- Опыт логирования, мониторинга и базового устранения неполадок пайплайнов.
- Опыт работы с Git.
Желательно
- Опыт работы с dbt: модели, источники, тесты, документация, инкрементальные модели.
- Опыт работы со Spark / PySpark.
- Опыт использования инструментов оркестрации, таких как Airflow, Prefect, Dagster или аналогичных.
- Опыт внедрения проверок качества данных: свежесть, дубликаты, полнота, согласованность.
- Опыт работы с облачными хранилищами: AWS S3, Google Cloud Storage, Azure Blob Storage.
- Опыт работы с Docker.
- Понимание принципов объектно-ориентированного моделирования: таблицы фактов/измерений, схема «звезда», витрины данных.
- Опыт оптимизации SQL-запросов и пайплайнов.
Бонусные баллы
- Опыт работы с BI-инструментами, такими как Power BI, Tableau, Looker, QuickSight, Domo или аналогичными.
- Опыт подготовки наборов данных для BI-отчетности и аналитических витрин данных.
- Базовое понимание облачных платформ, таких как GCP, AWS или Azure.
- Опыт использования CI/CD для проектов данных.
- Умение четко документировать логику пайплайнов, источники данных и трансформации.