Senior Data Engineer - Команда Data Ingestion and Enrichment

Мы способствуем прогрессу людей. В Preply мы стремимся создавать образовательные возможности, меняющие жизнь. Мы помогаем людям открывать для себя магию идеального репетитора, выстраивать персонализированный путь обучения и сохранять мотивацию для дальнейшего роста. Наш подход основан на человеческом факторе и технологиях — и это приносит реальные результаты.

Мы только что достигли статуса единорога, получив $150 млн в рамках раунда Серии D, что ускоряет нашу миссию по трансформации образования с помощью обучения, основанного на человеческом факторе и улучшенного ИИ. Сегодня более 100 000 репетиторов преподают более 90 языков ученикам в 180 странах — и это только начало. Как компания, определяющая категорию, мы формируем будущее образования в мировом масштабе.

Каждый урок Preply дает толчок к изменениям, подпитывает амбиции и способствует значимому прогрессу. Присоединение к Preply означает участие в формировании будущего образования в мировом масштабе и создание чего-то действительно важного для миллионов людей каждый день.

Познакомьтесь с командой! В Preply команда Data Ingestion and Enrichment обеспечивает единую, надежную и масштабируемую основу данных. Команда гарантирует, что вся аналитика, машинное обучение и продуктовые функции строятся на унифицированных, управляемых и производственных наборах данных в Lake House Preply, включая извлечение, нормализацию и генерацию структурированных данных из неструктурированных активов Preply, формируя прочный «ров данных» для продуктов на базе ИИ.

В качестве Senior Data Engineer в команде Data Ingestion and Enrichment вы будете проектировать и владеть слоем данных, который обеспечивает аналитику, машинное обучение и продукты Preply. Вы будете тесно сотрудничать с командами ML Platform, Applied/Data Scientists, Analytics Engineering и Product squads, чтобы гарантировать, что функции, наборы данных и конвейеры готовы к производству, наблюдаемы и пригодны для повторного использования по всей компании. Эта роль сочетает в себе практическую инженерию с техническим лидерством.

Что вы будете делать:

Создание надежных основ для сбора и обогащения данных (Data Lake и Data as a Product): Проектирование, создание и владение озером данных Preply. Обеспечение того, чтобы каждый набор данных имел четкое владение, назначение, схемы и ожидания по качеству с момента первого сбора до последующего использования командами аналитики, продукта и машинного обучения. Относитесь к доверию, корректности и предсказуемости как к первоклассным функциям платформы.

Управление сквозными конвейерами сбора данных (пакетная и потоковая обработка): Разработка и эксплуатация масштабируемых, надежных пакетных и потоковых конвейеров сбора данных, поддерживающих как сценарии использования в реальном времени, так и аналитические. Проектирование четких слоев: raw → standardized → consumption с явными обязанностями, отслеживанием происхождения данных (lineage) и стратегиями хранения. Балансируйте производительность, затраты и надежность по мере масштабирования платформы.

Качество данных, контракты и ранняя валидация: Определение и внедрение контрактов на данные между поставщиками и потребителями, охватывающих схему, свежесть, объем и гарантии качества. Встраивание проверки, обнаружения аномалий и проверок качества на ранних этапах жизненного цикла сбора данных для выявления проблем до их распространения. Стандартизация методов измерения, мониторинга и отображения метрик качества на всей платформе.

Обогащение, моделирование и управление жизненным циклом: Создание логики обогащения, которая объединяет, стандартизирует и контекстуализирует данные из разных доменов, используя общие определения и повторно используемые шаблоны. Поддержка отслеживания исторических данных, корректности в определенный момент времени (point-in-time correctness) и версионирования наборов данных, чтобы конечные пользователи могли уверенно анализировать изменения и их последствия во времени.

Наблюдаемость, надежность и операционное совершенство: Инструментирование конвейеров сбора данных с сильной наблюдаемостью: метрики свежести, задержки, качества данных и стоимости. Вклад в SLO, оповещения и руководства по реагированию на инциденты, чтобы сбои данных были видимыми, диагностируемыми и восстанавливаемыми. Помощь в переходе платформы от реактивного устранения неполадок к проактивному управлению надежностью.

Управление и соответствие требованиям по дизайну: Применение единообразного контроля доступа, классификации и защиты конфиденциальности во время сбора данных. Обеспечение надлежащей маскировки, минимизации или анонимизации конфиденциальных данных по умолчанию, а также аудируемости и отслеживаемости всех потоков данных. Сделать управление незаметным для пользователей, но глубоко интегрированным в рабочие процессы платформы.

Обеспечение самообслуживания и стандартизации: Вклад в создание стандартных шаблонов сбора данных, общих библиотек и инструментов платформы, которые позволяют командам самостоятельно подключать новые источники данных в рамках четких ограничений. Улучшение обнаруживаемости, документации и метаданных, чтобы наборы данных было легко найти, понять и им доверять, не полагаясь на «племенные знания».

Кросс-командное сотрудничество и ответственность: Тесное сотрудничество с партнерами из отделов Product, Backend, Analytics и ML для согласования требований к сбору данных, компромиссов и приоритетов. Содействие совместной ответственности за качество данных и стандарты платформы, а также помощь в формировании культуры, в которой команды быстро продвигаются вперед вместе под общими контрактами и принципами работы с данными.

Что вам нужно для успеха:

Опыт проектирования и построения архитектурных паттернов крупных, высокомасштабируемых приложений (например, хорошо спроектированные API, конвейеры обработки больших объемов данных, эффективные алгоритмы).
Значительный опыт работы в командах платформенной или инжиниринговой разработки данных (или аналогичное влияние) с подтвержденным опытом руководства проектами с участием нескольких заинтересованных сторон.
Знакомство с облачными платформами (AWS/GCP или эквивалент) и современными практиками DevOps.
Практический опыт проектирования и внедрения инфраструктур обработки данных в реальном времени и пакетной обработки с использованием современных фреймворков, таких как Spark, Flink, Spark streaming, Kafka, Debezium и т. д.
Экспертиза в использовании инструментов оркестрации, таких как Airflow, dbt или аналогичных.
Исключительные навыки решения проблем в сочетании с проактивным, инновационным мышлением, ориентированным на постоянное совершенствование.
Отличные навыки коммуникации и кросс-функционального сотрудничества (уровень английского B2+)

Почему вам понравится работать в Preply:

Открытая, совместная, динамичная и разнообразная культура;
Ежемесячное щедрое пособие на уроки на Preply.com, бюджет на обучение и развитие, а также время на саморазвитие.
Конкурентоспособный финансовый пакет с опционами на акции (equity), отпуском и медицинской страховкой;
Доступ к платформам бесплатной поддержки психического здоровья;
Возможность раскрыть потенциал учеников и репетиторов через изучение и преподавание языков в 175 странах (и их число растет!).

Наши принципы

Заботиться, чтобы изменить мир
Мы делаем это для учеников
Постоянно совершенствоваться
Сейчас самое время
Дисциплинированное исполнение
Глубоко погружаться
Мышление роста
Поднимать планку
Спорить, соглашаться и выполнять
Единый Preply

Разнообразие, равенство и инклюзивность Preply.com стремится создать инклюзивную среду, в которой могут процветать люди разного происхождения. Мы верим, что наличие различных мнений и точек зрения является ключевым фактором нашего успеха как многокультурной Ed-Tech компании.

Контакты

Похожие вакансии

Senior Data Engineer - Data Ingestion and Enrichment team

Senior Data Engineer (f/m/d)

Senior Data Engineer

Senior Data Engineer

Senior Data Engineer

Senior Data Engineer

Senior Data Engineer

Senior Data Engineer

Senior Data Engineer

Lead Big Data Engineer (Databricks + AWS)

Senior Data Engineer

Senior Data Engineer

Senior Data Engineer - Data Ingestion and Enrichment team

Ключевые навыки

Детали

Средняя заработная плата на позиции