Свяжитесь напрямую по этой вакансии
Senior Data Engineer - Команда Data Ingestion and Enrichment
Мы способствуем прогрессу людей. В Preply мы стремимся создавать образовательные возможности, меняющие жизнь. Мы помогаем людям открывать для себя магию идеального репетитора, выстраивать персонализированный путь обучения и сохранять мотивацию для дальнейшего роста. Наш подход основан на человеческом факторе и технологиях — и это приносит реальные результаты.
Мы только что достигли статуса единорога, получив $150 млн в рамках раунда Серии D, что ускоряет нашу миссию по трансформации образования с помощью обучения, основанного на человеческом факторе и улучшенного ИИ. Сегодня более 100 000 репетиторов преподают более 90 языков ученикам в 180 странах — и это только начало. Как компания, определяющая категорию, мы формируем будущее образования в мировом масштабе.
Каждый урок Preply дает толчок к изменениям, подпитывает амбиции и способствует значимому прогрессу. Присоединение к Preply означает участие в формировании будущего образования в мировом масштабе и создание чего-то действительно важного для миллионов людей каждый день.
Познакомьтесь с командой! В Preply команда Data Ingestion and Enrichment обеспечивает единую, надежную и масштабируемую основу данных. Команда гарантирует, что вся аналитика, машинное обучение и продуктовые функции строятся на унифицированных, управляемых и производственных наборах данных в Lake House Preply, включая извлечение, нормализацию и генерацию структурированных данных из неструктурированных активов Preply, формируя прочный «ров данных» для продуктов на базе ИИ.
В качестве Senior Data Engineer в команде Data Ingestion and Enrichment вы будете проектировать и владеть слоем данных, который обеспечивает аналитику, машинное обучение и продукты Preply. Вы будете тесно сотрудничать с командами ML Platform, Applied/Data Scientists, Analytics Engineering и Product squads, чтобы гарантировать, что функции, наборы данных и конвейеры готовы к производству, наблюдаемы и пригодны для повторного использования по всей компании. Эта роль сочетает в себе практическую инженерию с техническим лидерством.
Что вы будете делать:
Создание надежных основ для сбора и обогащения данных (Data Lake и Data as a Product): Проектирование, создание и владение озером данных Preply. Обеспечение того, чтобы каждый набор данных имел четкое владение, назначение, схемы и ожидания по качеству с момента первого сбора до последующего использования командами аналитики, продукта и машинного обучения. Относитесь к доверию, корректности и предсказуемости как к первоклассным функциям платформы.
Управление сквозными конвейерами сбора данных (пакетная и потоковая обработка): Разработка и эксплуатация масштабируемых, надежных пакетных и потоковых конвейеров сбора данных, поддерживающих как сценарии использования в реальном времени, так и аналитические. Проектирование четких слоев: raw → standardized → consumption с явными обязанностями, отслеживанием происхождения данных (lineage) и стратегиями хранения. Балансируйте производительность, затраты и надежность по мере масштабирования платформы.
Качество данных, контракты и ранняя валидация: Определение и внедрение контрактов на данные между поставщиками и потребителями, охватывающих схему, свежесть, объем и гарантии качества. Встраивание проверки, обнаружения аномалий и проверок качества на ранних этапах жизненного цикла сбора данных для выявления проблем до их распространения. Стандартизация методов измерения, мониторинга и отображения метрик качества на всей платформе.
Обогащение, моделирование и управление жизненным циклом: Создание логики обогащения, которая объединяет, стандартизирует и контекстуализирует данные из разных доменов, используя общие определения и повторно используемые шаблоны. Поддержка отслеживания исторических данных, корректности в определенный момент времени (point-in-time correctness) и версионирования наборов данных, чтобы конечные пользователи могли уверенно анализировать изменения и их последствия во времени.
Наблюдаемость, надежность и операционное совершенство: Инструментирование конвейеров сбора данных с сильной наблюдаемостью: метрики свежести, задержки, качества данных и стоимости. Вклад в SLO, оповещения и руководства по реагированию на инциденты, чтобы сбои данных были видимыми, диагностируемыми и восстанавливаемыми. Помощь в переходе платформы от реактивного устранения неполадок к проактивному управлению надежностью.
Управление и соответствие требованиям по дизайну: Применение единообразного контроля доступа, классификации и защиты конфиденциальности во время сбора данных. Обеспечение надлежащей маскировки, минимизации или анонимизации конфиденциальных данных по умолчанию, а также аудируемости и отслеживаемости всех потоков данных. Сделать управление незаметным для пользователей, но глубоко интегрированным в рабочие процессы платформы.
Обеспечение самообслуживания и стандартизации: Вклад в создание стандартных шаблонов сбора данных, общих библиотек и инструментов платформы, которые позволяют командам самостоятельно подключать новые источники данных в рамках четких ограничений. Улучшение обнаруживаемости, документации и метаданных, чтобы наборы данных было легко найти, понять и им доверять, не полагаясь на «племенные знания».
Кросс-командное сотрудничество и ответственность: Тесное сотрудничество с партнерами из отделов Product, Backend, Analytics и ML для согласования требований к сбору данных, компромиссов и приоритетов. Содействие совместной ответственности за качество данных и стандарты платформы, а также помощь в формировании культуры, в которой команды быстро продвигаются вперед вместе под общими контрактами и принципами работы с данными.
Что вам нужно для успеха:
Почему вам понравится работать в Preply:
Наши принципы
Разнообразие, равенство и инклюзивность Preply.com стремится создать инклюзивную среду, в которой могут процветать люди разного происхождения. Мы верим, что наличие различных мнений и точек зрения является ключевым фактором нашего успеха как многокультурной Ed-Tech компании.
Полная занятость
Тип занятости
Senior
Грейд
B2 - Выше среднего
Уровень английского
Data Engineering
Специализация
EdTech
Отрасль
Продуктовая компания
Тип компании
По компании и городу
EdTech
Отрасль
Продуктовая компания
Тип компании