Свяжитесь напрямую по этой вакансии
Мы расширяем возможности людей. В Preply мы создаем преобразующий опыт обучения. Мы помогаем людям открыть для себя волшебство идеального репетитора, построить персонализированный образовательный путь и сохранять мотивацию для постоянного роста. Наш подход основан на человеческом факторе и поддерживается технологиями — и он оказывает реальное влияние.
Мы только что достигли статуса единорога, получив 150 млн долларов в рамках раунда D, что ускоряет нашу миссию по преобразованию образования с помощью основанного на человеческом факторе, усиленного ИИ обучения. Сегодня более 100 000 репетиторов обучают 90+ языкам учеников в 180 странах — и это только начало. Как компания, определяющая свою категорию, мы формируем будущее обучения в глобальном масштабе.
Каждый урок Preply инициирует изменения, подпитывает амбиции и способствует значимому прогрессу. Присоединение к Preply означает помощь в определении будущего образования в глобальном масштабе и создание чего-то по-настоящему важного для миллионов людей каждый день.
Познакомьтесь с командой! В Preply команда ингестии и обогащения данных обеспечивает единую, надежную и масштабируемую основу данных. Команда гарантирует, что вся аналитика, машинное обучение и продуктовые функции построены на унифицированных, управляемых и готовых к продакшену активах данных в Lake House Preply, включая извлечение, нормализацию и генерацию структурированных данных из неструктурированных активов Preply, формируя долговечный «ров данных» для продуктов на основе ИИ.
В качестве старшего инженера по данным в команде ингестии и обогащения данных вы будете проектировать и отвечать за слой данных, который обеспечивает аналитику, машинное обучение и продукты Preply. Вы будете тесно сотрудничать с командами ML Platform, Applied/Data Scientists, Analytics Engineering и Product, чтобы гарантировать, что функции, наборы данных и конвейеры готовы к продакшену, наблюдаемы и повторно используемы во всей компании. Эта роль сочетает в себе практическую инженерию с техническим лидерством.
Чем вы будете заниматься: Создание надежных основ ингестии и обогащения (Data Lake и Data as a Product): Проектирование, создание и управление озером данных Preply. Обеспечение того, чтобы каждый набор данных имел четкое владение, назначение, схемы и ожидания по качеству от первой ингестии до последующего потребления командами аналитики, продуктов и машинного обучения. Рассматривайте доверие, корректность и предсказуемость как первоклассные функции платформы.
Управление сквозными конвейерами ингестии (пакетная и потоковая): Разработка и эксплуатация масштабируемых, надежных пакетных и потоковых конвейеров ингестии, поддерживающих как сценарии реального времени, так и аналитические сценарии. Проектирование четких слоев: необработанные → стандартизированные → потребление с явными обязанностями, происхождением и стратегиями хранения. Балансировка производительности, затрат и надежности по мере масштабирования платформы.
Качество данных, контракты и ранняя валидация: Определение и внедрение контрактов данных между производителями и потребителями, охватывающих гарантии схемы, свежести, объема и качества. Встраивание валидации, обнаружения аномалий и проверок качества на ранних этапах жизненного цикла ингестии для выявления проблем до их распространения. Стандартизация методов измерения, мониторинга и отображения метрик качества по всей платформе.
Обогащение, моделирование и управление жизненным циклом: Создание логики обогащения, которая объединяет, стандартизирует и контекстуализирует данные из разных доменов с использованием общих определений и повторно используемых шаблонов. Поддержка отслеживания истории, корректности в определенный момент времени и версионирования наборов данных, чтобы последующие пользователи могли уверенно анализировать изменения и их последствия с течением времени.
Наблюдаемость, надежность и операционное совершенство: Инструментирование конвейеров ингестии с сильной наблюдаемостью: метрики свежести, задержки, качества данных и затрат. Участие в SLO, оповещениях и руководствах по реагированию на инциденты, чтобы сбои данных были видимыми, диагностируемыми и восстанавливаемыми. Помощь в переходе платформы от реактивного тушения пожаров к проактивному управлению надежностью.
Управление и соответствие требованиям по дизайну: Применение последовательного контроля доступа, классификации и защиты конфиденциальности во время ингестии. Обеспечение того, чтобы конфиденциальные данные по умолчанию правильно маскировались, минимизировались или анонимизировались, и чтобы все потоки данных были аудируемыми и отслеживаемыми. Сделать управление невидимым для пользователей, но глубоко встроенным в рабочие процессы платформы.
Включение самообслуживания и стандартизации: Участие в стандартизированных шаблонах ингестии, общих библиотеках и инструментах платформы, которые позволяют командам самостоятельно подключать новые источники данных в рамках четких правил. Улучшение обнаруживаемости, документации и метаданных, чтобы наборы данных было легко найти, понять и доверить им, не полагаясь на «племенные знания».
Меж командное сотрудничество и владение: Тесное сотрудничество с партнерами из отделов Product, Backend, Analytics и ML для согласования требований к ингестии, компромиссов и приоритетов. Продвижение общего владения качеством данных и стандартами платформы, а также помощь в формировании культуры, в которой команды быстро движутся вперед под общими контрактами и принципами данных.
Что вам нужно для успеха:
Полная занятость
Тип занятости
Senior
Грейд
B2 - Выше среднего
Уровень английского
Data Engineering
Специализация
EdTech
Отрасль
Продуктовая компания
Тип компании
По компании и городу
EdTech
Отрасль
Продуктовая компания
Тип компании