ML Data Engineer
Команда: ML
Местоположение: Лондон, Великобритания
Тип занятости: Полный день
О НАС
Основанная в США в 2022 году и сейчас базирующаяся в Лондоне, Великобритания, Recraft — это AI-инструмент для профессиональных дизайнеров, иллюстраторов и маркетологов, устанавливающий новый стандарт качества в генерации изображений.
Мы создали инструмент, который позволяет создателям быстро генерировать и итерировать оригинальные изображения, векторную графику, иллюстрации, иконки и 3D-графику с помощью ИИ. Более 3 миллионов пользователей из 200 стран создали сотни миллионов изображений с помощью Recraft, и мы только начинаем.
Присоединяйтесь к миру профессиональных возможностей, развивайте и поддерживайте масштабные проекты и формируйте будущее творчества. Мы стремимся сделать Recraft необходимым ежедневным инструментом для каждого дизайнера и установить отраслевой стандарт. Наша миссия — обеспечить, чтобы создатели могли полностью контролировать свой творческий процесс с помощью ИИ, предоставляя им инновационные инструменты для воплощения идей в реальность.
Если вы увлечены тем, чтобы раздвигать границы возможностей ИИ, мы хотим видеть вас в нашей команде!
ОПИСАНИЕ ВАКАНСИИ
В Recraft мы создаем следующее поколение генеративных моделей для изображений и текста. Мы ищем ML Data Engineer для масштабирования наших конвейеров данных для неструктурированных данных (в основном изображений) и обеспечения быстрых, надежных и повторяемых процессов обучения. Вы будете проектировать и управлять высокопроизводительной загрузкой и предобработкой на Kubernetes, развивать наш внутренний фреймворк конвейеров данных и работать рука об руку с ML-инженерами, чтобы поставлять наборы данных, которые продвигают качество моделей вперед.
ОСНОВНЫЕ ОБЯЗАННОСТИ
- Разрабатывать и поддерживать конвейеры загрузки данных для получения и подготовки масштабных наборов данных с изображениями (и иногда текстом/HTML) из открытых, общедоступных и разрешенных источников.
- Отвечать за сквозной процесс: исходные данные → фильтрация по качеству/эстетике/релевантности → дедупликация/валидация → готовые к обучению артефакты. Управлять и улучшать наш Kubernetes-фреймворк конвейеров данных (распределенные задания, повторные попытки, мониторинг, автоматизация).
- Работать с объектным хранилищем типа S3: эффективная организация, жизненный цикл, пропускная способность и контроль затрат.
- Добавлять инструменты вокруг конвейеров (визуализация прогресса/состояния, метрики, оповещения) для наблюдаемости и более быстрой итерации.
- Тесно сотрудничать с ML-инженерами для согласования наборов данных с потребностями обучения и ускорения экспериментов.
ТРЕБОВАНИЯ
Обязательные
- Сильные базовые знания Python; вы пишете чистый, поддерживаемый, готовый к продакшену код.
- Практический опыт работы с Kubernetes (контейнеры, задания, пакетная/распределенная обработка).
- Доказанный опыт работы с неструктурированными данными, особенно с изображениями (загрузка, фильтрация, преобразование в масштабе).
- Опыт разработки инструментов загрузки или парсинга данных из общедоступных источников, включая корректную обработку реальных проблем надежности и сбоев.
- Уверенное владение S3/объектными хранилищами и эффективная и безопасная передача больших объемов данных.
- Прагматичный, ориентированный на детали подход и мышление владельца; вам нравится делать системы надежными и быстрыми.
Желательные
- Знакомство с ML-процессами (PyTorch) и аспектами последующего обучения.
- Опыт в оценке качества изображений, подписи к изображениям или конвейерах "изображение-текст".
- Визуализация DAG/воркфлоу или инструменты UX для конвейеров.
- Знание DevOps: Docker, CI/CD, автоматизация инфраструктуры.
ЧТО МЫ ПРЕДЛАГАЕМ
- Конкурентная зарплата и доля в компании.
- Мы можем предложить спонсорство для визы Skilled Worker в Великобритании для квалифицированных кандидатов.
- Реальное влияние на качество моделей: ваши конвейеры напрямую питают процессы обучения и улучшения продукта.
- Ответственность при поддержке: автономия в проектировании и улучшении систем вместе с опытными коллегами по ML.
- Современный стек: Python, Kubernetes, S3, внутренний фреймворк конвейеров, созданный для масштабирования.
- Рост: динамичная среда, где развертывание хорошо спроектированных систем — это норма.
- Полный день, работа на территории офиса.