Senior ML Researcher/Engineer (World Models & RL) в команду робота доставки

Роботы доставки Яндекса — это не просто смелый R&D, а реально работающий бизнес. Наши роботы ежедневно доставляют тысячи заказов, маневрируя в сложной, неструктурированной городской среде. Мы активно растём и планируем масштабировать флот до 20 000 роботов к 2028 году.

Сейчас мы переходим от классического модульного пайплайна с жёсткой привязкой к HD-картам и perception/prediction/planning-модулями на полноценную архитектуру End-to-End (E2E) на базе World Models.

Наша цель — построить сильный Embodied AI. Чтобы RL-агент мог адекватно планировать сложные манёвры в реальном мире, ему необходимо глубокое понимание физики, причинно-следственных связей и постоянства объектов. Учить политику напрямую с сырых пикселей — крайне неэффективно по семплам. Поэтому мы строим систему, где 3D/video-токенизатор сжимает мир, а масштабная World Model учится предсказывать его латентную динамику. Внутри этой сгенерированной симуляции мы и будем обучать нашу политику планирования с помощью RL.

Мы ищем в core-команду WM + E2E Senior ML Engineer/Researcher, который сфокусируется на построении быстрой интерактивной модели мира и масштабном обучении MBRL-агентов. Ваши ресёрч-идеи будут управлять тысячами физических агентов на улицах городов каждый день. Если вы готовы решать фундаментальные проблемы робототехники на стыке генеративных видеомоделей и RL — присоединяйтесь!

Какие задачи вас ждут

Разработка и скейлинг World Models Вам предстоит проектировать и обучать массивные 3D/видеотокенизаторы и бэкбоны на базе Diffusion Transformers (DiT), Flow Matching, etc. Цель — точное предсказание эволюции физического мира в латентном пространстве в ответ на действия агента.

Distributed Training Вы будете строить пайплайны для распределённого обучения тяжёлых foundation-моделей на нашем вычислительном кластере. Предстоит работать с Data-, Tensor- и Pipeline-параллелизмом, оркестрировать мультинодовое обучение и выжимать абсолютный максимум из железа.

Model-Based RL (MBRL) & Planning Вашей задачей будет обучение чистого RL и политик IL + RL внутри замороженной латентной симуляции World Model, использование плотных self-supervised-репрезентаций для обучения reward-модели с высоким sample efficiency.

Representation Shaping Предстоит заниматься интеграцией вспомогательных лоссов для perception-задач 3D-детекции, сегментации, трекинга для явного семантического граундинга важных объектов сцены.

Safety & Inference Вы будете строить надёжный safety-контур поверх выходов модели и готовить всю конструкцию к реалтайм-инференсу прямо на edge-девайсах робота.

Больше об ML в Яндексе — в канале Yandex for ML

Мы ждём, что вы

На экспертном уровне владеете JAX и PyTorch, имеете глубокий практический опыт работы с современными фреймворками — мы делаем огромную ставку на JAX: SPMD, multi-host JAX, XLA-компиляцию
Имеете навыки масштабного распределённого обучения, уверенный опыт обучения тяжёлых моделей на мультинодовых кластерах (FSDP, принципы Megatron-LM, 3D parallelism)
Имеете глубокую математическую и ML-базу: отлично понимаете непрерывные генеративные модели (Diffusion, Flow Matching, Diffusion Forcing) и Deep RL (Actor-Critic-архитектуры, RL in imagination, Model-Based RL)
Способны писать, генерировать и проверять быстрый оптимизированный код и доводить хардкорный ресёрч до продакшна с жёсткими ограничениями реального времени

Будет плюсом

Работали с Vision Foundation Models, генеративными видео- и image-моделями, а также синтезом лидарных облаков.
Имеете опыт в Reinforcement Learning в LLM или лучше за их пределами
Обладаете опытом продвинутой квантизации тяжёлых трансформеров или диффузионных моделей для edge-девайсов: FP8, W4A8, INT4 (PTQ/QAT)
Оптимизировали инференс «на борту» робота: использовали C++, TensorRT, ONNX, CUDA
Имеете бэкграунд в Autonomous Driving, Motion Planning или Robotics

Контакты

Какие задачи вас ждут

Мы ждём, что вы

Будет плюсом

Похожие вакансии

Старший разработчик в команду ML-планера робота доставки (RL)

Senior ML Engineer (Motion Planning)

ML-исследователь в команду архитектур с ранним связыванием

Senior Research Engineer (Multimodal Diffusion & RLHF)

RL-инженер в команду локомоции человекоподобных роботов

Старший DL-разработчик в команду Нейро

Senior Deep Learning Research Engineer (Diffusion-модели)

Разработчик инфраструктуры RL-обучения LLM

Senior DL/GenAI Research Engineer (Diffusion Video Generation & World Model Development)

ML-разработчик в группу обучения с подкреплением (RL)

DL-разработчик в команду исследования архитектуры YandexGPT

ML-техлид (Motion Planning)

Senior ML Researcher/Engineer (World Models & RL) в команду робота доставки

Ключевые навыки

Детали