Разработчик инфраструктуры LLM

Инференс LLM в масштабе — это сложная инфраструктурная задача: GPU работают на пределе, возникают сетевые задержки, возможны сбои оборудования. Мы создаём решения, чтобы эти события минимально влияли на доступность и latency нашего сервиса инференса.

Какие задачи вас ждут

Оптимизация инференсных движков Вам предстоит повышать эффективность и снижать latency при выполнении LLM-инференса на GPU.

Развитие инструментов диагностики Вы будете создавать и улучшать инструменты для быстрого выявления и устранения инфраструктурных проблем, которые влияют на стабильность и скорость инференса.

Исследование и внедрение Вам предстоит работать с методами оптимизации инференса (квантованием, прунингом) и современными подходами к параллелизации.

Мы ждём, что вы

Владеете C++ и Python: имеете уверенные навыки низкоуровневого программирования и оптимизации
Работали с GPU (NVIDIA) и CUDA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы под CUDA
Глубоко понимаете архитектуру Transformer: знакомы с внутренними механизмами (attention, FFN, нормализацией) и их реализациями
Знаете подходы к параллелизации: понимаете Data Parallel, Tensor Parallel, Pipeline Parallel (желательно ещё Expert Parallel) для распределённого инференса или обучения
Интересуетесь LLM и MLOps: понимаете задачи и вызовы, связанные с эксплуатацией больших моделей в продакшне
Умеете эффективно работать в команде и делиться знаниями

Будет плюсом

Работали с современными решениями для оптимизации инференса: vLLM, TensorRT-LLM (TRT-LLM) или sglang

Контакты

Какие задачи вас ждут

Мы ждём, что вы

Будет плюсом

Похожие вакансии

Разработчик C++ (VLLM, SGlang, TesorRT)

Разработчик инфраструктуры RL-обучения LLM

LLM Platform Engineer (ML Engineer)

ML-разработчик в команду ускорения инференса

Старший LLM-разработчик в команду Нейро

Senior DL/LLM engineer (Pretrain/RL Efficiency)

LLM engineer / Inference Engineer (Центр Практического ИИ)

DL-разработчик в команду исследования архитектуры YandexGPT

Разработчик на C++ в YandexGPT (Нейро)

Руководитель группы DL-разработки международного направления Нейро (LLM)

ML engineer LLM GigaChat

GPU Performance Engineer

Разработчик инфраструктуры LLM

Ключевые навыки

Детали

Детали