ML-разработчик в команду ускорения инференса

YandexGPT всё глубже проникает в сервисы компании и решает самые разнообразные задачи, принося пользу людям. Каждое внедрение ставит перед разработчиками уникальные вызовы, связанные с качеством и скоростью работы ML-моделей. Но для каждого запуска неизменно одно: инференс моделей в production стоит очень дорого. В зависимости от аудитории и нагрузки в сервисе может понадобиться от десятков до тысяч самых современных GPU. Оптимизация даже десятков процентов ресурсов на таких объёмах уже представляет значимую ценность.

Подробнее про общую схему ускорения инференса, а также про методы можно прочитать в посте на Хабре «Ускорение инференса LLM».

Мы ищем инженера-исследователя с опытом чтения и реализации статей, готового экспериментировать и внедрять методы ускорения инференса для современных и быстро меняющихся архитектур LLM.

Какие задачи вас ждут

Непрерывный разбор статей из ресёрча В первую очередь предстоит глубоко ознакомиться с серией статей по теме (более 20 публикаций), систематизировать их и зафиксировать самые перспективные.

Применение методов для YandexGPT Необходимо провести множество итераций экспериментов по проверке гипотез для YandexGPT, чтобы перейти к генерации и реализации новых подходов. Также нужно будет подтвердить практическую применимость методов: замерить качество и ускорение.

Разработка универсальных инструментов И наконец, предстоит создать общее решение, которое будут переиспользовать ML-инженеры во всём Яндексе.

Мы ждём, что вы

Работали с современными LLM и понимаете, как устроена их архитектура
Пишете на Python, имеете опыт разработки на Torch
Глубоко разбираетесь в NLP
Знакомы с пайплайном инференса генеративных моделей, знаете такие оптимизации, как KV-кеширование
Понимаете, как изменяются вычисления при изменении batch_size
Разбираетесь в пользовательских требованиях к API моделей: RPS, latency per token/sample, GPU VRAM, SM utilization

Будет плюсом

Уверенно владеете C++ и знакомы с программированием на CUDA

Контакты

Какие задачи вас ждут

Мы ждём, что вы

Будет плюсом

Похожие вакансии

ML-исследователь в команду архитектур с ранним связыванием

Разработчик инфраструктуры LLM

LLM Platform Engineer (ML Engineer)

NLP-разработчик в Клавиатуру

LLM engineer / Inference Engineer (Центр Практического ИИ)

ML-разработчик в команду рекомендательных систем

ML-разработчик в группу развития агентских решений

Разработчик C++ (VLLM, SGlang, TesorRT)

DL-разработчик в команду исследования архитектуры YandexGPT

Разработчик Inference Server на C++ в отдел ML-инфраструктуры

ML-разработчик в команду ранжирования международного Поиска

Старший DL-разработчик в команду Нейро

ML-разработчик в команду ускорения инференса

Ключевые навыки

Детали

Детали

Средняя заработная плата на позиции

Средняя заработная плата на позиции