Свяжитесь напрямую по этой вакансии
ML-разработчик в команду ускорения инференса
YandexGPT всё глубже проникает в сервисы компании и решает самые разнообразные задачи, принося пользу людям. Каждое внедрение ставит перед разработчиками уникальные вызовы, связанные с качеством и скоростью работы ML-моделей. Но для каждого запуска неизменно одно: инференс моделей в production стоит очень дорого. В зависимости от аудитории и нагрузки в сервисе может понадобиться от десятков до тысяч самых современных GPU. Оптимизация даже десятков процентов ресурсов на таких объёмах уже представляет значимую ценность.
Подробнее про общую схему ускорения инференса, а также про методы можно прочитать в посте на Хабре «Ускорение инференса LLM».
Мы ищем инженера-исследователя с опытом чтения и реализации статей, готового экспериментировать и внедрять методы ускорения инференса для современных и быстро меняющихся архитектур LLM.
Непрерывный разбор статей из ресёрча В первую очередь предстоит глубоко ознакомиться с серией статей по теме (более 20 публикаций), систематизировать их и зафиксировать самые перспективные.
Применение методов для YandexGPT Необходимо провести множество итераций экспериментов по проверке гипотез для YandexGPT, чтобы перейти к генерации и реализации новых подходов. Также нужно будет подтвердить практическую применимость методов: замерить качество и ускорение.
Разработка универсальных инструментов И наконец, предстоит создать общее решение, которое будут переиспользовать ML-инженеры во всём Яндексе.
3-5 лет
Опыт работы
Полная занятость
Тип занятости
Гибрид, Удаленно, Офис
Формат работы
Data Science & ML
Специализация
IT & Tech
Отрасль
Корпорация
Тип компании
3-5 лет
Опыт работы
Полная занятость
Тип занятости
Гибрид, Удаленно, Офис
Формат работы
Data Science & ML
Специализация
IT & Tech
Отрасль
Корпорация
Тип компании
По должности
По должности