Старший DL-разработчик в команду разработки агентов и функций YandexGPT

Современные LLM могут справляться с разнообразными задачами — от помощи в выполнении домашних заданий до роли психолога или финансового консультанта. Ключевой фактор полезности модели — её способность взаимодействовать с окружающим миром. Наша команда разработки агентов и функций работает над тем, чтобы совершенствовать такие навыки у моделей семейства YandexGPT. Мы учим LLM применять как популярные инструменты (например, общедоступные MCP), так и созданные внутри компании, а также тренируем их находить эффективные решения в разных условиях, в том числе при помощи браузера. Кроме того, мы стремимся адаптировать модели для работы в мультиагентных сценариях и развить у них способность рассуждать при решении задач.

Увлечены агентными системами? Становитесь частью нашей команды и помогайте нам создавать технологии будущего!

Какие задачи вас ждут

Новые данные и среды для обучения Модель, способная выполнять сложные агентные задачи, должна обладать набором различных навыков: уметь делать параллельные вызовы функций, определять релевантность инструментов для решаемой задачи, строить план выполнения и многое другое. Возникает необходимость в данных, используя которые модель могла бы эффективно учиться. Они могут представлять из себя как пары инстракт — ответ, так и интерактивные среды, заточенные на обучение конкретным способностям. Ваша задача будет заключаться в сборе таких датасетов и оценке их влияния на рост качества модели.

Обучение моделей агентности Нам важна возможность применения LLM в широком наборе сценариев — от личного помощника до кодового ассистента. Для этого от моделей требуются хорошие знания доменных областей и умение работать в разнообразных условиях. И если первое решается, как правило, на этапе претрейна, то второе — навык, который возможно развить только путём решения задач в сложных средах. Мы предполагаем, что вы будете обучать агентные модели в комплексных сетапах с большим количеством одновременно используемых сред.

Усиление моделей ризонингом Использование моделями рассуждений при решении сложных проблем (математика, код) показало высокий потенциал роста качества. Мы уверены, что базовые паттерны ризонинга, такие как верификация, рефлексия и бэктрекинг, полезны и в агентных сценариях. Возникает задача со сложными ограничениями, которую вам предстоит решать, — значительно улучшить качество работы агента при условии разумного роста времени ответа.

Больше об ML в Яндексе — в канале Yandex for ML

Мы ждём, что вы

Отлично знаете математику, классические алгоритмы и структуры данных
Умеете программировать на Python
Разбираетесь в Reinforcement Learning. Вас не пугают такие слова, как GAE, PPO, GRPO и другие версии policy optimization
Имеете практический опыт в распределённом обучении больших моделей на основе архитектуры Transformer
Понимаете, как устроена стадия alignment'а современных LLM

Будет плюсом

Обучали LLM-навыкам использования внешних инструментов (tool calling, function calling)
Имеете практический опыт работы c инфраструктурой для RL-обучения: vLLM, SGLang, VERL, etc.

Контакты

Какие задачи вас ждут

Мы ждём, что вы

Будет плюсом

Похожие вакансии

Руководитель группы рассуждений YandexGPT

Старший LLM-разработчик в команду алайнмента YandexGPT

ML-разработчик в группу обучения с подкреплением (RL)

Старший DL-разработчик в команду Нейро

Руководитель группы DL-разработки международного направления Нейро (LLM)

Старший разработчик в команду ML-планера робота доставки (RL)

Старший LLM-разработчик в команду Нейро

Старший ML-разработчик AI-агентов

NLP-разработчик в команду претрейна YandexGPT

DL-разработчик в группу качества Нейро

Старший ML-разработчик в команду качества претрейна YandexGPT

Старший LLM-разработчик в Нейро

Старший DL-разработчик в команду разработки агентов и функций YandexGPT

Ключевые навыки

Детали