Разработчик Inference Server на C++ в отдел ML-инфраструктуры

Наша команда разрабатывает сервисы, которые позволяют быстро поднять подсчёт нейронных моделей и использовать их в продакшне. Это может быть лёгкая сетка на CPU или большой трансформер на миллиарды параметров, который нужно считать на сотнях тысяч RPS за 30 мс в Q99. Помимо этого, нужно, чтобы новые сервисы поднимались легко, в них сразу было многоуровневое кеширование, мониторинги, доставка и дообучение моделек и многое другое.

Мы должны делать так, чтобы: * ML-инженеры любого уровня и в любой части Яндекса могли использовать этот сервис в своём проекте буквально «по кнопке». * Ресёрч новых моделей и доставка их в эксперимент и продакшн были максимально простыми и быстрыми. * Запросы выполнялись быстро, а CPU/GPU использовались с наибольшей утилизацией.

О команде

Наша команда — это служба из 10 человек, которая сейчас масштабируется для амбициозных целей. Часть команды занимается базовой технологией и отвечает за внедрение сервиса на всю компанию — делает так, чтобы сервис работал эффективно и удобно для разных команд. Другая часть команды занимается сервисами инференса в рекламе, где огромные нагрузки (сотни тысяч RPS), много железа (сотни тысяч ядер, сотни GPU) и прямое влияние на зарабатывание денег.

Все ребята из сильнейших вузов, многие окончили ШАД или прямо сейчас там учатся. Большая часть команды ходит в офис в Москве, так как мы любим не только решать задачи, но и находиться в кругу заинтересованных людей.

Мы любим сходить в бар вечерком, поиграть в настольные игры или просто съесть пиццу после удачного запуска. Периодически ездим в кампусы, обсуждаем технологии. Если вы любите делать сложные ответственные проекты в компании сильных и заинтересованных людей, то приходите к нам :)

Какие задачи вас ждут

Развитие коробочного решения для инференса Сейчас у нас реализована core-часть сервиса, но, чтобы сделать решение по-настоящему удобным, предстоит реализовать множество таких идей и наработок, как динамическая балансировка, многоуровневый in-memory/disk/remote-кеш, динамические конфиги. Также вам нужно будет развивать инструменты для поднятия сервиса в облаке.

Помощь с внедрением решения по всей компании По всей компании не менее 20 команд, занимающихся эксплуатацией ML-моделей. Чтобы сделать решение удобным для всех и позволить быстро проводить эксперименты, необходимо постоянно взаимодействовать с нашими заказчиками и реализовывать необходимый для них функционал, например новые бэкенды для применения нейросетей, или оказывать консультацию по поднятию новых инсталляций.

Сравнение с общемировыми аналогами Для создания хорошего и конкурентного решения нам надо всегда смотреть по сторонам и перенимать лучшие практики и идеи. Для этого мы занимаемся качественным анализом аналогичных решений, как для кода инференса (Triton Inference Server, KServe), так и для поднятия сервиса в системах деплоя (Seldon Core, Kubeflow). А также нам необходимо следить за трендами инференса и заранее готовить инфраструктуру для новых размеров и типов моделей.

Мы ждём, что вы

Имеете опыт в программировании не менее двух лет
Хорошо владеете C++ или готовы быстро разобраться
Знаете про Concurrency на C++ или Linux

Будет плюсом

Разрабатывали высоконагруженные сервисы на C++
Разворачивали и эксплуатировали сервисы для ML Inference на CPU/GPU
Слышали про Triton, TRT-LLM
Знакомы с устройством нейронных моделей, в свободном режиме следите за новинками в области
Знаете системы Unix/Linux (устройство процессов, файловой системы, системных вызовов и др.)

О команде

Какие задачи вас ждут

Будет плюсом

Разрабатывали высоконагруженные сервисы на C++

Разворачивали и эксплуатировали сервисы для ML Inference на CPU/GPU

Слышали про Triton, TRT-LLM

Знакомы с устройством нейронных моделей, в свободном режиме следите за новинками в области

Знаете системы Unix/Linux (устройство процессов, файловой системы, системных вызовов и др.)

Ключевые навыки

Контакты

Средняя заработная плата на позиции

Детали

О команде

Какие задачи вас ждут

Мы ждём, что вы

Будет плюсом

Похожие вакансии

Ведущий разработчик Inference-server в отдел ML-инфраструктуры

Разработчик на C++ в YandexGPT (Нейро)

Разработчик C++ (VLLM, SGlang, TesorRT)

ML-разработчик в команду ускорения инференса

Разработчик на C++ в группу поисковых подсказок

Бэкенд-разработчик в команду голосовых технологий

Разработчик инфраструктуры RL-обучения LLM

Разработчик в ранжирование Рекламы

LLM Platform Engineer (ML Engineer)

Senior CUDA Engineer (Kandinsky)

Разработчик инфраструктуры LLM

Senior CUDA Engineer (Кандинский)

Ключевые навыки

Контакты

Средняя заработная плата на позиции

Детали

О команде

Какие задачи вас ждут

Мы ждём, что вы

Будет плюсом

Похожие вакансии

Ведущий разработчик Inference-server в отдел ML-инфраструктуры

Разработчик на C++ в YandexGPT (Нейро)

Разработчик C++ (VLLM, SGlang, TesorRT)

ML-разработчик в команду ускорения инференса

Разработчик на C++ в группу поисковых подсказок

Бэкенд-разработчик в команду голосовых технологий

Разработчик инфраструктуры RL-обучения LLM

Разработчик в ранжирование Рекламы

LLM Platform Engineer (ML Engineer)

Senior CUDA Engineer (Kandinsky)

Разработчик инфраструктуры LLM

Senior CUDA Engineer (Кандинский)