Разработчик мультимодальных VLM (visual language models)

Мультимодальные модели — один из трендов в области глубокого обучения. Мы, команда компьютерного зрения, строим визуально-текстовые мультимодальные модели (visual language models, VLM). Они адаптируют большие языковые модели для работы не только с текстом, но и с изображениями.

Мы ищем разработчиков, которые будут работать над нейросетями нового поколения и доводить свои решения до уровня готового продукта.

Какие задачи вас ждут

Обучать большие языковые модели работать с визуальной информацией (изображениями и видео) Вы будете работать на стыке двух областей: компьютерного зрения и обработки естественного языка. Для создания VLM используются нестандартные технические и архитектурные решения.

Создавать большие дата-пайплайны, которые обрабатывают все данные интернета Для обучения VLM требуется очень много данных. Мы строим полноценные дата-пайплайны для сбора, обработки и фильтрации мультимодальных данных.

Оптимизировать large-scale-обучение моделей и ускорять их инференс В процессе обучения VLM много нюансов. Чтобы сделать его эффективным, приходится много профилировать узкие места. А после обучения нужно подумать про то, как сделать быстрый инференс таких моделей.

Адаптировать модели к продуктовым требованиям Наша цель — внедрить VLM в каждый сервис Яндекса. Для этого приходится учитывать специфику каждой задачи, а главное — адаптировать модель (как архитектурно, так и функционально) к конкретным требованиям.

Подробнее про Alice AI

Больше об ML в Яндексе — в канале Yandex for ML

Мы ждём, что вы

Понимаете, как работают современные архитектуры нейронных сетей
Знакомы с большими языковыми моделями
Работали с большими объёмами данных
Обучали модели глубокого обучения и внедряли их в продакшен
Следите за последними достижениями в областях компьютерного зрения и обработки естественного языка (понимаете, чем ViT отличается от ConvNeXt)

Контакты

Какие задачи вас ждут

Мы ждём, что вы

Похожие вакансии

ML-разработчик в команду VLM Foundations

ML-разработчик в команду качества визуального Екома

ML-разработчик в подгруппу претрейна детектора в Автономный транспорт

ML-разработчик на С++ в команду визуального поиска Яндекса

ML/C++-разработчик в команду визуального поиска Яндекса

ML Engineer / Research Engineer (R&D) в Автономный транспорт

Senior ML Engineer (Multimodal LLM; Video Understanding)

ML-разработчик в команду ранжирования международного Поиска

Разработчик компьютерного зрения в команду генеративных моделей

Machine Learning Engineer (Robotics/Humanoid AI)

Разработчик AI-продуктов в Плюс Фантех

Старший DL-разработчик в команду Нейро

Разработчик мультимодальных VLM (visual language models)

Ключевые навыки

Детали

Детали

Средняя заработная плата на позиции

Средняя заработная плата на позиции