Свяжитесь напрямую по этой вакансии
Разработчик мультимодальных VLM (visual language models)
Мультимодальные модели — один из трендов в области глубокого обучения. Мы, команда компьютерного зрения, строим визуально-текстовые мультимодальные модели (visual language models, VLM). Они адаптируют большие языковые модели для работы не только с текстом, но и с изображениями.
Мы ищем разработчиков, которые будут работать над нейросетями нового поколения и доводить свои решения до уровня готового продукта.
Обучать большие языковые модели работать с визуальной информацией (изображениями и видео) Вы будете работать на стыке двух областей: компьютерного зрения и обработки естественного языка. Для создания VLM используются нестандартные технические и архитектурные решения.
Создавать большие дата-пайплайны, которые обрабатывают все данные интернета Для обучения VLM требуется очень много данных. Мы строим полноценные дата-пайплайны для сбора, обработки и фильтрации мультимодальных данных.
Оптимизировать large-scale-обучение моделей и ускорять их инференс В процессе обучения VLM много нюансов. Чтобы сделать его эффективным, приходится много профилировать узкие места. А после обучения нужно подумать про то, как сделать быстрый инференс таких моделей.
Адаптировать модели к продуктовым требованиям Наша цель — внедрить VLM в каждый сервис Яндекса. Для этого приходится учитывать специфику каждой задачи, а главное — адаптировать модель (как архитектурно, так и функционально) к конкретным требованиям.
Больше об ML в Яндексе — в канале Yandex for ML
1-5 лет
Опыт работы
Полная занятость
Тип занятости
Гибрид, Офис
Формат работы
Data Science & ML
Специализация
AI
Отрасль
Корпорация
Тип компании
1-5 лет
Опыт работы
Полная занятость
Тип занятости
Гибрид, Офис
Формат работы
Data Science & ML
Специализация
AI
Отрасль
Корпорация
Тип компании
По должности
По должности