Свяжитесь напрямую по этой вакансии
ML-разработчик в группу качества машинного обучения контент-системы e-сom
Поисковые технологии — ДНК бизнес-группы Поиска. Уже сейчас каждый пятый запрос в Поиске — выбор товаров. Этот сценарий даёт 40% прибыли. Мы работаем над инструментом, который ищет информацию по всем возможным магазинам в интернете (их более 60 тысяч). В инструмент, по планам, будет встроен удобный ИИ-консультант: он поможет сравнить товары по характеристикам или решить, где лучше купить.
Ищем ML-разработчика, который будет развивать и поддерживать процессы обработки товарных данных: матчинг, дедубликацию и создание новых карточек товаров.
Настройка процесса матчинга товаров Наша команда готовит данные, позволяющие сравнивать цены на товары по всему е-cоm-каталогу России. Такая задача называется матчингом, и для её решения нужно сопоставить две карточки товаров от разных продавцов и выяснить, один ли это товар или разные. Сложность задачи в том, что для её решения нужно учесть все данные о товаре (картинки, описание, атрибуты), а также добиться стабильности обученных моделей, чтобы они корректно работали как на популярных девайсах типа iPhone 16 Pro Max, так и на нишевых типа сантехнических труб.
Поддержка процесса дедубликации товаров При решении задачи матчинга возникают два типа данных: товар (SKU) и офер. SKU — внутреннее представление товара, красивую карточку которого пользователь видит в интерфейсе. Офер — предложение о продаже товара конкретным продавцом. Для хорошего матчинга нужна качественная база SKU, не содержащая дублей. Сложность — в повышенных требованиях к качеству моделей: если сказать, что два SKU являются дублями, и ошибиться, есть риск «склеить» в один набор оферов разные по цене товары. Вам предстоит не допускать этого.
Создание карточек SKU Самая сложная задача — автоматическое создание карточек SKU. Вам нужно будет на основании оферов различных e-com-площадок создавать новые SKU, в карточках которых максимально подробно указана информация о товаре и размещены красивые и релевантные картинки. Сложность задачи заключается, во-первых, в том, чтобы не создать новый SKU, когда в базе уже имеется подходящий, а во-вторых — в заполнении карточки SKU объединённой информацией (иногда даже противоречивой) из нескольких оферов.
Больше об ML в Яндексе — в канале Yandex for ML
3-5 лет
Опыт работы
Полная занятость
Тип занятости
Гибрид, Офис
Формат работы
Senior
Грейд
Data Science & ML
Специализация
Ecommerce
Отрасль
Корпорация
Тип компании
По городу
Data Science & ML
Специализация
Ecommerce
Отрасль
Корпорация
Тип компании