Свяжитесь напрямую по этой вакансии
По должности
3 лет
Опыт работы
Полная занятость
Тип занятости
Бэкенд
Специализация
IT & Tech
Отрасль
Корпорация
Тип компании
Наше подразделение крайне важно для Поиска, именно центральной его части: поисковой строки с Алисой.
В центре любого машинного обучения лежат датасеты. Мы отвечаем за скорость и качество сбора этих датасетов. И это прямо влияет на скорость появления новой функциональности.
Внедрение генеративных моделей в разметку данных для сбора датасетов Собрать корректные датасеты — важнейшая задача любого машинного обучения. Традиционный подход всегда состоял в том, чтобы делать это через крауд. И прямо сейчас в нашей области происходит тихая революция. Мы видим, что генеративные модели могут давать качество разметки, сравнимое с людьми, а иногда и лучше. Или как минимум — помогать людям в таких задачах. Активно внедрять модели, работать над методологией замера качества, отслеживать его на уровне конкретных разметок — вот примеры задач, которыми вам предстоит заниматься.
Инфраструктура сложных обучений По мере развития поиска и технологий постоянно растут требования к качеству, а как следствие — и к подходам, с помощью которых мы собираем данные на людях. Возникает инфраструктурная задача: как организовать такую разметку. С одной стороны, надо уметь поддерживать запуск с нуля разметки любой сложности и в самые короткие сроки. А с другой, наша обязанность — разрабатывать конкретные инструменты, чтобы лучше доносить до исполнителей, чего мы от них ждём. Это могут быть баннеры в заданиях, автоматические рассылки, инструменты для техподдержки, которая разбирает обращения.
Архитектура разметок До сих пор мы говорили про каждую разметку по отдельности, как лучше собрать её или улучшить качество. Но в Поиске есть уже десятки таких разметок. Они сильно отличаются по сложности, требуемым объёмам и SLA. Каждый отдельный заказ также может распасться на десяток подзаказов. Например, мы хотим, чтобы на вопросы про Python отвечали исполнители с опытом в программировании. Техническая сложность тут возникает из-за крайней инертности системы: эффект от изменения в приоритетах можно увидеть скорее в течение часов, чем минут или секунд, так как задания выполняют люди. Каждое усложнение системы разметок требует пересобрать систему управления разметками, чтобы максимально эффективно встроить новую сложную разметку в каскад старых.
Наличие даже одного пункта выше — нормально: мы не ожидаем, что вы знаете всё это.