Старший Data Scientist в команду LLM

О команде

Наша команда занимается обучением своей базовой LLM и применяет её к разным бизнес-задачам Авито.

Для разработки базовой модели мы адаптируем лучшие open-source модели под русский язык и домен Авито с помощью Continual Pre-training и подмены токенизатора. Об этом можно почитать в статьях на Хабре:

→ Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений

→ Как мы в Авито сделали свою LLM — A-vibe

Для улучшения модели мы исследуем новые методы и датасеты. А чтобы все в команде были на одной волне, у нас есть LLM-семинары, на которых мы обсуждаем самые интересные статьи.

Уже сейчас с помощью LLM мы решили много интересных и полезных задач для Авито. Вот несколько примеров продуктов, где нам уже удалось внедрить LLM:

Генерация описания. В некоторых категориях Авито уже не обязательно готовить описание объявления самостоятельно — можно взять сгенерированный текст от LLM.

Модификация отчётов Автотеки. Данные для них Авито получает от партнёров, которые часто пользуются непонятными для обычных людей формулировками и сокращениями. Мы обучили LLM их расшифровывать.

Суммаризация чатов агентов поддержки. Когда у агента не получается справиться с проблемой, он может передать её более опытному коллеге. Для этого нужно кратко описать содержание чата с пользователем. Теперь это может делать LLM.

Модификация сообщений агентов поддержки. Мы обучили LLM перефразировать некоторые сообщения агентов поддержки, чтобы сделать их более эмпатичными и исправить ошибки.

Саджесты в мессенджере. Когда пишете сообщение на Авито, можете встретить всплывающие подсказки от LLM — они помогут удобнее и быстрее общаться в чате.

Примеры будущих задач:

исследовать статьи и улучшать базовую модель;
оптимизировать скорость инференса моделей;
помогать в разработке платформенных LLM-решений.

Мы ждём, что вы:

понимаете, как устроены основные ML-алгоритмы (от решающих деревьев до трансформеров);
имеете опыт работы и внедрения ML-моделей в продакшен;
знаете Python;
понимаете, как устроены LLM, следите за трендами AI;
работали с современными NLP-моделями.

Будет здорово, если вы:

занимали высокие места в соревнованиях по машинному обучению;
пользовались инструментами для ведения экспериментов: Weights & Biases, MLflow, DVC и т. д.

Работа у нас — это:

возможность улучшать опыт миллионов пользователей;
интересные и сложные задачи на большом масштабе;
сильная команда, которая всегда готова прийти на помощь;
возможность изучать и пробовать новое, мощное железо для этого;
бюджет на обучение, который можно тратить на курсы или профессиональную литературу;
забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;
возможность работать удалённо или из офисов в четырёх городах России.

Контакты

О команде

Примеры будущих задач:

Мы ждём, что вы:

Будет здорово, если вы:

Работа у нас — это:

Похожие вакансии

Тимлид Data Science команды ML платформы определения параметров объявлений

Старший Data Scientist в команду Автоматизации поддержки

Старший Data Scientist в команду вертикального поиска

Senior Data Scientist (LLM)

Старший Data Scientist в команду Поиска

Data Scientist в команду Авито Авто (AI-продавец автомобилей)

ML-разработчик в команду генеративных еком-сценариев (LLM)

DS инженер в вертикальную команду поиска

Старший аналитик данных в команду ML Autotasking

Ведущий продакт-менеджер (ML Autotasking, команда персонализации)

Senior LLM Researcher (Центр практического искусственного интеллекта)

Middle/Senior Data Scientist LLM (команда B2C)

Старший Data Scientist в команду LLM

Ключевые навыки

Детали

Средняя заработная плата на позиции