Свяжитесь напрямую по этой вакансии
NLP-разработчик в команду претрейна YandexGPT
Наша команда занимается претрейном YandexGPT — первым и самым ресурсоёмким этапом обучения больших языковых моделей (LLM). Мы подбираем данные, ставим эксперименты, выбираем методы обучения и обучаем сами модели. Наши разработки лежат в основе многих сервисов Яндекса, таких как Алиса, Нейро в Поиске, а также используются в Браузере, Маркете, Рекламе и Переводчике. Качество этих продуктов напрямую зависит от наших моделей.
Одна из ключевых характеристик претрейн-моделей — их «умность». Это подразумевает знание всех фактов и концепций из текстов, а также умение обобщать информацию. Мы стремимся сделать YandexGPT самой умной моделью на рынке, чтобы продукты на основе нашей нейросети были лучшими.
Сбор корпуса для обучения модели Современные LLM требуют триллионов токенов. Сбор таких датасетов — нетривиальная задача: из триллионов документов в интернете необходимо выбрать и обработать те, которые принесут максимум пользы при обучении модели. Полное обновление корпуса для претрейн-модели позволило претрейну YandexGPT 5 Lite достигнуть паритета с мировыми SOTA по ряду ключевых бенчмарков для претрейн-моделей, а по многим другим — превзойти их. Подробнее про YandexGPT 5 можно почитать в статье на Хабре.
Вы пройдёте весь путь сбора датасета для SOTA-моделей: от обучения классификаторов для нахождения полезных документов и поиска новых источников данных до обработки этих данных и проведения экспериментов. Будете выбирать датасет, влияющий на качество всех моделей в Яндексе, с помощью продвинутых методов на основе scaling laws.
Создание основы для умных агентов Агенты — это следующий шаг эволюции AI. Последние громкие релизы моделей, как коммерческих, так и open-source, отдельно фокусируются на создании систем, способных автономно оперировать в цифровой среде. Именно на этапе претрейна можно заложить способности, которые сделают будущих агентов на основе YandexGPT в разы сильнее. Вы определите, как именно это осуществить. Предстоит исследовать все: от построения агентской среды до определения оптимальной схемы обучения.
Поиск новых направлений Обучение LLM — это быстро развивающаяся область, где постоянно выходят новые исследования и релизы от конкурентов. Важно выделять из этого потока те результаты, которые с высокой вероятностью помогут в достижении наших целей. Вы будете не просто следить за трендами, а первым тестировать и внедрять самые перспективные идеи.
Больше об ML в Яндексе — в канале Yandex for ML
3-5 лет
Опыт работы
Полная занятость
Тип занятости
Гибрид, Удаленно, Офис
Формат работы
Middle
Грейд
Data Science & ML
Специализация
AI
Отрасль
Корпорация
Тип компании
Data Science & ML
Специализация
AI
Отрасль
Корпорация
Тип компании