Участник технического персонала (Data Scientist, Evals / Оценки)

Команда: AI (Искусственный интеллект)
Местоположение: Лондон
Тип занятости: Полная занятость (FullTime)

Perplexity ежедневно обслуживает десятки миллионов пользователей, предоставляя надёжные, качественные ответы на основе поисковой системы, ориентированной на языковые модели (LLM), и наших специализированных источников данных. Мы стремимся использовать новейшие модели по мере их выхода, но интеллектуальный фронтир неоднороден, а популярные бенчмарки не охватывают эффективно наши варианты использования. В этой роли вы будете создавать специализированные оценочные системы (evals) для улучшения качества ответов во всех продуктах Perplexity, включая ответы LLM на основе поиска и другие сценарии, популярные у наших пользователей.

ОБЯЗАННОСТИ

Разработка архитектуры и поддержка автоматизированных конвейеров оценки для проверки качества ответов в продуктах Perplexity, обеспечение высоких стандартов точности и полезности
Разработка оценочных наборов и методов, специально предназначенных для измерения влияния вызовов инструментов (в частности, получения данных веб-поиска) на качество финального ответа
Создание решений на основе визуальных языковых моделей (VLM) для программной оценки того, как финальные ответы отображаются визуально на разных платформах и устройствах
Постоянный анализ публичных бенчмарков и академических оценок на предмет их применимости к продукту Perplexity, их адаптация и включение в наши регулярные измерения производительности
Работа в небольшой, высокоэффективной команде, где ваши метрики оценки напрямую влияют на изменения продукта, тесное сотрудничество с техническим руководством для измерения и улучшения качества ответов (Answer Quality)

КВАЛИФИКАЦИЯ

Кандидат наук (PhD) или магистр (MS) в технической области или эквивалентный опыт
4+ года опыта в области data science или машинного обучения
Хорошее владение Python и SQL (ожидается написание продакшен-кода)
Опыт разработки в рамках современного облачного стека данных, в частности AWS и Databricks
Уверенное владение агентными рабочими процессами кодирования и использование инструментов разработки с ИИ-ассистентом для более быстрой итерации

ПРЕДПОЧТИТЕЛЬНАЯ КВАЛИФИКАЦИЯ

1+ год опыта работы с LLM в масштабе, в частности с настройками LLM-as-a-judge (LLM в роли судьи)
Предыдущий опыт работы над клиентскими веб-продуктами или потребительскими приложениями с реальным пользовательским трафиком в масштабе
Сильная исследовательская база, с опытом применения исследовательских методов к реальным проблемам машинного обучения
Опыт определения метрик оценки (например, фактическая согласованность, частота галлюцинаций, точность извлечения) и создания наборов данных с эталонной разметкой (ground truth datasets)

Контакты

Участник технического персонала (Data Scientist, Evals / Оценки)

ОБЯЗАННОСТИ

КВАЛИФИКАЦИЯ

ПРЕДПОЧТИТЕЛЬНАЯ КВАЛИФИКАЦИЯ

Похожие вакансии

Member of Technical Staff (Product Data Scientist, Search Quality)

Member of Technical Staff (Quality Analyst, Search)

Senior Data Scientist (MCM)

Commercial Data Scientist

Data Scientist (LLM-experience)

Applied ML / Data Engineer

Senior Data Scientist

AI Engineer Middle+ / Senior [Financial Assistant]

Senior Data Scientist (LLM)

Senior Data Scientist

ML/LLM Engineer/Сооснователь стартапа (за долю в проекте без оклада на старте)

Applied ML / Data Engineer

Member of Technical Staff (Data Scientist, Evals)

Ключевые навыки

Детали