Участник технического персонала (Data Scientist, Evals / Оценки)
Команда: AI (Искусственный интеллект)
Местоположение: Лондон
Тип занятости: Полная занятость (FullTime)
Perplexity ежедневно обслуживает десятки миллионов пользователей, предоставляя надёжные, качественные ответы на основе поисковой системы, ориентированной на языковые модели (LLM), и наших специализированных источников данных. Мы стремимся использовать новейшие модели по мере их выхода, но интеллектуальный фронтир неоднороден, а популярные бенчмарки не охватывают эффективно наши варианты использования. В этой роли вы будете создавать специализированные оценочные системы (evals) для улучшения качества ответов во всех продуктах Perplexity, включая ответы LLM на основе поиска и другие сценарии, популярные у наших пользователей.
ОБЯЗАННОСТИ
- Разработка архитектуры и поддержка автоматизированных конвейеров оценки для проверки качества ответов в продуктах Perplexity, обеспечение высоких стандартов точности и полезности
- Разработка оценочных наборов и методов, специально предназначенных для измерения влияния вызовов инструментов (в частности, получения данных веб-поиска) на качество финального ответа
- Создание решений на основе визуальных языковых моделей (VLM) для программной оценки того, как финальные ответы отображаются визуально на разных платформах и устройствах
- Постоянный анализ публичных бенчмарков и академических оценок на предмет их применимости к продукту Perplexity, их адаптация и включение в наши регулярные измерения производительности
- Работа в небольшой, высокоэффективной команде, где ваши метрики оценки напрямую влияют на изменения продукта, тесное сотрудничество с техническим руководством для измерения и улучшения качества ответов (Answer Quality)
КВАЛИФИКАЦИЯ
- Кандидат наук (PhD) или магистр (MS) в технической области или эквивалентный опыт
- 4+ года опыта в области data science или машинного обучения
- Хорошее владение Python и SQL (ожидается написание продакшен-кода)
- Опыт разработки в рамках современного облачного стека данных, в частности AWS и Databricks
- Уверенное владение агентными рабочими процессами кодирования и использование инструментов разработки с ИИ-ассистентом для более быстрой итерации
ПРЕДПОЧТИТЕЛЬНАЯ КВАЛИФИКАЦИЯ
- 1+ год опыта работы с LLM в масштабе, в частности с настройками LLM-as-a-judge (LLM в роли судьи)
- Предыдущий опыт работы над клиентскими веб-продуктами или потребительскими приложениями с реальным пользовательским трафиком в масштабе
- Сильная исследовательская база, с опытом применения исследовательских методов к реальным проблемам машинного обучения
- Опыт определения метрик оценки (например, фактическая согласованность, частота галлюцинаций, точность извлечения) и создания наборов данных с эталонной разметкой (ground truth datasets)