Свяжитесь напрямую по этой вакансии
По городу
3-5 лет
Опыт работы
Полная занятость
Тип занятости
Гибрид, Офис
Формат работы
Middle
Грейд
Data Science & ML
Специализация
IT & Tech
Отрасль
Корпорация
Тип компании
ML-инженер в команду данных синтеза речи
Ищем опытного data- и ML-инженера в команду данных синтеза речи. Команда занимается переводом видео, делает аудиокниги, создаёт голос Алисы. В синтезе наступила эпоха перехода от low resource (даже для основных языков) к большим данным и претрейнам. Новые модели позволяют спеть известные песни вашим голосом и произнести любую фразу всего по нескольким секундам вашего голоса. Основа качества этих моделей — сотни тысяч часов качественных аудиоданных и текстов для них, которые нам предстоит собрать.
Работа с данными Вам предстоит разрабатывать систему хранения действительно больших данных и доступа к ним для ML-разработчиков. В вашем распоряжении будут петабайты аудио, которые необходимо эффективно хранить и уметь быстро обрабатывать.
Майнинг данных Вы будете улучшать пропускную способность текущих пайплайнов сбора данных и масштабировать их для поддержки множества языков, работать с разнородными источниками и разрабатывать процессы майнинга аудиоданных.
Оценивание качества данных Вам предстоит работать с процессами оценивания параметров данных, разрабатывать и применять ML-модели детекции шума, музыки, нескольких голосов, синтетической речи, несовпадения текста и аудио, детекции языка. Эти оценки позволят отфильтровать данные и сделать наш синтез лучшим в мире.
Больше об ML в Яндексе — в канале Yandex for ML