Свяжитесь напрямую по этой вакансии
Реклама — один из самых высоконагруженных сервисов Яндекса, который выдерживает до 700K RPS и оперирует миллиардами объявлений.
Мы занимаемся подготовкой, обработкой и доставкой данных под показывающий рантайм, а также быстрым сбором статистики: расчётом нейросетевых моделей, генерацией баннеров, построением умных индексов k-NN. Наши системы обрабатывают десятки гигабайт сжатых данных в секунду и оперируют стейтом в сотни терабайт.
Некоторое время назад мы совершили квантовый скачок, когда перевезли ключевые компоненты с парадигмы MapReduce в стриминговую обработку данных.
Наши доклады с конференций: * Эффективное обновление состояний в базе данных из сервисов потоковой обработки * Как реклама Яндекса генерирует с помощью GPT-нейросетей заголовки для трёх миллиардов объявлений
Что вы получите, если придёте к нам: * Узнаете, как правильно настраивать динтаблицы YTSaurus, чтобы удерживать любую нагрузку * Научитесь писать многопоточный код на C++ и узнаете, чем отличаются файберы от тредов * Поймете, как сменой аллокатора ускорить систему на 30% — или замедлить * Разберетесь, как строить действительно exactly-once-системы
Быстрые рекламные данные Для бизнеса крайне важно, чтобы любое событие — будь то изменение цены товара или клик пользователя — как можно быстрее было учтено в финальном ранжировании. Наша задача состоит в том, чтобы снижать эти задержки до минут и секунд. Мы уже сделали быстрые профили всех основных рекламных сущностей. Теперь занимаемся инкрементальным обновлением всех рекламных баз и индексов.
Real-Time Machine Learning Помимо простой доставки обновлённых профилей до рантайма, особняком стоит задача дообучения нейросетевых моделей на свежих данных. Мы делаем первые шаги к переносу построения датасетов из MapReduce в RT. Нам необходимо построить систему, которая способна с минутной задержкой обрабатывать более 10 ГБ/с входных данных, осуществляя оконный join сразу нескольких логов. Для этого мы активно развиваем собственный фреймворк потоковой обработки данных.
Единая база Яндекс Рекламы База с рекламными данными должна одновременно обладать свойствами, которые на первый взгляд выглядят конфликтующими: способность хранить десятки ТБ данных, обеспечивать высоконагруженный синхронный доступ и поддерживать регулярные массовые асинхронные неблокирующие модификации. Поэтому мы развиваем собственную реляционную базу поверх динамических таблиц YTSaurus.
Свяжитесь напрямую по этой вакансии
По городу
5 лет
Опыт работы
Полная занятость
Тип занятости
Гибрид, Офис
Формат работы
Бэкенд
Специализация
5 лет
Опыт работы
Полная занятость
Тип занятости
Гибрид, Офис
Формат работы
Бэкенд
Специализация
IT & Tech
Отрасль
Корпорация
Тип компании
По городу
IT & Tech
Отрасль
Корпорация
Тип компании