Свяжитесь напрямую по этой вакансии
Разработчик на Python в майнинг данных
Каждый день миллионы пользователей ищут, куда пойти, как получить услугу или добраться до нужного места. Мы помогаем им принимать обоснованные решения, предоставляя актуальную и достоверную информацию о компаниях по всему миру.
Справочник — платформа, которая собирает, верифицирует и анализирует данные об организациях. Наша система ежедневно обрабатывает миллионы сигналов: пользовательский фидбек, обновления с сайтов, коррекции от владельцев бизнесов. Мы создаём решения, которые масштабируются на новые рынки и языки.
Наши проекты * Автоматический перевод контента с использованием современных LLM (YandexGPT и др.) для поддержки мультиязычных пользователей * Парсинг данных на Python — платформа для сбора информации об организациях из открытых источников * Изолированная среда выполнения парсеров — безопасный рантайм для пользовательского кода с использованием внутреннего аналога Docker * Унификация данных — алгоритмы нормализации адресов, графиков работы и других атрибутов организаций * Автоматизация обновлений для сетевых компаний (рестораны, магазины) с учётом их филиалов и особенностей
Стек технологий * Backend: C++ (производительность), Python (парсинг), YTsaurus, YDB Topics, PostgreSQL * ML: YandexGPT 5 Pro * Инфраструктура: Docker, Chrome DevTools (для анализа веб-страниц)
Мы предлагаем * Работу с Big Data (сотни миллионов записей) и передовыми LLM * Возможность влиять на архитектуру высоконагруженных систем * Гибкий график и опцию удалённой работы * Компенсацию оплаты обучения (курсы, конференции, сертификации)
Почему это стоит внимания * Внедрение LLM в промышленные пайплайны (автопереводы, разметка данных) * Разработка масштабируемой изолированной среды для выполнения кода * Масштабирование продукта на международные рынки с помощью YTsaurus и AirFlow-подобных систем * Участие в проектировании распределённых систем для обработки данных
Если вы хотите работать на стыке Python, C++ и ML, решая задачи парсинга, NLP и Big Data, присоединяйтесь. Здесь ваши навыки превратятся в технологии, которыми каждый день пользуются миллионы людей.
Развитие парсинг-платформы Вы будете оптимизировать архитектуру для одновременной работы сотен парсеров, реализовывать изолированную среду выполнения парсеров и повышать эффективность взаимодействия с PostgreSQL.
Интеграция LLM и NLP Понадобится создавать пайплайн автоматического перевода контента и разметки данных с помощью языковых моделей, а также адаптировать и настраивать модели (YandexGPT и др.) под бизнес-задачи.
Масштабирование системы Вам предстоит адаптировать платформу для новых стран и языков, организовывать обработку данных через YTsaurus MapReduce и внутренний аналог AirFlow.
Оптимизация алгоритмов Ещё вы станете разрабатывать методы сравнения и нормализации атрибутов организаций и ускорять критичные компоненты системы на C++.
Больше о бэкенде в Яндексе — в канале Yandex for Backend
3-5 лет
Опыт работы
Полная занятость
Тип занятости
Гибрид, Офис
Формат работы
Middle
Грейд
Бэкенд
Специализация
IT & Tech
Отрасль
Корпорация
Тип компании
По городу
Бэкенд
Специализация
IT & Tech
Отрасль
Корпорация
Тип компании