DataOps Engineer (AI Platform Engineer)
В Exness мы не просто ведущий брокер — мы переосмыслили то, что значит быть лидером. Ежедневно обрабатывая более 40 миллионов сделок и объединяя более 2000 специалистов в 13 странах, мы сочетаем масштаб, заботу и передовые технологии, чтобы сделать трейдинг лучше для более чем 1 миллиона клиентов по всему миру.
Признанные на глобальном уровне как "Лучшее место для работы", мы — компания, ориентированная на людей, где долгосрочные победы всегда имеют большее значение. Работая в нашей команде, вы будете формировать будущее финтеха с помощью реальных технологий, заботы и целеустремленности.
Почему эта роль важна
Вы будете проектировать и эксплуатировать локальную AI-платформу для развертывания и масштабирования моделей, работая с многоузловыми GPU-кластерами, распределенными системами и Kubernetes. Вы будете отвечать за создание надежной и эффективной инфраструктуры для крупномасштабного инференса моделей, обеспечивая оптимальное использование GPU, производительность и доступность платформы.
Эта должность предполагает работу в нашем офисе в Лимассоле, Кипр. В случае переезда мы предлагаем полную поддержку в переезде для вас и вашей семьи, чтобы ваш переезд был максимально плавным и беззаботным.
Что вы будете делать на самом деле
- Тесное сотрудничество с инфраструктурными командами по выбору и настройке GPU-серверов, высокопроизводительных сетей и кластеров с поддержкой RDMA.
- Выполнение и управление конфигурациями GPU MIG на основе требований к рабочей нагрузке и характеристик моделей.
- Обеспечение надежной и масштабируемой работы GPU в Kubernetes, включая интеграцию сред выполнения, плагины устройств и возможности планирования GPU.
- Проектирование, развертывание и поддержка сред выполнения для обслуживания моделей, включая vLLM, ONNX, SGLang, Nvidia Triton Runtimes и KServe, обеспечивая высокую производительность, масштабируемость и эффективное использование GPU.
- Создание и поддержка CI/CD-конвейеров и инструментов для упаковки, версионирования и развертывания моделей, обеспечивая надежную доставку моделей для внутренних команд.
- Создание и поддержка платформенных инструментов для управления жизненным циклом моделей, включая отслеживание экспериментов, версионирование моделей и системы реестров (например, MLflow).
- Обеспечение инфраструктуры и рабочих процессов для дообучения и адаптации моделей (например, LoRA), фокусируясь на масштабируемости, воспроизводимости и автоматизации в рамках платформы.
- Разработка и поддержка внутренних инструментов для управления входными данными и конфигурациями моделей (например, шаблоны промптов), обеспечивая согласованные и повторно используемые модели использования моделей.
- Проведение тестирования производительности и оценки многоузловых GPU-кластеров для выявления и устранения узких мест.
- Создание и поддержка средств наблюдаемости для GPU-кластеров и рабочих нагрузок моделей, включая метрики, такие как загрузка GPU, использование памяти, пропускная способность и задержка.
- Интеграция трассировки для рабочих процессов инференса моделей, чтобы обеспечить сквозную видимость запросов и поведения моделей.
- Обеспечение соответствия требованиям безопасности для разработки платформы.
- Оценка и бенчмаркинг производительности инференса моделей в различных средах выполнения, конфигурациях оборудования и настройках для оптимизации платформы.
Кого мы ищем
- Степень бакалавра или магистра в области компьютерных наук, инженерии или смежной технической области
- Более 5 лет опыта в области инфраструктуры, инженерии платформ или распределенных систем
- Практический опыт работы с GPU-инфраструктурой, включая стек NVIDIA или AMD и многопроцессорные среды
- Значительный опыт работы с Kubernetes, включая развертывание и эксплуатацию производственных рабочих нагрузок
- Опыт работы в средах на базе Linux
- Сильные навыки программирования на Python и/или Go
- Понимание распределенных систем и многоузловых рабочих нагрузок
- Опыт работы с системами обслуживания моделей и инференса (например, vLLM, ONNX, SGLang, Nvidia Triton Runtimes, KServe)
- Опыт работы с CI/CD-конвейерами и автоматизацией для развертывания сервисов или моделей
- Опыт работы с инструментами мониторинга и наблюдаемости (метрики, трассировка, логирование)
- Желательно знакомство с сетевыми концепциями, относящимися к распределенным системам (например, RDMA, высокопроизводительные сети)
- Хорошие коммуникативные навыки и навыки решения проблем
- Способность использовать продвинутый английский язык для различных рабочих и деловых целей
- Критическое мышление и внимание к деталям
- Навыки принятия решений и способность адаптироваться к новым изменениям
- Способность писать лаконичную и понятную документацию
- Способность справляться с конструктивной критикой и умение развивать отношения с командой для достижения общих целей
Что мы предлагаем по пути
- Конкурентоспособная заработная плата и ежегодный бонус по результатам работы
- Полная поддержка переезда для вас и вашей семьи — включая авиабилеты, жилье, визы и юридическую помощь
- Медицинская страховка премиум-класса с полным семейным покрытием — медицинское обслуживание, стоматология, офтальмология, психическое здоровье — плюс страхование жизни для вашего спокойствия
- Неограниченные возможности для обучения: внешние курсы, уроки английского языка, развитие карьеры и лидерских качеств
- Образовательный бюджет, покрывающий расходы на детский сад и школу
- 21 рабочий день ежегодного отпуска, плюс государственные праздники и полностью оплачиваемые больничные, отпуск по беременности и родам, а также отпуск по уходу за ребенком
- Программа признания сотрудников: фирменные подарки, выходные в день рождения, бюджеты на празднование свадеб, рождения детей и важных дат
- Поездки "Познакомься с командой" — встречайтесь с коллегами из наших глобальных хабов, а также с общекорпоративными выездными мероприятиями, которые поднимают планку
- Программа владения акциями компании — растите вместе с нами
- Фирменный автомобиль MINI Cooper Countryman и частная парковка
- Бесплатные внутренние спортивные клубы, доступ в спортзал Sanctum Club и водные мотоциклы
- Доступ к корпоративному врачу
- Эксклюзивная программа скидок в кафе, спортзалах и местных сервисах
- Налоговые льготы для экспатов: освобождение от подоходного налога до 50%
- Помощь в процессе натурализации для релоцированных сотрудников
В Exness мы знаем, что смена работы — и смена страны — это большой шаг. Именно поэтому переезд с Exness отличается. Мы делаем его плавным, поддерживаемым и поистине меняющим жизнь.
Как будет выглядеть ваше путешествие
- Вводный звонок с рекрутером (30 минут)
- Проверка английского языка (при необходимости)
- Техническое интервью (90 минут)
- Поведенческое интервью (60 минут)