DataOps Engineer (AI Platform Engineer)
В Exness мы не просто ведущий брокер — мы переосмыслили, что значит быть лидером. Ежедневно обрабатывая более 40 млн. сделок и объединяя более 2000 человек в 13 странах, мы сочетаем масштабы, заботу и реальные технологии, чтобы сделать торговлю лучше для более чем 1 млн. клиентов по всему миру.
Признанные на международном уровне как «Лучшее место для работы», мы — компания, ориентированная на людей, где долгосрочные победы всегда важнее. В составе нашей команды вы будете формировать будущее финтеха с помощью реальных технологий, заботы и целеустремленности.
Почему эта роль важна
Вы будете проектировать и эксплуатировать локальную AI-платформу для развертывания и масштабирования моделей, работая с многоузловыми GPU-кластерами, распределенными системами и Kubernetes. Вы будете отвечать за создание надежной и эффективной инфраструктуры для крупномасштабного инференса моделей, обеспечивая оптимальное использование GPU, производительность и доступность платформы.
Эта должность предполагает работу в нашем офисе в Лимасоле, Кипр. В случае переезда мы предлагаем полную поддержку по релокации для вас и вашей семьи, чтобы сделать ваш переезд максимально комфортным и беззаботным.
Что вы будете делать на самом деле
- Тесное сотрудничество с командами инфраструктуры по выбору и настройке GPU-серверов, высокопроизводительных сетей и кластеров с поддержкой RDMA.
- Выполнение и управление конфигурациями GPU MIG на основе требований рабочей нагрузки и характеристик моделей.
- Обеспечение надежной и масштабируемой работы GPU в Kubernetes, включая интеграцию сред выполнения, плагины устройств и возможности планирования GPU.
- Проектирование, развертывание и поддержка сред выполнения моделей, включая vLLM, ONNX, SGLang, Nvidia Triton Runtimes и KServe, обеспечивая высокую производительность, масштабируемость и эффективное использование GPU.
- Создание и поддержка CI/CD-конвейеров и инструментов для упаковки, версионирования и развертывания моделей, обеспечивая надежную доставку моделей для внутренних команд.
- Создание и поддержка инструментария платформы для управления жизненным циклом моделей, включая отслеживание экспериментов, версионирование моделей и системы реестров (например, MLflow).
- Обеспечение инфраструктуры и рабочих процессов для дообучения и адаптации моделей (например, LoRA), уделяя особое внимание масштабируемости, воспроизводимости и автоматизации в рамках платформы.
- Разработка и поддержка внутреннего инструментария для управления входными данными и конфигурациями моделей (например, шаблонами запросов), обеспечивая единообразные и повторно используемые шаблоны использования моделей.
- Проведение тестирования производительности и оценки многоузловых GPU-кластеров для выявления и устранения узких мест.
- Создание и поддержка наблюдаемости (observability) для GPU-кластеров и моделей, включая метрики, такие как утилизация GPU, использование памяти, пропускная способность и задержка.
- Интеграция трассировки для рабочих процессов инференса моделей для обеспечения сквозной видимости запросов и поведения моделей.
- Обеспечение соответствия требованиям безопасности при разработке платформы.
- Оценка и бенчмаркинг производительности инференса моделей на различных средах выполнения, аппаратных конфигурациях и настройках для оптимизации платформы.
Кого мы ищем
- Степень бакалавра или магистра в области компьютерных наук, инженерии или смежной технической области.
- Опыт работы в области инфраструктуры, платформенной инженерии или распределенных систем от 5 лет.
- Практический опыт работы с GPU-инфраструктурой, включая стеки NVIDIA или AMD и многопроцессорные среды.
- Значительный опыт работы с Kubernetes, включая развертывание и эксплуатацию рабочих нагрузок в производственной среде.
- Опыт работы в средах на базе Linux.
- Сильные навыки программирования на Python и/или Go.
- Понимание распределенных систем и многоузловых рабочих нагрузок.
- Опыт работы с системами обслуживания моделей и инференса (например, vLLM, ONNX, SGLang, Nvidia Triton Runtimes, KServe).
- Опыт работы с CI/CD-конвейерами и автоматизацией для развертывания сервисов или моделей.
- Опыт работы с инструментами мониторинга и наблюдаемости (метрики, трассировка, логирование).
- Желательно знакомство с сетевыми концепциями, относящимися к распределенным системам (например, RDMA, высокопроизводительные сети).
- Хорошие коммуникативные навыки и навыки решения проблем.
- Способность использовать продвинутый английский язык для различных рабочих и деловых целей.
- Критическое мышление и внимание к деталям.
- Навыки принятия решений и способность адаптироваться к новым изменениям.
- Умение писать лаконичную и понятную документацию.
- Способность воспринимать конструктивную критику и умение выстраивать отношения в команде для достижения общих целей.
Что мы предлагаем на этом пути
- Конкурентная заработная плата и ежегодная премия по результатам работы.
- Полная поддержка по релокации для вас и вашей семьи — включая перелеты, жилье, визы и юридическую помощь.
- Первоклассное медицинское страхование с полным покрытием для всей семьи — медицинское, стоматологическое, офтальмологическое, психологическое — плюс страхование жизни для вашего спокойствия.
- Неограниченные возможности для обучения: внешние курсы, уроки английского языка, развитие карьеры и лидерства.
- Образовательный бюджет, покрывающий расходы на детский сад и школу.
- 21 рабочий день ежегодного отпуска, плюс государственные праздники и полностью оплачиваемый больничный, отпуск по беременности и родам, отпуск по уходу за ребенком.
- Программа признания сотрудников: брендированные подарки, выходной в день рождения, бюджеты на празднование свадеб, рождения детей и других значимых событий.
- Поездки «Познакомься с командой» — встречи с коллегами из наших глобальных хабов, а также общекорпоративные выездные мероприятия, которые поднимают планку.
- Программа участия в акциях компании — растите вместе с нами.
- Фирменный автомобиль компании MINI Cooper Countryman и частная парковка.
- Бесплатные внутренние спортивные клубы, доступ в тренажерный зал Sanctum Club и водные мотоциклы.
- Доступ к корпоративному врачу.
- Эксклюзивная программа скидок в кафе, спортзалах и местных сервисах.
- Налоговые льготы для экспатов: до 50% освобождение от подоходного налога.
- Помощь в процессе натурализации для релоцированных сотрудников.
Каков ваш путь
- Вступительный звонок с рекрутером (30 минут).
- Проверка английского языка (при необходимости).
- Техническое интервью (90 минут).
- Поведенческое интервью (60 минут).