Senior ML/Data Ops Engineer II
Отдел: Инфраструктура
Тип занятости: Полная занятость
Местоположение: Удаленная работа
Руководитель: Евгений Перепелкин
Описание
Tabby создает финансовую свободу в том, как люди покупают, зарабатывают и экономят, меняя их отношение к деньгам. Более 15 миллионов пользователей выбирают Tabby, чтобы сохранять контроль над своими расходами и максимально эффективно использовать свои деньги.
Основное предложение компании позволяет покупателям разделять платежи онлайн и в магазинах без процентов и комиссий. Более 40 000 глобальных брендов и малого бизнеса, включая Amazon, Noon, IKEA и SHEIN, используют Tabby для ускорения роста и привлечения лояльных клиентов, предлагая легкие и гибкие платежи онлайн и в магазинах.
Tabby генерирует более 10 миллиардов долларов годового объема транзакций для партнерских брендов и является самым высоко оцененным, наиболее рецензируемым, крупнейшим и самым быстрорастущим FinTech-компанией в регионе GCC.
Tabby был запущен в 2019 году и с тех пор привлек более 1 миллиарда долларов собственного и долгового финансирования от глобальных и региональных инвесторов, а сейчас его оценка составляет 4,5 миллиарда долларов.
Ключевые навыки и обязанности
Обслуживание LLM и управление моделями:
- Глубокий опыт обслуживания с высокой пропускной способностью с использованием vLLM, NVIDIA TensorRT-LLM и sglang для минимизации задержек и максимизации эффективности оборудования.
- Практический опыт развертывания и оптимизации крупномасштабных моделей с открытыми весами, в частности DeepSeek 3.1/3.2, Qwen и вариантов GPT-OSS.
- Продвинутая оптимизация и повышение безопасности Docker специально для GPU-сред.
- Управление весами моделей и оркестрация в средах Kubernetes (GKE).
- Инжиниринг данных реального времени и CDC:
- Проектирование и поддержка высокопроизводительных конвейеров CDC (Change Data Capture) с использованием экосистемы Apache (например, Debezium, Kafka) для синхронизации данных из Cloud PostgreSQL.
- Развертывание и настройка ClickHouse для аналитики в реальном времени, хранения признаков ML и высокоскоростного логирования.
- Оркестрация сложных рабочих процессов данных ML с использованием Airflow (Google Cloud Composer) для обеспечения надежности данных. Должен
Базовая инфраструктура и сеть:
- Отличное знание систем Linux, включая внутренние механизмы, сети и настройку производительности для крупномасштабных распределенных систем.
- Опыт работы с сервисной сетью Istio для управления взаимодействием микросервисов и трафиком.
- Выделение и обслуживание выделенных GPU-узлов (A100/H100/H200/B200), включая управление драйверами и настройку на уровне ОС с использованием Ansible.
- Солидный опыт работы с Kubernetes: контроллеры, CRD, CNI и Ingress.
- CI/CD и инструментарий:
- Внедрение конвейеров как кода в GitLab CI, управление раннерами, кэшированием и сканированием безопасности.
- Инфраструктура как код с использованием Terraform и Terragrunt.
- Уверенное владение Python/Bash для создания собственной автоматизации и инструментов для AI-агентов.
Нагрузочное тестирование и наблюдаемость:
- Проведение тщательного нагрузочного тестирования приложений GenAI с фокусом на таких метриках, как TTFT, TPS и RPS.
- Развертывание и управление LiteLLM Gateway для унифицированного доступа к API, балансировки нагрузки и отслеживания затрат.
- Опыт работы с Datadog для мониторинга использования GPU, состояния инференса и конвейеров логов.
Гибкие навыки:
- Сильный менталитет собственника: балансирование между скоростью, надежностью и стоимостью.
- Уверенная работа на стыке функций с разработчиками, безопасностью и соответствием требованиям.
- Отличное чувство ответственности и подотчетности.
- Английский язык уровня B2 или выше.
Будет плюсом:
Опыт работы в средах, соответствующих требованиям PCI-DSS, SOC2 или другим нормативным актам.
Наш технологический стек: Linux, Docker, Kubernetes, GCP (GKE, Cloud PostgreSQL), Datadog, GitLab, Apache CDC, ClickHouse, Airflow, Istio, Terraform, Terragrunt, Ansible, vLLM, TensorRT-LLM, sglang, LiteLLM, DeepSeek, Qwen, Go, Python
Что мы предлагаем
- Полный рабочий день по контракту B2B
- Полностью удаленная работа, работа из любой точки Европы
- До 20% налоговых льгот
- 22 оплачиваемых дня отпуска ежегодно
- Опционы на акции (ESOP) в быстрорастущей компании на пред-IPO этапе
- Гибкие льготы, которые можно использовать для оздоровления, путешествий или обучения
- Работа в составе высокопроизводительной международной инженерной команды в глобальном финтех-единороге
Поддержка по релокации доступна в наши хабы в Армении, Грузии, Сербии и Испании, включая перелеты, временное жилье и юридическое оформление.