Что вы будете делать:
- Разработка и оценка моделей
- Создание и поддержка фреймворков для оценки моделей документов, LLM, OCR и структурированного извлечения данных.
- Определение метрик, эталонных показателей и стратегий валидации для реальных рабочих нагрузок с документами.
- Создание наборов данных и пайплайнов
- Разработка и курирование высококачественных наборов данных для обучения с учителем, тонкой настройки и валидации.
- Создание масштабируемых пайплайнов предобработки для PDF, сканов, изображений, форм и полуструктурированных документов.
- Обучение и тонкая настройка моделей
- Обучение и тонкая настройка трансформерных моделей OCR, VLMs, моделей макета и моделей LLM с открытым исходным кодом для задач понимания документов.
- Оптимизация моделей для надежности, точности и экономической эффективности в производственных средах.
- Вывод и развертывание
- Развертывание ML-моделей с использованием современных сред выполнения для вывода (vLLM, TGI, TensorRT, ONNX Runtime).
- Создание защитных механизмов, систем мониторинга и резервных стратегий для обеспечения безопасного и предсказуемого поведения моделей.
- RAG и документная логика
- Разработка стратегий извлечения и разделения на фрагменты, адаптированных под структуры документов (таблицы, формы, многостраничные PDF).
- Оптимизация сквозных пайплайнов RAG для семантического поиска, вопросно-ответных систем и автоматизации рабочих процессов.
- Межфункциональное взаимодействие
- Взаимодействие с продакт-менеджерами, бэкенд-разработчиками и продуктовыми дизайнерами для определения возможностей применения ИИ и перевода требований в технические решения.
Кто вы:
Мы расширяем нашу функцию ИИ/ML и ищем ML-инженера, специализирующегося на документном интеллекте, визуально-языковых моделях и извлечении данных и логике на основе LLM. Вы должны уверенно чувствовать себя как в традиционных подходах к документному ИИ, так и в современных GenAI-рабочих процессах. Вы преуспеваете в динамичной среде, самостоятельны и получаете удовольствие от решения практических ML-задач, которые напрямую влияют на клиентов.
Требования:
- 5+ лет опыта работы с Python
- Опыт обучения, тонкой настройки и развертывания традиционных моделей компьютерного зрения для задач документного интеллекта (определение макета, извлечение таблиц, OCR, извлечение информации)
- Практический опыт работы с фреймворками и моделями для понимания документов:
- Традиционные модели документного ИИ (LayoutLM, Donut, DocFormer)
- Современные визуально-языковые модели с возможностями OCR (DeepSeek-OCR, LightOnOCR-1B и т.д.)
- Опыт развертывания и оптимизации моделей с использованием фреймворков для вывода, таких как vLLM (предпочтительно), TGI, TensorRT или ONNX Runtime
- Опыт применения LLM к рабочим процессам документного интеллекта, включая передовые модели
- Глубокое понимание систем координат и пространственной логики для определения абсолютного позиционирования и обнаружения полей в формах/документах
Было бы здорово, если бы у вас было:
- Знакомство с библиотеками для парсинга PDF и пайплайнами предобработки документов
- Опыт тонкой настройки моделей с открытым исходным кодом для предметно-ориентированных задач работы с документами
- Знание метрик оценки для задач понимания документов (F1, точное совпадение и т.д.)
Преимущества:
- Честная, открытая культура, ориентированная на обратную связь и способствующая профессиональному и личностному развитию
- Возможность работать откуда угодно — наша команда распределена по всему миру, от Лиссабона до Манилы, от Флориды до Калифорнии
- 6 дней для заботы о себе
- Конкурентная заработная плата
- И многое другое!