Чем вы будете заниматься:
- Разработка и оценка моделей
- Создание и поддержка систем оценки для моделей обработки документов, LLM, OCR и структурированного извлечения данных.
- Определение метрик, эталонов и стратегий валидации для рабочих нагрузок с реальными документами.
- Создание наборов данных и конвейеров обработки
- Разработка и курирование высококачественных наборов данных для обучения с учителем, тонкой настройки и валидации.
- Создание масштабируемых конвейеров предварительной обработки для PDF-файлов, сканов, изображений, форм и полуструктурированных документов.
- Обучение и тонкая настройка моделей
- Обучение и тонкая настройка моделей OCR на основе трансформеров, визуально-языковых моделей (VLM), моделей для анализа макета и открытых LLM для задач понимания документов.
- Оптимизация моделей для надежности, точности и экономической эффективности в производственных средах.
- Вывод моделей в эксплуатацию и развертывание
- Развертывание ML-моделей с использованием современных сред для вывода (vLLM, TGI, TensorRT, ONNX Runtime).
- Создание защитных механизмов, систем мониторинга и резервных решений для обеспечения безопасного и предсказуемого поведения моделей.
- Вывод моделей в эксплуатацию и развертывание
- Разработка стратегий поиска и разбиения на фрагменты, адаптированных под структуру документов (таблицы, формы, многостраничные PDF-файлы).
- Оптимизация сквозных RAG-конвейеров для семантического поиска, вопросно-ответных систем и автоматизации рабочих процессов.
- Межфункциональное сотрудничество
- Взаимодействие с продакт-менеджерами (PM), backend-разработчиками и продуктовыми дизайнерами для определения возможностей ИИ и перевода требований в технические решения.
Кто вы:
Мы расширяем нашу функцию ИИ/ML и ищем ML-инженера, который специализируется на интеллектуальной обработке документов, визуально-языковых моделях и извлечении данных и рассуждениях на основе LLM. Вы должны чувствовать себя уверенно как с традиционными подходами к работе с документами с использованием ИИ, так и с передовыми рабочими процессами GenAI. Вы преуспеваете в быстро меняющейся обстановке, самостоятельны и получаете удовольствие от решения практических задач ML, которые напрямую влияют на клиентов.
Мы ищем человека с опытом в:
- Визуальных трансформерах, моделях для анализа макета и системах OCR
- Структурированном извлечении данных из сложных документов
- RAG для рабочих нагрузок с большим объемом документов
- Оптимизации LLM-конвейеров по стоимости, точности и пропускной способности
- Развертывании и бенчмаркинге моделей в реальных производственных системах
Обязательный опыт:
- 5+ лет опыта работы с Python
- Опыт обучения, тонкой настройки и развертывания традиционных моделей компьютерного зрения для задач интеллектуальной обработки документов (обнаружение макета, извлечение таблиц, OCR, извлечение информации)
- Практический опыт работы с фреймворками и моделями для понимания документов:
- Традиционные модели ИИ для документов (LayoutLM, Donut, DocFormer)
- Современные визуально-языковые модели с возможностями OCR (DeepSeek-OCR, LightOnOCR-1B и т.д.)
- Опыт развертывания и оптимизации моделей с использованием таких фреймворков для вывода, как vLLM (предпочтительно), TGI, TensorRT или ONNX Runtime
- Опыт применения LLM в рабочих процессах интеллектуальной обработки документов, включая как передовые модели, так и открытые аналоги
- Глубокое понимание систем координат и пространственного мышления для абсолютного позиционирования и обнаружения полей в формах/документах
Было бы здорово, если бы у вас было:
- Знакомство с библиотеками для парсинга PDF и конвейерами предобработки документов
- Опыт тонкой настройки моделей с открытым исходным кодом для предметно-ориентированных задач работы с документами
- Знание метрик оценки для задач понимания документов (F1, точное совпадение и т.д.)
Преимущества:
- Честная, открытая культура, которая делает акцент на обратной связи и способствует профессиональному и личностному развитию
- Возможность работать из любой точки мира — наша команда распределена по всему миру, от Лиссабона до Манилы, от Флориды до Калифорнии
- 6 дней личного ухода (self care days)
- Конкурентоспособная зарплата
- И многое другое!