Senior Dev Ops Engineer (AWS + PostgreSQL)
CluneTech — это глобальная технологическая группа, которая предоставляет решения для упрощения международного бизнеса, включая цифровые продажи, глобальные расчеты по заработной плате, глобальный НДС, налоговую отчетность и трансграничные платежи. Штаб-квартира группы находится в Килкенни, Ирландия, и в ней работают более 1200 сотрудников, 35 офисов и операции в 20 странах.
О роли:
Мы ищем старшего инженера DevOps в AWS для поддержки, защиты и развития критически важной облачной инфраструктуры для регулируемых финансовых технологических нагрузок.
Успешный кандидат сыграет ключевую роль в проектировании инфраструктуры AWS, администрировании баз данных, эксплуатации систем Linux, автоматизации CI/CD, оптимизации затрат, наблюдаемости и модернизации приложений. Он также поможет внедрить утвержденные практики разработки с использованием ИИ для улучшения документации, операционной эффективности, качества кода и реагирования на инциденты.
Эта роль требует высокого уровня ответственности, отличного технического суждения и способности создавать понятную, готовую к аудиту документацию, которая поддерживает соответствие требованиям, передачу знаний и операционную непрерывность.
Обязанности:
1. Проектирование инфраструктуры AWS
- Проектирование, развертывание и управление инфраструктурой AWS для поддержки производственных финансовых нагрузок.
- Работа с сервисами, включая EC2, ECS/Fargate, RDS, Aurora, S3, VPC, Lambda, CloudWatch, Secrets Manager, IAM, DynamoDB, SQS, SNS, EventBridge, API Gateway, AWS IAM Identity Center и QuickSight.
- Реализация и поддержка инфраструктуры как кода (Infrastructure as Code) с использованием Terraform, CloudFormation или AWS CDK.
- Управление инфраструктурой в нескольких учетных записях и средах AWS.
- Создание и оптимизация конвейеров CI/CD с использованием таких инструментов, как GitLab CI, GitHub Actions, AWS CodePipeline или аналогичных.
- Проектирование и поддержка безопасных сетей, включая VPC, подсети, маршрутизацию, группы безопасности, NACL, Site-to-Site VPN, Transit Gateway и связанные с ними элементы управления.
- Внедрение мониторинга, оповещения, логирования и наблюдаемости с использованием CloudWatch, панелей мониторинга, метрик, сигналов тревоги и агрегации журналов.
- Реализация инициатив по оптимизации затрат на вычислительные ресурсы, хранилища, базы данных, передачу данных и управляемые сервисы.
- Создание и поддержка панелей мониторинга AWS QuickSight для аналитики биллинга, распределения затрат, тенденций использования и финансовой отчетности.
- Поддержка регулярных мероприятий FinOps, включая ежемесячные обзоры расходов, изменение размеров ресурсов, анализ планов экономии (Savings Plans) / зарезервированных экземпляров (Reserved Instances) и устранение избыточных ресурсов.
2. Администрирование баз данных
- Администрирование сред PostgreSQL, включая RDS for PostgreSQL, Aurora PostgreSQL и управляемый самостоятельно PostgreSQL, где это применимо.
- Поддержка управления жизненным циклом версий PostgreSQL, включая поддерживаемые производственные версии и планирование обновлений.
- Управление репликацией, резервным копированием и восстановлением, восстановлением на момент времени, вакуумированием, индексированием, настройкой запросов и устранением проблем с производительностью.
- Управление кластерами Amazon Aurora PostgreSQL, включая масштабирование, отработку отказа, группы параметров, мониторинг и Performance Insights.
- Администрирование SQL Server на Amazon RDS, включая стратегии резервного копирования, обслуживание индексов, анализ Query Store и настройку параметров.
- Планирование и выполнение миграций баз данных, включая миграции с SQL Server на PostgreSQL с использованием AWS DMS и нативных инструментов баз данных.
- Реализация средств контроля безопасности баз данных, включая шифрование при хранении и передаче, аутентификацию IAM, где это уместно, аудит журналов, контроль доступа и управление секретами.
3. Администрирование систем Linux
- Управление системами Amazon Linux 2023 и на базе RHEL.
- Выполнение патчинга, усиления безопасности, настройки производительности, управления журналами и оперативного устранения неполадок.
- Администрирование сервера Apache HTTP Server, включая виртуальные хосты, SSL/TLS, настройку модулей и устранение неполадок в режиме реального времени.
- Управление службами systemd, хранилищами EBS/EFS, разрешениями файловой системы и автоматизированными рабочими процессами развертывания.
- Написание и поддержка скриптов Bash для автоматизации, мониторинга, развертывания и операционных задач.
- Реализация средств контроля безопасности на уровне хоста, включая усиление SSH, правила брандмауэра, доступ с минимальными привилегиями, перенаправление журналов и устранение уязвимостей.
4. Разработка с использованием ИИ и автоматизация
- Использование утвержденных инструментов разработки с использованием ИИ для улучшения операционных рабочих процессов, документации, обзора кода и устранения неполадок.
- Работа с Amazon Bedrock и поддерживаемыми большими языковыми моделями, включая модели Anthropic Claude, где это разрешено для использования в компании.
- Использование Kiro, сервиса AWS для разработки на основе агентов, где это уместно, для поддержки разработки на основе спецификаций, документации, тестирования и планирования реализации.
- Оценка инструментов с использованием ИИ для эксплуатации инфраструктуры, обнаружения аномалий, генерации документации и поддержки реагирования на инциденты.
- Создание автоматизации, улучшающей обогащение оповещений, операционное понимание и повторяющиеся рабочие процессы разработки.
- Обеспечение соответствия использования ИИ политикам компании в области безопасности, защиты данных, конфиденциальности и соответствия требованиям.
5. Модернизация и реархитектура приложений
- Участие в реархитектуре монолитных транзакционных приложений в соответствии с современными, устойчивыми облачными паттернами AWS.
- Поддержка стратегий контейнеризации с использованием Docker, ECS и Fargate.
- Проектирование и внедрение событийных паттернов с использованием SQS, SNS и EventBridge.
- Поддержка стратегий сине-зеленого развертывания (blue/green) и канареечных развертываний (canary) для более безопасных релизов и сокращения времени простоя.
- Повышение надежности, масштабируемости, наблюдаемости и операционной сопровождаемости приложений.
6. Документация, безопасность и соответствие требованиям
- Создание понятной технической документации для выполненной работы, включая архитектурные решения, руководства по эксплуатации (runbooks), планы миграции, записи конфигураций и операционные процедуры.
- Поддержка стандартных операционных процедур и руководств по реагированию на инциденты.
- Поддержка аудиторской деятельности ISO 27001 путем предоставления доказательств контроля инфраструктуры, истории изменений, контроля доступа, мониторинга и операционных процедур.
- Участие в процессах управления изменениями, включая оценку рисков, планирование реализации, планирование отката и подачу заявок в CAB (Change Advisory Board).
- Применение принципов наименьших привилегий, безопасной разработки по умолчанию (secure-by-design) и аудируемости во всей работе по инфраструктуре и эксплуатации.
Условия работы:
- Участие в дежурстве по производственным системам (on-call rotation), примерно 1 неделя из 4.
- Периодическая работа вне рабочего времени для планового обслуживания, релизов и реагирования на инциденты.
- Минимальные командировки, в основном между офисами CluneTech.
Требования:
- 5+ лет опыта в DevOps, SRE, облачной инженерии или инженерии инфраструктуры, включая не менее 3 лет практического опыта работы с AWS.
- Глубокий практический опыт работы с EC2, RDS, Aurora, ECS/Fargate, S3, VPC, IAM, Lambda, CloudWatch, Secrets Manager и QuickSight.
- Сильный опыт работы с Terraform, CloudFormation или AWS CDK.
- Опыт создания и поддержки конвейеров развертывания с использованием GitLab CI, GitHub Actions, AWS CodePipeline или аналогичных.
- Сильный опыт администрирования PostgreSQL, включая репликацию, настройку производительности, резервное копирование и восстановление, обновления и pg_dump / pg_restore.
- Рабочие знания SQL Server на RDS, включая оптимизацию запросов, управление индексами, резервное копирование и задачи обслуживания.
- Продвинутый опыт администрирования Linux, предпочтительно с дистрибутивами Amazon Linux и на базе RHEL.
- Сильные навыки написания скриптов Bash и автоматизации.
- Практический опыт работы с VPC, маршрутизацией, подсетями, группами безопасности, NACL, VPN и Transit Gateway.
- Глубокое понимание IAM, шифрования, управления секретами, патчинга, контроля доступа и проектирования с минимальными привилегиями.
- Практический интерес или опыт в разработке с использованием ИИ, Amazon Bedrock, Kiro, LLM, инженерии подсказок (prompt engineering) или рабочих процессов разработки с поддержкой ИИ.
- Способность создавать понятную, полную, готовую к аудиту техническую документацию.
- Отличное знание письменного и устного английского языка, с умением объяснять сложные технические темы разным аудиториям.
Желательные навыки:
- Опыт работы в регулируемых финансовых услугах, платежах, банковском деле или аналогичных сферах.
- Опыт работы с ISO 27001, SOC 2, PCI DSS или другими аудитами/соответствием требованиям.
- AWS Solutions Architect Professional, AWS DevOps Engineer Professional, AWS Database Specialty или эквивалент.
- Опыт междвижковых миграций, особенно с SQL Server на PostgreSQL с использованием AWS DMS или нативных инструментов.
- Direct Connect, Transit Gateway, Site-to-Site VPN, IPAM и многоаккаунтные сети.
- Оптимизация затрат AWS, анализ CUR, панели мониторинга биллинга QuickSight, Savings Plans, Reserved Instances и стратегии тегирования.
- Docker, определения задач ECS, Fargate, обнаружение сервисов и концепции Service Mesh.
- Amazon Bedrock, Kiro, SageMaker, модели Claude, разработка с использованием ИИ или автоматизация операций с поддержкой ИИ.
- Опыт работы с агрегацией журналов, распределенным трассированием, SLO (Service Level Objectives), панелями мониторинга и рабочими процессами реагирования на инциденты.
Преимущества:
Что вы получите?
- Гибкая политика работы с сочетанием удаленной работы и работы в офисе*
- Карты Multisport
- 22 дня ежегодного отпуска для всех сотрудников плюс дополнительные дни в зависимости от стажа работы
- Lifework days: полдня каждый квартал для решения личных дел
- Гибкий график работы: возможность отработать 40 часов за 4,5 дня
- Дополнительная медицинская страховка, включая стоматологическое и офтальмологическое обслуживание
- Командные мероприятия и вечеринки
- Страхование жизни
- Бонус за рекомендацию друга
- Скидки в различных магазинах, театрах, ресторанах