Главный SRE-инженер

Поделиться вакансией:
  • Москва
Чем предстоит заниматься
  • Развитие SRE-направления, включая внедрение практик надежности, формирование стандартов эксплуатации и участие в разработке архитектурных решений
  • Настройка и сопровождение контейнерной платформы на базе Docker и Kubernetes
  • Разработка и сопровождение инфраструктуры как кода с использованием Terraform, Ansible и Helm
  • Построение и развитие CI/CD-процессов на базе GitLab CI
  • Организация и развитие систем мониторинга и логирования на базе VictoriaMetrics, Grafana и ELK, разработка кастомных экспортеров
  • Участие в расследовании инцидентов, проведение postmortem-анализов и снижение MTTR
  • Оптимизация процессов реагирования на инциденты и предотвращение повторных сбоев
  • Внедрение и контроль SLO, управление Error Budget, разработка дашбордов надежности и проведение регулярных Reliability Review
  • Оптимизация инфраструктуры по производительности и стоимости, включая capacity planning, анализ узких мест и cost optimization в облаке.
  • Обеспечение стабильности, отказоустойчивости и масштабируемости продуктивных систе
  • Настройка процессов резервного копирования, восстановления и реализации планов аварийного восстановления (Disaster Recovery)
  • Внедрение практик тестирования устойчивости к сбоям (Chaos Engineering)
  • Автоматизация рутинных операций и реализация механизмов самовосстановления (self-healing)
  • Участие в архитектурных обсуждениях и выборе технологических решений
Наши пожелания к кандидатам
  • Опыт работы в роли Site Reliability Engineer (SRE) не менее 5 лет
  • Глубокие практические знания Linux, включая эксплуатацию, диагностику, тюнинг и анализ узких мест
  • Уверенное понимание принципов контейнеризации и оркестрации, включая использование Docker и Kubernetes
  • Опыт эксплуатации и оптимизации PostgreSQL, MongoDB и Kafka в продуктивных средах
  • Глубокое понимание архитектурных принципов высокой доступности и отказоустойчивости распределённых систем
  • Опыт построения и поддержки процессов CI/CD, предпочтительно на базе GitLab CI
  • Навыки организации системы мониторинга и логирования с использованием Prometheus, VictoriaMetrics, Grafana, ELK/Logstash
  • Опыт применения подходов Infrastructure as Code и работы с инструментами Terraform, Ansible, Helm
  • Знание и понимание концепций Observability, SRE и Performance Tuning
  • Опыт работы с Yandex Cloud, а также другими облачными платформами или on-prem инфраструктурами
  • Опыт эксплуатации высоконагруженных систем с высокими требованиями к доступности и производительности
  • Опыт участия в дежурствах и реагировании на инциденты в продуктивных системах
  • Развитые навыки анализа и устранения инцидентов, включая определение и устранение первопричин
Что мы предлагаем
  • Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия по результатам KPI
  • Гибкий график работы: вы сможете планировать время так, как удобно вам и вашей команде
  • Гибридный формат работы в уютном ИТ-хабе в Москве
  • Сложные и интересные задачи, современный стек технологий
  • Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного
  • Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни
  • Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр
  • Доступ к бесплатным корпоративным библиотекам Alpina Digital, МИФ и бизнес-изданий
Как с нами связаться
По всем интересующим вопросам обращайтесь к сотруднику отдела по подбору персонала: Иванова Ирина Викторовна
IIVANOVA5@ALFABANK.RU

Откликнуться

Имя
Фамилия
Электронная почта
Телефон
На этот номер пришлём СМС с кодом подтверждения.
Файл с резюме
Ссылка на резюме
до 10 МБ
(.doc,.pdf,.docx,.rtf)

Поделиться вакансией: