Старший инженер данных

Москва
3-5 лет

Чем предстоит заниматься

Разработка платформ AutoML и AlfaPredict для автоматизации построения и сопровождения моделей машинного обучения.

Анализ источников данных для их использования в моделях AutoML;

Разработка сервисов и ETL процессов обработки данных для их использования в моделях AutoML;

Изучение и внедрение методов автоматизированного построения признаков (фичей) для моделей машинного обучения;

Эффективное взаимодействие в составе команды со специалистами по анализу данных и специалистами по развитию инфраструктуры.

Наши пожелания к кандидатам

Высокий уровень знаний языка программирования Python – структуры данных, итераторы и декораторы, параллельное и асинхронное программирование, объектно-ориентированное и функциональное программирование;

Опыт работы в среде JupyterLab/JupyterHub;

Опыт реализации промышленных отказоустойчивых сервисов на Python – сервисы пакетной загрузки и трансформации данных (ETL) на платформах Apache Airflow, Argo Workflows; веб-сервисы на основе библиотеки FastAPI;

Понимание принципов микросервисной архитектуры;

Понимание принципов распределенных вычислений и обработки данных;

Понимание принципов потоковой обработки данных;

Хорошие знания платформы Apache Spark – опыт использования библиотеки pyspark, влияние конфигурации приложения pyspark на производительность и эффективность обработки данных, отладка и анализ эффективности приложений pyspark с помощью Spark History Server;

Опыт асинхронного программного взаимодействия с веб-сервисами по REST API с использованием библиотек – aiohttp, httpx;

Отличные знания SQL – создание сложных запросов с использованием табличных выражений (CTE) и оконных функций;

Хорошие знания и опыт использования реляционных баз данных Oracle, PostgreSQL;

Понимание особенностей обработки и хранения аналитических данных (OLAP), понимание отличий колоночных баз данных от строковых, знание колоночных форматов хранения данных – parquet, orc;

Хорошие знания и опыт использования хранилищ больших данных – Hadoop/HDFS, S3, форматы таблиц Hive, Iceberg.

Личностные и коммуникативные навыки (Soft Skills):

Проактивный подход к работе – способность и желание искать и предлагать методы и варианты решения задач;

Общий позитивный настрой и активная жизненная позиция;

Умение и желание работать в команде, делиться опытом с коллегами и учиться новым практикам;

Открытость в коммуникации трудностей, препятствующих решению задач.

Будет дополнительным преимуществом:

Базовые знания языков программирования Scala, Java, Groovy;

Знание и опыт использования платформ потоковой обработки данных Apache Kafka, Apache Flink – чтение и запись потока данных Apache Kafka с помощью библиотек aiokafka, confluent-kafka, kafka-python, разработка потоковых приложений Apache Flink;

Знание базовых принципов обработки естественных языков (NLP);

Общее представление о нейросетевых моделях машинного обучения и о больших языковых моделях LLM.

Что мы предлагаем

Работу в атмосфере взаимопонимания и творческого сотрудничества увлеченных своим делом профессионалов, готовых всегда прийти на помощь.

Интересные и нетривиальные задачи.

Возможность принять участие в создании и развитии инновационного программного продукта.

Оформление по ТК РФ.

График работы 5/2 c возможностью частичной или полностью удаленной работы.

Достойную и полностью «белую» заработную плата (уровень заработной платы обсуждается с успешным кандидатом).

Как с нами связаться

По всем интересующим вопросам обращайтесь к сотруднику отдела по подбору персонала: Пономарева Анастасия Сергеевна

APONOMAREVA7@ALFABANK.RU

Откликнуться на вакансию

Расскажите нам о себе, и мы обязательно свяжемся с вами