
Старший инженер данных по направлению RAG
Чем предстоит заниматься
- Анализ источников данных для их интеграции в платформу RAG o Изучение атрибутного состава и модели данных o Поиск атрибутов – полей данных, содержащих необходимую контекстную информацию для RAG o Определение технического способа интеграции
- Репликация баз данных для подключения к платформе RAG o Разработка пакетных (batch) и потоковых (streaming) ETL-процессов репликации данных в интеграционный слой хранения.
- Векторизация данных o Разработка сервисов пакетной и потоковой обработки контекстных данных для вычисления их векторного представления (embedding) и сохранения в векторном хранилище платформы RAG
- Исследование методов повышения эффективности обработки и хранения контекстных данных для RAG
- Эффективное взаимодействие в составе команды со специалистами по анализу данных и специалистами по развитию инфраструктуры
Наши пожелания к кандидатам
- Высокий уровень знаний языка программирования Python – структуры данных, итераторы и декораторы, параллельное и асинхронное программирование, объектно-ориентированное и функциональное программирование.
- Опыт работы в среде JupyterLab/JupyterHub.
- Опыт реализации промышленных отказоустойчивых сервисов на Python – сервисы пакетной загрузки и трансформации данных (ETL) на платформах Apache Airflow, Argo Workflows; веб-сервисы на основе библиотеки FastAPI.
- Понимание принципов микросервисной архитектуры.
- Понимание принципов распределенных вычислений и обработки данных.
- Понимание принципов потоковой обработки данных.
- Хорошие знания платформы Apache Spark – опыт использования библиотеки pyspark, влияние конфигурации приложения pyspark на производительность и эффективность обработки данных, отладка и анализ эффективности приложений pyspark с помощью Spark History Server.
- Опыт асинхронного программного взаимодействия с веб-сервисами по REST API с использованием библиотек – aiohttp, httpx.
- Отличные знания SQL – создание сложных запросов с использованием табличных выражений (CTE) и оконных функций.
- Хорошие знания и опыт использования реляционных баз данных Oracle, PostgreSQL
- Понимание особенностей обработки и хранения аналитических данных (OLAP), понимание отличий колоночных баз данных от строковых, знание колоночных форматов хранения данных – parquet, orc
- Хорошие знания и опыт использования хранилищ больших данных – Hadoop/HDFS, S3, форматы таблиц Hive, Iceberg
- Проактивный подход к работе – способность и желание искать и предлагать методы и варианты решения задач.
- Общий позитивный настрой и активная жизненная позиция.
- Умение и желание работать в команде, делиться опытом с коллегами и учиться новым практикам.
- Открытость в коммуникации трудностей, препятствующих решению задач.
- Базовые знания языков программирования Scala, Java, Groovy
- Знание и опыт использования платформ потоковой обработки данных Apache Kafka, Apache Flink – чтение и запись потока данных Apache Kafka с помощью библиотек aiokafka, confluent-kafka, kafka-python, разработка потоковых приложений Apache Flink.
- Знание базовых принципов обработки естественных языков (NLP).
- Общее представление о нейросетевых моделях машинного обучения и о больших языковых моделях LLM.
Что мы предлагаем
- Работу в атмосфере взаимопонимания и творческого сотрудничества увлеченных своим делом профессионалов, готовых всегда прийти на помощь.
- Интересные и нетривиальные задачи.
- Возможность принять участие в создании и развитии инновационного программного продукта.
- Оформление по ТК РФ.
- График работы 5/2 c возможностью частичной или полностью удаленной работы.
- Достойную и полностью «белую» заработную плата (уровень заработной платы обсуждается с успешным кандидатом).
Как с нами связаться
По всем интересующим вопросам обращайтесь к сотруднику отдела по подбору персонала: Пономарева Анастасия Сергеевна
APONOMAREVA7@ALFABANK.RUОткликнуться на вакансию
Расскажите нам о себе и мы обязательно свяжемся с вами