Ваш город ?

Старший инженер данных по направлению RAG

  • Data Science
  • Москва
  • Более 5 лет
Чем предстоит заниматься
  • Анализ источников данных для их интеграции в платформу RAG o Изучение атрибутного состава и модели данных o Поиск атрибутов – полей данных, содержащих необходимую контекстную информацию для RAG o Определение технического способа интеграции
  • Репликация баз данных для подключения к платформе RAG o Разработка пакетных (batch) и потоковых (streaming) ETL-процессов репликации данных в интеграционный слой хранения.
  • Векторизация данных o Разработка сервисов пакетной и потоковой обработки контекстных данных для вычисления их векторного представления (embedding) и сохранения в векторном хранилище платформы RAG
  • Исследование методов повышения эффективности обработки и хранения контекстных данных для RAG
  • Эффективное взаимодействие в составе команды со специалистами по анализу данных и специалистами по развитию инфраструктуры
Наши пожелания к кандидатам
  • Высокий уровень знаний языка программирования Python – структуры данных, итераторы и декораторы, параллельное и асинхронное программирование, объектно-ориентированное и функциональное программирование.
  • Опыт работы в среде JupyterLab/JupyterHub.
  • Опыт реализации промышленных отказоустойчивых сервисов на Python – сервисы пакетной загрузки и трансформации данных (ETL) на платформах Apache Airflow, Argo Workflows; веб-сервисы на основе библиотеки FastAPI.
  • Понимание принципов микросервисной архитектуры.
  • Понимание принципов распределенных вычислений и обработки данных.
  • Понимание принципов потоковой обработки данных.
  • Хорошие знания платформы Apache Spark – опыт использования библиотеки pyspark, влияние конфигурации приложения pyspark на производительность и эффективность обработки данных, отладка и анализ эффективности приложений pyspark с помощью Spark History Server.
  • Опыт асинхронного программного взаимодействия с веб-сервисами по REST API с использованием библиотек – aiohttp, httpx.
  • Отличные знания SQL – создание сложных запросов с использованием табличных выражений (CTE) и оконных функций.
  • Хорошие знания и опыт использования реляционных баз данных Oracle, PostgreSQL
  • Понимание особенностей обработки и хранения аналитических данных (OLAP), понимание отличий колоночных баз данных от строковых, знание колоночных форматов хранения данных – parquet, orc
  • Хорошие знания и опыт использования хранилищ больших данных – Hadoop/HDFS, S3, форматы таблиц Hive, Iceberg
Личностные и коммуникативные навыки (Soft Skills)
  • Проактивный подход к работе – способность и желание искать и предлагать методы и варианты решения задач.
  • Общий позитивный настрой и активная жизненная позиция.
  • Умение и желание работать в команде, делиться опытом с коллегами и учиться новым практикам.
  • Открытость в коммуникации трудностей, препятствующих решению задач.
Будет дополнительным преимуществом
  • Базовые знания языков программирования Scala, Java, Groovy
  • Знание и опыт использования платформ потоковой обработки данных Apache Kafka, Apache Flink – чтение и запись потока данных Apache Kafka с помощью библиотек aiokafka, confluent-kafka, kafka-python, разработка потоковых приложений Apache Flink.
  • Знание базовых принципов обработки естественных языков (NLP).
  • Общее представление о нейросетевых моделях машинного обучения и о больших языковых моделях LLM.
Что мы предлагаем
  • Работу в атмосфере взаимопонимания и творческого сотрудничества увлеченных своим делом профессионалов, готовых всегда прийти на помощь.
  • Интересные и нетривиальные задачи.
  • Возможность принять участие в создании и развитии инновационного программного продукта.
  • Оформление по ТК РФ.
  • График работы 5/2 c возможностью частичной или полностью удаленной работы.
  • Достойную и полностью «белую» заработную плата (уровень заработной платы обсуждается с успешным кандидатом).
Как с нами связаться
По всем интересующим вопросам обращайтесь к сотруднику отдела по подбору персонала: Пономарева Анастасия Сергеевна
APONOMAREVA7@ALFABANK.RU

Откликнуться на вакансию

Расскажите нам о себе и мы обязательно свяжемся с вами

Фамилия*
Имя*
Отчество*
Электронная почта*
Телефон*
* – поля обязательные для заполнения
Вы можете  своим резюме тут (.doc,.pdf,.docx,.rtf)

Перед отправкой резюме убедитесь, что во вложенном файле указаны контактные данные (email, телефон) для обратной связи

Или вставьте ссылку на резюме hh.ru или superjob.ru
Поделиться вакансией