Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Описание вакансии
Текст:
TL;DR
Дата-инженер (Python/Spark): Разработка и поддержка высоконагруженных ETL/ELT-процессов для хранилища данных VK Tech с акцентом на оптимизацию распределенных вычислений в ClickHouse и YTsaurus. Фокус на миграции вычислительной платформы на Hadoop/Spark, проектировании схем DWH и обеспечении надежности пайплайнов.
Локация: Москва (офис, гибрид или удаленно)
Компания
VK Tech создает продукты для оптимизации ресурсов бизнеса, решая задачи хранения, обработки и аналитики данных.
Что делать
- Разрабатывать и поддерживать ETL/ELT-процессы с использованием Python и Airflow.
- Оптимизировать распределенные вычисления и запросы под ClickHouse и YTsaurus.
- Проектировать и поддерживать архитектуру хранилища данных (схемы, витрины, SCD).
- Обеспечивать мониторинг, надежность и наблюдаемость ETL-процессов.
- Помогать аналитикам в оптимизации SQL-запросов и структур данных.
- Участвовать в миграции вычислительной платформы с YT на Hadoop/Spark.
Требования
- Опыт разработки и поддержки ETL-процессов на Python и Airflow.
- Уверенное знание SQL (JOIN, оконные функции, CTE, агрегации).
- Понимание концепций DWH: витрины данных, SCD, слои raw/ods/cdm/dds.
- Опыт оптимизации запросов в распределенных системах (ClickHouse или Spark).
- Владение Git (ветки, коммиты, pull requests, code review).
- Русский язык: уровень C1+
Хорошо, если есть
- Реальный опыт работы с YTsaurus (YT).
- Коммерческий или уверенный учебный опыт с Hadoop/Spark.
- Опыт миграции пайплайнов между разными вычислительными платформами.
- Навыки работы с DBT.
- Понимание полного жизненного цикла данных (загрузка, трансформация, выгрузка).
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →