Вакансия из Telegram канала - Название доступно после авторизации
Пожаловаться
Зарплата и рынок
ЗП не указана
На похожих ролях по рынку
$2.4к$3.4кмедиана$4.1к
49 в выборке
На международном рынке: $57к/год ($42к - $63к)
92
Крутая вакансия
развернуть
Работа над GigaChat Vision с датасетами в миллиарды изображений - это топовая возможность для дата-инженера войти в cutting-edge AI на огромных масштабах.
Кликните для подробной информации
Зарплата не указанаПередовой стекТрендовый доменМасштаб задачПотенциал ростаПрозрачные задачи
Оценка от Hirify AI
Мэтч & Сопровод
Покажет вашу совместимость и напишет письмо
Создать профиль и узнать мэтч
Описание вакансии
Data Engineer for VLM Training Data (GigaChat Vision)
#офис
Москва Компания: Сбер
🔹Обязанности
-Собирать и структурировать потребности ML-команды в данных: какие данные нужны для обучения, дообучения, оценки и улучшения VLM.
-Предлагать и реализовывать идеи пайплайнов очистки, фильтрации, дедупликации, категоризации и генерации данных.
-Ориентироваться в современных практиках построения датасетов для Vision-Language Models: image-text pairs, synthetic data, filtering, quality scoring, data mixture design, dataset versioning.
-Отвечать за инфраструктуру хранения и подготовки данных, включая:
импорт данных из различных источников: production, Common Crawl, open-source datasets, generated data;
валидацию и контроль качества данных;
хранение и версионирование датасетов;
экспорт данных в форматы, пригодные для обучения моделей.
-Проектировать и реализовывать пайплайны обработки данных на большом масштабе, включая десятки миллиардов изображений.
-Разрабатывать пайплайны генерации синтетических данных для обучения и улучшения VLM.
-Собирать статистику по данным, строить отчёты и визуализации для анализа состава, качества и покрытия датасетов.
-Обеспечивать воспроизводимость, наблюдаемость и надёжность data-процессов.
-Работать в тесной связке с ML-инженерами, исследователями и инфраструктурной командой.
🔹Требования
-Сильный опыт в data engineering и построении production-grade data pipelines.
-Уверенное владение Python, включая multiprocessing, multithreading и async-подходы.
-Опыт работы с большими объёмами данных и распределённой обработкой.
-Практический опыт с объектными хранилищами, в частности S3 или аналогами.
-Опыт работы с YTsaurus или похожими системами для распределённого хранения и обработки данных.
-Понимание принципов валидации, очистки, дедупликации и версионирования датасетов.
-Опыт работы с DVC, Git, Docker.
-Опыт работы с PostgreSQL или другими реляционными базами данных.
-Умение проектировать устойчивые пайплайны: от импорта данных до финального экспорта в training-ready формат.
-Способность самостоятельно разбираться в нечетко сформулированных задачах и доводить их до работающего решения.
-Готовность работать на стыке engineering и ML research.
Показать контакты
IT Jobs | |
Будьте осторожны: если работодатель просит войти в их систему, используя iCloud/Google, прислать код/пароль, запустить код/ПО, не делайте этого - это мошенники. Обязательно жмите "Пожаловаться" или пишите в поддержку. Подробнее в гайде →
Текст вакансии взят без изменений
Источник - Telegram канал. Название доступно после авторизации