Мы команда инженеров данных, и продукт нашей команды — Data WareHouse (хранилище данных), которое мы строим для нужд бизнес-подразделений. Нашими пользователями являются как руководители Маркета, которым нужна отчётность для принятия решений, так и эксперты в области глубокого анализа данных. Можно утверждать, что все бизнес-подразделения Маркета являются потребителями поставляемых нами данных.
Технологически ядро хранилища построено на системах хранения данных Yandex Tables (Hadoop собственной разработки), Greenplum и СlickHouse. Разработка процессов ETL идёт на собственном фреймворке, который создан внутри Яндекса. Для организации модели хранения данных на разных уровнях применяются подходы от Data Lake до Data Vault.
Наше хранилище данных сейчас одно из самых крупных в России — порядка 10 петабайт — и с учётом темпов роста бизнеса оно будет самым большим. Стоит отметить, что к нему предъявляются высокие требования по надёжности, что ставит перед нашей командой далеко не тривиальные задачи, для которых нет готовых решений.
Будет плюсом:
Яндекс.Маркет (>100 тыс. партнёров, >3000 сотрудников, ~9.8 млн уникальных пользователей) — это сервис для поиска и выбора товаров, а также места их покупки. Входит в топ крупнейших маркетплейсов и является одним из самых востребованных сервисов Яндекса.