📍 Москва (м. Тверская)Полная удалёнка
Специализация
Data Science / Machine Learning
Flocktory — аккредитованная, динамично развивающаяся IT-компания, один из лидеров рынка Marketing Technologies.
Продукты: SaaS-платформа для маркетинга (MarTech); Data-продукты (AdTech).
Клиенты:
- 200+ крупных E-Commerce/ритейлеров, банков, страховых компаний (Детский мир, М.Видео, АльфаБанк, Газпромбанк, S7, Билайн, МТС, Мегафон, L'Oreal и др.).
- 30+ FMCG-компаний, брендов (Mars, Coca-Cola etc.).
BigData: Благодаря интеграции нашей платформы с сайтами таких крупных игроков мы можем видеть больше 35% всех транзакций Рунета и данные о покупках и поведении более 100 миллионов человек.
Ценность наших продуктов: Мы помогаем E-Commerce и брендам:
- На основе предиктивной аналитики делать коммуникацию с покупателями максимально персонализированной.
- И благодаря этому увеличивать лояльность покупателей, конверсию и средний чек.
Оборот: 700 млн. рублей в год (наша выручка стабильно растет на 40% от года к году)
Награды: Только за последние несколько лет мы стали:
- Победителем в номинации «Innovation Award for email marketing» премии Mar Tech Star.
- Победителем в номинации «Автоматизация маркетинга» и «Лояльность и Конверсия» крупнейшей отраслевой премии «Большой Оборот.
- Лауреатом премии Adindex Awards в номинации Direct Marketing и CRM, входит в число лидеров профессионального рейтинга Digital Index 2017.
- Одним из первых участников проекта AI Russia — открытой библиотеки проектов, созданных с использованием искусственного интеллекта (проект Альянса по развитию искусственного интеллекта, в который входят Mail.ru Group, МТС, «Яндекс», Сбер, «Газпром нефть», РФПИ).
Технологии/инструменты
SQLApacheScalaPython
Что и как мы делаем
Аналитическое хранилище для BI, data science и бизнес-подразделений:
- Прорабатываем модель этих данных и решаем, как и где они будут храниться. Разные продукты = разные профили нагрузки; разные профили нагрузки = разные БД. Что Postgres-у хорошо, то для Redis-а смерть, и наоборот. Поэтому мы используем микс MPP-баз, традиционных RDBMS, Kafka, NoSQL и распределенных файловых систем.
- Делаем data-self service. Чтобы полезно работать с данными, аналитически настроенные подразделения умеют в SQL и Python, а менее технические пользователи хотят красивые однокнопочные инструменты и chatops.
- Автоматизируем работу с метаданными. Это чтобы аналитики всегда знали, какую схему имеет таблица X, что в ней означает столбец Y и для каких запросов оптимизирована таблица Z. Работа с Hive metastore, Glue, Apache Atlas и т. п. — это всё здесь.
ETL- и аналитические процессы:
- Пакетные Spark-джобы на Scala.
- Стриминговые Flink-джобы — опять-таки на Scala.
- Пайплайны на Airflow.
- Кластер Kafka connect.
В общем, то, что называется “data-intensive” приложения, и порою довольно-таки за рамками простого filter + save. Иногда ещё и в реальном времени.
Качество данных:
Вот как мы заботимся о качестве данных:
- Поднимаем на новые высоты автоматизированную и развесистую data quality систему на базе Airflow.
- Даём нетехническим пользователям интерактивные дашборды, где хорошо видно, всё ли в порядке с данными.
- Развиваем систему мониторинга и алертинга, постигая некоторые неочевидные тонкости Prometheus, Grafana и Cloudwatch.
Производительность ETL и аналитики:
Увлеченно воюем с проблемами вроде таких:
- Почему в стриминговой джобе без состояния столь неприлично долгие full GC-паузы.
- Затюнить использование off-heap памяти в Flink и при этом не сойти с ума.
- Оптимизировать вон тот запрос из 5 джойнов, который стал в последнее время подлагивать.
Кого ищем
Человека, которого описание работы выше не оттолкнуло, а наоборот. Не знаете чего-то из этого? Не проблема, мы тоже много чего не знаем, будем разбираться вместе. Особенно легко будет разобраться, если вы:
- Работали с одним из open-source планировщиков: Apache Airflow, Apache Oozie, Luigi, да хоть cron.
- Умеете писать SQL-запросы с агрегацией, вложенностью и разными видами join-ов (а аналитические функции мы и сами каждый раз пишем со словарём).
- Писали / пишете на Scala (опыт type class-эквилибристики не обязателен).
- Знаете или готовы изучить Python.
- Работали с Apache Spark (batch / streaming / structured streaming) и / или Apache Flink.
- Запускали сервисы в AWS / GCE / Azure.
Что предлагаем
- Официальное трудоустройство, белая зарплата.
- ДМС со стоматологией после испытательного срока.
- Частичную компенсацию аренды жилья рядом с офисом.
- Внешние программы обучения и участие в конференциях.
- Современный комфортный офис в двух минутах ходьбы от метро Тверская.
- Классную команду профессионалов, где ценят поддержку, возможность дать и получить обратную связь и открытую коммуникацию с любым членом команды.