Быть в курсе
Назад к списку статей

Как собирать и обрабатывать в облаке данные о 350 млн товаров в день: кейс Sellematics

В кейсе делимся опытом масштабирования в облаке сервиса аналитики и исследований для eCommerce — Sellematics.

О клиенте

Sellematics — ведущий российский сервис аналитики в сфере e-commerce. Компания помогает мировым брендам и дистрибьюторам отслеживать динамику цен, репутацию и представленность на более чем 20 российских онлайн площадках. Компании также принадлежит сервис Sellmonitor, который помогает большим и маленьким селлерам увеличивать продажи, управлять рекламой и поставками на маркетплейсах.

Кроме того, компания предоставляет услуги аналитики в Е-соm на рынке KHP в рамках сервиса Sellscreen.io.

Задачи

→ Обеспечить стабильное и быстрое соединение.

→ Гарантировать высокую производительность и высокую скорость вычислений.

→ Гарантировать надежное хранение и защиту данных объемом в несколько десятков терабайт.

Помимо этого Sellematics важно иметь возможность масштабировать ресурсы при необходимости — объем обрабатываемых данных растет, поэтому клиенту нужны производительные и надежные решения на рынке. Важно, чтобы техническая поддержка оперативно помогала с настройкой серверов и решала возникающие вопросы.

Решение

Sellematics сотрудничает с Рег.ру с момента основания. В 2019 году компания арендовала 5 физических серверов. Сейчас компания использует современную DevOps-инфраструктуру, которая обеспечивает стабильность и высокую производительность работы платформы. В основе лежат более 20 высокопроизводительных физических серверов, высокоскоростные NVMe накопители Enterprise-класса.

По запросу клиента специалисты Рег.ру организовали серверное пространство так, чтобы физические серверы в стойках были поделены на конкретные группы. Так, в рамках одной группы все серверы имеют одни и те же характеристики, тот же набор дисков, процессоров и так далее. Такой подход позволяет унифицировать ИТ-инфраструктуру, упростить настройку и замену серверов.

Результаты

Сегодня Sellematics обрабатывает данные о 350 млн товаров в день на маркетплейсах:

  • изменение стока — количество доступного к продаже товара на конкретном складе;
  • изменения цен по дням для вычисления объема продаж каждого товара в штуках и деньгах по каждому дню;
  • информацию о продажах, поведении покупателей, рейтингах товаров, представленности товаров в категориях и поисковых запросах.

Сервис использует API маркетплейсов, веб-скрейпинг и собственные датчики для сбора актуальных данных. На основании полученных данных Sellematics анализирует тренды, выявляет сезонность, строит прогнозы будущих продаж, спроса и поведения рынка. Пользователи получают персонализированные рекомендации по управлению ассортиментом, ценообразованию и маркетинговым стратегиям.

За счет использования мощных облачных серверов, Sellematics может за несколько минут увеличивать или уменьшать вычислительные мощности в зависимости от текущей нагрузки — это критически важно при работе с большими данными и выполнении аналитических расчетов и генерации прогнозов.

Диски Enterprise-класса обеспечивают высокую скорость операций и надежность хранения информации, позволяют проводить большое количество операций записи без риска потери данных. А стабильный канал связи 800 Мбит/с помогает оперативно получать данные и обрабатывать их без задержек.

В ближайшем будущем компания планирует масштабировать ресурсы, чтобы увеличить количество обрабатываемых в сутки товаров до 500 млн единиц.

Почему выбрали Рег.ру

Широкий выбор серверов. Гибкий подход к управлению ресурсами и оптимизации расходов на IT-инфраструктуру.

Техническая поддержка 24/7. Специалисты Рег.ру готовы оказать помощь в решении любых вопросов, включая поддержку в настройке серверов.

Гибкое масштабирование и конфигурирование. Масштабируемая инфраструктура, с которой легко адаптировать ресурсы под растущие потребности рынка и обеспечить бесперебойную работу платформы.

Распределенная сеть ЦОД. Дата-центры компании соответствуют уровню надежности и отказоустойчивости Tier III. За счет дублирования всех систем и двойному резервированию аптайм составляет 99,98%.

Производительные системы хранения данных. Использование дисков Enterprise-класса повышает IOPS и сокращает время отклика, что критически важно при работе с Big Data.

Отзыв клиента

«Отказоустойчивая ИТ-инфраструктура позволяет нам оперативно собирать и обрабатывать данные без задержек, а также рассчитывать и агрегировать большие объемы метрик и показателей. Уже сегодня мы ежедневно обрабатываем более 350 млн товаров с российских площадок, а в ближайшее время планируем масштабировать ресурсы, чтобы увеличить количество до 500 млн в сутки.»

Антон Злотников, технический директор Sellematics

Интеграция S3 с другими AWS-сервисами (Lambda, EC2 и CloudFront)
В этой статье мы рассмотрим, как Amazon S3 взаимодействует с ключевыми сервисами AWS: Lambda, EC2 и CloudFront. (далее…)
Подробнее
VDI: как работает виртуализация рабочих столов и зачем она бизнесу
В статье разберем, что такое VDI, каким образом работает виртуализация десктопов и кому подойдет этот подход. Также рассмотрим, какие задачи...
Подробнее
Как поддержать пиковые нагрузки и отказоустойчивость в маркетинговых проектах: кейс Novomail.ru
Для платформы массовых email-рассылок высокая доступность, отказоустойчивость и способность быстро масштабироваться под резкие пиковые нагрузки — ключевые задачи. Рассказываем, как...
Подробнее
Как Data Warehouse (DWH) помогает экономить бизнесу? Разбираемся в корпоративном хранилище данных
Современные компании работают с огромными объемами информации: данными о клиентах, продажах, логистике, и многом другом. Чтобы принимать обоснованные решения, руководителям...
Подробнее
Что такое OLAP-система: объясняем простыми словами
В работе онлайн-бизнеса важную роль играют данные и работа с ними. Эти данные имеют разные форматы и могут собираться из...
Подробнее
HashiCorp Vault: как он помогает защитить ваши секреты
В любой современной ИТ-инфраструктуре количество конфиденциальных данных стремительно растет: пароли баз данных, API-ключи, сертификаты, токены доступа. Хранить их в коде,...
Подробнее
Что такое MQTT-сервер
Давайте погрузимся в мир интернета вещей и разберемся с ключевым элементом его коммуникаций ― MQTT-сервером. Как организовать поток данных от...
Подробнее
Как настроить резервное копирование в S3
Резервное копирование данных из объектного хранилища S3 — это процесс создания копий данных, которые хранятся в Amazon S3 или аналогичных...
Подробнее
Как настроить синхронизацию часов с помощью NTP
Network Time Protocol (NTP) — сетевой протокол для синхронизации системного времени компьютеров через сетевое соединение. При установке соединения NTP-клиент (ваш...
Подробнее
Что такое ETL и с какими задачами поможет
Каждый современный бизнес работает с данными — много и постоянно. Но просто собрать данные недостаточно. Чтобы они стали полезными, их...
Подробнее