Как прогнозировать цены с помощью машинного обучения
Когда ваш бизнес растет и товаров становится больше, то управлять ими вручную невозможно. Чтобы устанавливать конкурентные цены, корректировать ассортимент и оптимизировать бизнес-процессы, ритейлеры используют алгоритмы машинного обучения. Но с ними не все так просто.
В этой статье я опишу методы восполнения недостающих данных: от их покупки до моделирования с помощью алгоритмов машинного обучения.
Первый шаг в использовании алгоритмов — их обучение на исторических данных (обучение с учителем, supervised learning), где есть целевая функция. Например, продажи, выручка, прибыль или доля рынка.Эта функция — основной KPI ритейлера, на прогнозирование которого и будет работать данный алгоритм.
Модель анализирует переменные, которые влияют на продажи — цены, трафик и другие— и выводит функцию, которая максимально точно описывает продажи. После этого обученный алгоритм рекомендует с высокой точностью, какие значения переменных максимально увеличат продажи в будущем.
Чем больше данных в распоряжении алгоритма, тем точнее он работает. Поэтому данные — важнейшее условие конкурентоспособности ритейлера.
Причины отсутствия данных
Главная сложность, с которой сталкиваются ритейлеры при использовании алгоритмов, — пропуски или противоречия в исторических данных. Из-за этого сложно ими пользоваться нормально.
Причины:
- Менялся формат данных.
Различия внутренних систем, ИТ-решений, подходов к сбору данных (по дням или по транзакциям) приводят к тому, что данные в разные периоды жизни компании собираются в разных форматах . - Данные собирались для разных целей.
Если данные собираются в обобщенном виде, например, для расчета премии категорийным менеджерам и не категорируются, они, как правило, не пригодны для обучения алгоритмов. - Ритейлер недавно вышел на рынок.
На начальном этапе 90% продаж зависят от трафика сайта. Поэтому невозможно определить, как цены влияют на продажи в течение этого периода. - Горящие распродажи.
Если ритейлер работает в режиме flash sales (запуск кратковременных распродаж разных категорий или брендов), алгоритмы не могут использовать полученные неоднородные данные.
Если по какой-либо причине данных недостаточно для обучения алгоритма и прогнозирования, ритейлер должен постараться выжать все возможное из доступного объема данных, смоделировать или купить недостающие данные.
Как работать с существующими данными
Данные, независимо от источника, должны быть в едином формате. Если уже собран определенный объем данных, то ритейлеру потребуется около года, чтобы собрать данные в новом формате (например, включающие цены и акции конкурентов), прежде чем их можно будет использовать в алгоритмах.
Еще один путь — купить недостающие данные.
В то же время для создания моделей прогнозирования данные о конкурентах не нужны.
Такие модели менее точны, более трудоемки, требуют допущений и моделирования отсутствующей информации, но используются достаточно широко.
Как смоделировать недостающие данные
Есть методы, которые прогнозируют недостающие значения на основе существующих данных об определенных переменных. Например, у ритейлера есть данные о своих ценах и продажах за два года, а также о продажах конкурента за полтора года. На основе этой информации можно определить, какими были цены конкурента за отсутствующий период.
Для решения таких задач, как правило, используются классификаторы. Они прогнозируют недостающие значения на основе других независимых переменных, значения которых известны.
Рассмотрим типы «умного» заполнения отсутствующих данных.
1. Предиктивная модель: чтобы получить прогноз о недостающих данных, все данные нужно разделить на две части.
Первая часть — известные данные, вторая — недостающие. Первый массив будет играть роль тренировочного для обучения модели, а данные из второй части станут целевыми переменными для прогноза.
В этой модели, бинарный классификатор будет отвечать на вопрос, произошло ли то или иное событие (например, были ли товары на полке). Категорийный классификатор — присвоит товар определенному сегменту (например, ценовому сегменту) ;
2. Заполнение методом KNN (k-nearest neighbor): предсказывает недостающие значения на основе ближайшей к целевому показателю переменной.
Близость переменных определяется на основании так называемой расчетной дистанции между ними.
Существует пять основных типов алгоритмов-классификаторов:
- логистическая регрессия;
- древо принятия решений;
- нейронные сети;
- семейство бустеров;
- Random Forest.
Для прогнозирования конечного целевого показателя — продаж — используются регрессоры. Они предсказывают не сегмент или вероятность, а вероятное числовое значение.
Самые распространенные типы регрессоров — линейная и полиномиальная регрессия, нейронные сети, регрессионные деревья и упомянутый выше Random Forest.Как использовать алгоритмы машинного обучения в работе с данными
Если у ритейлера собран большой объем данных, можно использовать нейронные сети, чтобы с высокой точностью рекомендовать ассортимент или цены для максимального увеличения продаж. Если же их мало, можно использовать другие алгоритмы, которым нужно меньше данных.
Например, если у ритейлера есть достаточное количество исторических данных только о 30% товаров, а также небольшой трафик и редкие продажи, нейронная сеть не сможет работать. В таком случае, можно использовать алгоритмы-деревья для отдельных продуктов.
Примеры древовидного алгоритма — XGboost, LightGBM и CatBoost.Этот тип алгоритма может прогнозировать оптимальные цены на основе 150-дневной истории активных продаж. Однако, у него есть недостаток: он не умеет учитывать взаимозависимость цен на разные товары. Такой алгоритм можно использовать для KVI-товаров, а к остальным — применять простые сценарии переоценки (rule-based pricing).
Чтобы вычислить эластичность цены для 20-30 товаров, ритейлер может использовать регрессию, добавляя три-четыре переменные. Регрессию можно использовать для принятия высокоуровневых решений: например, стоит или нет повышать цены.
Пример: линейная или полиномиальная регрессия (метод опopных векторов).Этот алгоритм не определяет конкретную цену, необходимую для максимального увеличения продаж и маржи, но показывает тенденцию.
Другой метод, который используется, когда ритейлеру не хватает данных, это A/B-тестирование на основе аналитики и статистики. Начинающие ритейлеры могут воспользоваться им, чтобы оценить влияние рекламы и цен на продажи.
Пример: сопряженный анализ.Сопряженный анализ на основе небольшой выборки данных, собранных с помощью A/B-тестирования, определяет оптимальные комбинации цена-промо-реклама. Этот метод показывает, как каждый из этих факторов влияет на цены, и определяет их оптимальное значение.
Выводы
Ритейлер может использовать несколько методов, чтобы восполнить недостающие данные или прогнозировать цены на основе небольших объемов данных: различные классификаторы, древовидные алгоритмы, метод регрессии, A/B-тестирование и совместный анализ.
Самый оптимальный метод — сбор и обработка качественных исторических данных. Используя такие данные, нейронные сети быстрее обучаются и делают более точные прогнозы.
Комментарии:
Как пользоваться выбором высокочастотных фраз для метатегов, чисткой мусорных фраз и как расставлять приоритеты для навигационных запросов с указанием определенного направления...
22 06 2025 23:15:38
Что делать перед составлением рекламного бюджета — инструкция для предпринимателей...
21 06 2025 19:39:49
Как контролировать множество сайтов — полезные сервисы и советы для вебмастеров. Одно дело — несколько десятков сайтов, а что если сотни или тысячи? Как раз это подробно и разберем....
20 06 2025 14:36:26
Не знаешь как раскрутить сайт? Мы подготовили 11 этапов SEO-продвижения сайтов в поисковых системах....
19 06 2025 20:34:43
Список курсов, книг, каналов и пабликов для работы с данными...
18 06 2025 1:29:13
Чтобы раскрутить себя в Твиттер иногда нужно чистить списки фолловеров и это намного проще, чем кажется :)...
17 06 2025 17:25:44
Красивый слог и сюжет должны быть в интеpaктивной оболочке, соответствующей времени. Проект Gutenbergz идет к созданию именно такой — идеальной истории для людей XXI века. О пути к этой цели, топе App Store и успехе на Kickstarter мы поговорили с руководи...
16 06 2025 11:34:31
Попасть в топ 3 — ваш предел мечтаний? Почему и когда это не принесет ожидаемых результатов, плюс другие не актуальные убеждения о PPC. Узнать больше!...
15 06 2025 11:50:22
Есть офлайн-точка продаж и нужно привлечь сюда больше клиентов. Что делать? Настраиваем локальные кампании. Показываем и рассказываем, как это делать....
14 06 2025 17:43:32
Проверяем, есть ли разница в ранжировании при наличии/отсутствии этих слов в метаданных. Эксперимент....
13 06 2025 3:51:33
Почему в рекламе недвижимости стоит запускать динамический ремаркетинг...
12 06 2025 23:25:45
Почему соотношение данных об использовании приложения важнее, чем количество установок и удалений...
11 06 2025 15:30:26
Как сделать рекламу в Universal App Campaign 2.0 максимально эффективной...
10 06 2025 12:24:43
Как создать и внедрить баннеры об использовании куки-файлов с помощью Google Tag Manager и OneTrust...
09 06 2025 12:39:53
Алгоритм E-A-T теперь следит за экспертностью, авторитетностью и достоверностью контента. Что это значит?...
08 06 2025 3:15:20
Встречайте Netpeak Spider 2.1 — программу, предназначенную для обнаружения и уничтожения ошибок внутренней оптимизации сайта. Мы хотим, чтобы 4 августа 2016 года запомнилось вам как «День кроулинга»!...
07 06 2025 4:26:48
За какими метриками следует пристально следить в email-рассылках...
06 06 2025 21:13:44
И как с ними справиться. Рабочие инструкции для Chief Executive Office и менеджеров в целом. Давайте управлять комaндой и собой более эффективно и без выгорания. Узнать больше!...
05 06 2025 21:58:39
Фишка, которую можно позволить себе даже когда портал продает всего несколько товаров или услуг...
04 06 2025 2:55:23
Слорварь сленга, без которого к 25-летним не подходи...
03 06 2025 3:19:41
Грамотная аналитика в мире мобильных приложений, как и в целом в маркетинге — единственный путь к окупаемости продукта и выходу в высшую лигу брендов...
02 06 2025 4:27:10
Анализ содержимого сайта показывает: Url разные, а контент страниц одинаковый. Думаете, ничего страшного? Но одинаковый контент может попасть под фильтры поисковых систем. Чтобы этого не произошло, надо знать, как избавляться от внутренних дублей...
01 06 2025 9:37:54
Расширяем возможности визуализации данных из Google ***ytics c помощью пакета RGA и Power BI...
31 05 2025 7:35:13
Узнайте, подходят ли видеоролики для продвижения вашего бизнеса, и будет ли рентабельной видеореклама в YouTube...
30 05 2025 15:17:55
Крутые площадки для нового инструмента: контекстщикам на заметку!...
29 05 2025 22:18:25
Дмитрий Шахов, Алексей Чекушин и другие эксперты поделились своим опытом решения сложных вопросов SEO на примере больших проектов....
28 05 2025 5:56:26
Как провести крутую конференцию по интернет-маркетингу, сделать трaнcляцию этой конференции и вместо сухих репортажей подготовить полезный контент для СМИ. Узнать больше....
27 05 2025 10:32:45
Бухгалтерский мир Netpeak: цель, задачи, мотивация....
26 05 2025 15:12:29
Кейс: контент-маркетинг сервиса в США, или как SerpStat покорил англоязычный мир...
25 05 2025 12:33:48
Узнай, как бэкофис группы помогает развиваться компаниям, и выиграй iPhone — подбери крутое название для нашей группы....
24 05 2025 2:32:36
Основатель сервиса мобилографии EyeEm Рамзи Ризк рассказал об особенностях своего сервиса и будущем мобильных приложений....
23 05 2025 8:54:49
Какие форматы видеорекламы логичнее купить для создания спроса на новую продукцию? Выясняем на примере кейса бренда Yves Rocher...
22 05 2025 11:47:30
Решили написать про новый формат рекламы — баннерный...
21 05 2025 7:33:10
Как быстро создавать и запускать объявления, а также массово вносить правки в кампании с помощью файла Excel...
20 05 2025 6:45:40
Менеджер, маркетолог, дизайнер программист? Делимся секретами нетпик, каким должен быть специалист по рекламе...
19 05 2025 22:36:47
Как SQL-запросы сайтов и Google Sheets освобождают SEO-специалиста от рутины...
18 05 2025 1:28:26
Как и зачем отслеживать конверсии с тегом Google Рекламы...
17 05 2025 5:16:32
Продвигаем медицинский проект. Кроме цифр рассказываем, что и как делали...
16 05 2025 5:18:47
Готовы ли вы доверить основные настройки кампании автоматическим алгоритмам?...
15 05 2025 3:41:57
Всё об оценке эффективности SEO-продвижения с инструментами и рекомендациями...
14 05 2025 23:26:10
Зачем нужно работать с отчетами по ассоциированным конверсиям и сравнивать различные модели атрибуции?...
13 05 2025 4:49:27
Мы решили организовать серию вебинаров по SEO и предоставить их бесплатно. История о том, как с нуля при минимуме затрат создать успешный онлайн-курс...
12 05 2025 16:31:36
Идем в Бразилию: опыт Depositphotos + полезные факты....
11 05 2025 10:30:52
Как пользователи и разработчики приложений живут без Google Play? Авторская колонка....
10 05 2025 5:39:47
Почти 3 миллиона клика в 24 тематиках в 15 городах Казахстана. Читайте новое исследование нашего аналитика....
09 05 2025 10:36:17
Данные по 24 миллионам кликов в 24 тематиках и 391 городу...
08 05 2025 10:48:48
Как не нужно делать, запуская свой профиль и таргетированную рекламу в Instagram...
07 05 2025 12:24:39
Как найти продавцов для маркетплейса с помощью рекламы в Google, Facebook, TikTok и Viber....
06 05 2025 21:32:20
Объявление или кабинет блокируют из-за эмоджи. Что делать?...
05 05 2025 0:12:56
Создаем список тем, которые заинтересуют пользователя — для этого используем простые сервисы по типу Вордстат. Также изучаем деятельность конкурентов. Узнать больше!...
04 05 2025 17:27:55
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::