Как прогнозировать цены с помощью машинного обучения
Когда ваш бизнес растет и товаров становится больше, то управлять ими вручную невозможно. Чтобы устанавливать конкурентные цены, корректировать ассортимент и оптимизировать бизнес-процессы, ритейлеры используют алгоритмы машинного обучения. Но с ними не все так просто.
В этой статье я опишу методы восполнения недостающих данных: от их покупки до моделирования с помощью алгоритмов машинного обучения.
Первый шаг в использовании алгоритмов — их обучение на исторических данных (обучение с учителем, supervised learning), где есть целевая функция. Например, продажи, выручка, прибыль или доля рынка.Эта функция — основной KPI ритейлера, на прогнозирование которого и будет работать данный алгоритм.
Модель анализирует переменные, которые влияют на продажи — цены, трафик и другие— и выводит функцию, которая максимально точно описывает продажи. После этого обученный алгоритм рекомендует с высокой точностью, какие значения переменных максимально увеличат продажи в будущем.
Чем больше данных в распоряжении алгоритма, тем точнее он работает. Поэтому данные — важнейшее условие конкурентоспособности ритейлера.
Причины отсутствия данных
Главная сложность, с которой сталкиваются ритейлеры при использовании алгоритмов, — пропуски или противоречия в исторических данных. Из-за этого сложно ими пользоваться нормально.
Причины:
- Менялся формат данных.
Различия внутренних систем, ИТ-решений, подходов к сбору данных (по дням или по транзакциям) приводят к тому, что данные в разные периоды жизни компании собираются в разных форматах . - Данные собирались для разных целей.
Если данные собираются в обобщенном виде, например, для расчета премии категорийным менеджерам и не категорируются, они, как правило, не пригодны для обучения алгоритмов. - Ритейлер недавно вышел на рынок.
На начальном этапе 90% продаж зависят от трафика сайта. Поэтому невозможно определить, как цены влияют на продажи в течение этого периода. - Горящие распродажи.
Если ритейлер работает в режиме flash sales (запуск кратковременных распродаж разных категорий или брендов), алгоритмы не могут использовать полученные неоднородные данные.
Если по какой-либо причине данных недостаточно для обучения алгоритма и прогнозирования, ритейлер должен постараться выжать все возможное из доступного объема данных, смоделировать или купить недостающие данные.
Как работать с существующими данными
Данные, независимо от источника, должны быть в едином формате. Если уже собран определенный объем данных, то ритейлеру потребуется около года, чтобы собрать данные в новом формате (например, включающие цены и акции конкурентов), прежде чем их можно будет использовать в алгоритмах.
Еще один путь — купить недостающие данные.
В то же время для создания моделей прогнозирования данные о конкурентах не нужны.
Такие модели менее точны, более трудоемки, требуют допущений и моделирования отсутствующей информации, но используются достаточно широко.
Как смоделировать недостающие данные
Есть методы, которые прогнозируют недостающие значения на основе существующих данных об определенных переменных. Например, у ритейлера есть данные о своих ценах и продажах за два года, а также о продажах конкурента за полтора года. На основе этой информации можно определить, какими были цены конкурента за отсутствующий период.
Для решения таких задач, как правило, используются классификаторы. Они прогнозируют недостающие значения на основе других независимых переменных, значения которых известны.
Рассмотрим типы «умного» заполнения отсутствующих данных.
1. Предиктивная модель: чтобы получить прогноз о недостающих данных, все данные нужно разделить на две части.
Первая часть — известные данные, вторая — недостающие. Первый массив будет играть роль тренировочного для обучения модели, а данные из второй части станут целевыми переменными для прогноза.
В этой модели, бинарный классификатор будет отвечать на вопрос, произошло ли то или иное событие (например, были ли товары на полке). Категорийный классификатор — присвоит товар определенному сегменту (например, ценовому сегменту) ;
2. Заполнение методом KNN (k-nearest neighbor): предсказывает недостающие значения на основе ближайшей к целевому показателю переменной.
Близость переменных определяется на основании так называемой расчетной дистанции между ними.
Существует пять основных типов алгоритмов-классификаторов:
- логистическая регрессия;
- древо принятия решений;
- нейронные сети;
- семейство бустеров;
- Random Forest.
Для прогнозирования конечного целевого показателя — продаж — используются регрессоры. Они предсказывают не сегмент или вероятность, а вероятное числовое значение.
Самые распространенные типы регрессоров — линейная и полиномиальная регрессия, нейронные сети, регрессионные деревья и упомянутый выше Random Forest.Как использовать алгоритмы машинного обучения в работе с данными
Если у ритейлера собран большой объем данных, можно использовать нейронные сети, чтобы с высокой точностью рекомендовать ассортимент или цены для максимального увеличения продаж. Если же их мало, можно использовать другие алгоритмы, которым нужно меньше данных.
Например, если у ритейлера есть достаточное количество исторических данных только о 30% товаров, а также небольшой трафик и редкие продажи, нейронная сеть не сможет работать. В таком случае, можно использовать алгоритмы-деревья для отдельных продуктов.
Примеры древовидного алгоритма — XGboost, LightGBM и CatBoost.Этот тип алгоритма может прогнозировать оптимальные цены на основе 150-дневной истории активных продаж. Однако, у него есть недостаток: он не умеет учитывать взаимозависимость цен на разные товары. Такой алгоритм можно использовать для KVI-товаров, а к остальным — применять простые сценарии переоценки (rule-based pricing).
Чтобы вычислить эластичность цены для 20-30 товаров, ритейлер может использовать регрессию, добавляя три-четыре переменные. Регрессию можно использовать для принятия высокоуровневых решений: например, стоит или нет повышать цены.
Пример: линейная или полиномиальная регрессия (метод опopных векторов).Этот алгоритм не определяет конкретную цену, необходимую для максимального увеличения продаж и маржи, но показывает тенденцию.
Другой метод, который используется, когда ритейлеру не хватает данных, это A/B-тестирование на основе аналитики и статистики. Начинающие ритейлеры могут воспользоваться им, чтобы оценить влияние рекламы и цен на продажи.
Пример: сопряженный анализ.Сопряженный анализ на основе небольшой выборки данных, собранных с помощью A/B-тестирования, определяет оптимальные комбинации цена-промо-реклама. Этот метод показывает, как каждый из этих факторов влияет на цены, и определяет их оптимальное значение.
Выводы
Ритейлер может использовать несколько методов, чтобы восполнить недостающие данные или прогнозировать цены на основе небольших объемов данных: различные классификаторы, древовидные алгоритмы, метод регрессии, A/B-тестирование и совместный анализ.
Самый оптимальный метод — сбор и обработка качественных исторических данных. Используя такие данные, нейронные сети быстрее обучаются и делают более точные прогнозы.
Комментарии:
Инструкция по созданию изображений для сториз, email-рассылок и объявлений в соцсетях...
26 04 2024 20:57:49
Как зарегистрироваться и пользоваться аккаунтом в Google Business Profile: руководство для интернет-маркетологов и владельцев бизнеса...
25 04 2024 22:20:22
И помните: плохих названий нет, если у вас есть большие деньги....
24 04 2024 2:14:30
Партнерская сеть, к которой нужно присоединиться уже сейчас....
23 04 2024 8:30:15
Не стучитесь к Алексею на ФБ с предложением что-то придумать для бренда. У Ломоносова целый тред таких непрочитанных сообщений. Узнать больше....
22 04 2024 17:58:28
Отрывок из книги «Статистика: базовый курс в комиксах» Грейди Клейн и Алана Дебни...
21 04 2024 9:28:47
Алгоритм E-A-T теперь следит за экспертностью, авторитетностью и достоверностью контента. Что это значит?...
20 04 2024 23:12:13
Видеомаркетинг должен стать обязательной частью рекламной онлайн-стратегии, и мы собрали несколько подтверждений этому в нашей инфографике....
19 04 2024 10:42:45
Если ваша фирма работает на предоставление услуг в медицине, следует учесть требования рекламных систем в интернете, чтобы объявления в с первого раза прошли модерацию...
18 04 2024 10:36:26
Сооснователь и главред Forbes Ukraine о вовлечении читателей в смысловое поле бизнеса...
17 04 2024 3:35:56
SEO для цветочных магазинов с оплатой за трафик и полученные результаты...
16 04 2024 0:19:47
Эта книга рекомендована к прочтению решительно всем :)...
15 04 2024 9:13:18
Как раскрутить виртуальный магазин женской одежды. Подробно рассказываем, что делали и чего достигли...
14 04 2024 11:12:35
Детальная инструкция по настройке рекламы мобильного приложения в Яндекс.Директ....
13 04 2024 9:17:10
Как специалисту оптимизировать рабочее время, качественно развивать проекты и меньше нервничать...
12 04 2024 0:39:59
Узкие специализированные ниши и широкие, которые, как правило, уже заняты лидерами рынка — в каждой найдется место для онлайн-издания с полезным контентом. Узнать больше!...
11 04 2024 0:32:12
Как поможет Regex Engines в работе с Google ***ytics и преимущества использования Regex в Диспетчере тегов Google. Узнать больше....
10 04 2024 16:18:31
Шаги, которые необходимо выполнить для правильного сбора и анализа данных сайта...
09 04 2024 13:33:18
Расширяем возможности визуализации данных из Google ***ytics c помощью пакета RGA и Power BI...
08 04 2024 7:13:54
Почему Google ***ytics не видит ссылки на HTTP-сайт с сайта на HTTPS?...
07 04 2024 23:26:49
Мы сменили CMS, не просев в трафике, и превратили каталог товаров в полноценный интернет-магазин....
06 04 2024 18:14:46
Футпринт — это признак, по которому можно спалить PBN-сетку сайтов. Это как родинки. Если взять двух парней с родинкой на щеке, то не факт, что они братья. Но если родинки совпадают на щеке, локте и колене, то тут что-то подозрительное...
05 04 2024 9:15:46
Тест, который проходят все соискатели. Никому не показывайте!...
04 04 2024 13:53:27
На скорость и полноту результатов продвижения влияют конкретные риски. И некоторые из них можно выделить еще до начала сотрудничества. Рассказываем, какие именно....
03 04 2024 2:40:21
Делаем первые шаги к созданию системы email-коммуникаций бренда....
02 04 2024 17:43:47
Эффективное PPC благодаря правильной аналитике....
01 04 2024 23:35:57
Пуш для рекламных кампаний накануне праздничных распродаж...
31 03 2024 8:19:16
При использовании похожих инструментов важно не переборщить с количеством рекламы...
30 03 2024 18:12:17
Новая инструкция, которую можно применять к любым задачам в Google Таблицах....
29 03 2024 6:54:57
Атрибут rel="canonical" помогает бороться с дублированием контента и обезопасить сайт от дублирования и копирования...
28 03 2024 15:54:28
Эффективность рекламы в поиске падает, но растут YouTube, контекстно-медийная сеть и другие платформы...
27 03 2024 18:49:53
Как вести рекламные кампании и что делать на разных этапах настройки. Делимся опытом: примерами, кейсами и рекомендациями. Узнать больше и настроить свои РК, как боженька!...
26 03 2024 18:26:34
Поговорим о soft skills, потому что именно они, исходя из моего опыта, помогают строить поистине сильные комaнды....
25 03 2024 22:19:36
Пять простых фишек для повышения привлекательности карточки товара....
24 03 2024 0:42:34
Как мы продвигали бизнес-страницы OLX с помощью рекламы в Facebook, TikTok и Viber....
23 03 2024 15:15:58
Нет новых идей для развития рекламной компании? Одобренные рекомендации по поисковому продвижению от экспертов: спикеров и участников 8P 2018...
22 03 2024 10:55:37
Покупать в Китае. Как брендам покорить сердца и кошельки китайских пользователей...
21 03 2024 21:18:34
Понятная инструкция для SMM-специалистов для тех, кто экспериментирует с настройками аудиторий в рекламных кампаниях. Вы увидите, как настраивать ремаркетинг на примере Facebook. Существует 10 типов индивидуализированных аудиторий в Facebook, разберем три...
20 03 2024 9:21:26
Масштабируем кампанию в Google за счет управления конверсиями и работы с эффективными каналами продвижения....
19 03 2024 19:54:16
Есть офлайн-точка продаж и нужно привлечь сюда больше клиентов. Что делать? Настраиваем локальные кампании. Показываем и рассказываем, как это делать....
18 03 2024 19:27:49
Кейс: SEO для сайта эpoтического массажа — ROMI 980% за 10 месяцев...
17 03 2024 16:41:32
Хотите говорить с клиентами? Пишите им в телеге. Для этого важно продвижение телеграм-канала. Что и как делать для раскрутки — подробная инструкция....
16 03 2024 6:23:28
И уж если бумага стерпит все, интернет — тем более, а значит онлайн-исповедальне быть! И не только ей......
15 03 2024 20:52:21
И чем этот тип отслеживания событий отличается от Client-side. Узнать!...
14 03 2024 20:54:27
Когда на сайт добавляют новый контент, он тут же трaнcлируется в RSS-ленту и отображается в специальных программах для чтения, либо в email подписчиков. Как это работает?...
13 03 2024 2:56:49
Данные по 24 миллионам кликов в 24 тематиках и 391 городу...
12 03 2024 2:10:33
Эти советы будут полезны вебмастерам, которые хотят сделать шаблон сайта самостоятельно...
11 03 2024 1:42:12
Опыт, накопленный за более чем 10 лет работы в нише и упакованный в специальные предложения....
10 03 2024 17:24:31
Для продвижения интернет-магазина женского нижнего белья мы решили попробовать новый источник привлечения клиентов....
09 03 2024 1:14:35
Данные Google по 6 миллионам кликов 16 городах страны и данные Яндекс по 520 346 кликам, в 54 городах страны в 22 тематиках в обоих рекламных системах. Узнать больше!...
08 03 2024 20:49:23
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::