Как прогнозировать цены с помощью машинного обучения

Когда ваш бизнес растет и товаров становится больше, то управлять ими вручную невозможно. Чтобы устанавливать конкурентные цены, корректировать ассортимент и оптимизировать бизнес-процессы, ритейлеры используют алгоритмы машинного обучения. Но с ними не все так просто.
В этой статье я опишу методы восполнения недостающих данных: от их покупки до моделирования с помощью алгоритмов машинного обучения.
Первый шаг в использовании алгоритмов — их обучение на исторических данных (обучение с учителем, supervised learning), где есть целевая функция. Например, продажи, выручка, прибыль или доля рынка.Эта функция — основной KPI ритейлера, на прогнозирование которого и будет работать данный алгоритм.
Модель анализирует переменные, которые влияют на продажи — цены, трафик и другие— и выводит функцию, которая максимально точно описывает продажи. После этого обученный алгоритм рекомендует с высокой точностью, какие значения переменных максимально увеличат продажи в будущем.
Чем больше данных в распоряжении алгоритма, тем точнее он работает. Поэтому данные — важнейшее условие конкурентоспособности ритейлера.
Причины отсутствия данных
Главная сложность, с которой сталкиваются ритейлеры при использовании алгоритмов, — пропуски или противоречия в исторических данных. Из-за этого сложно ими пользоваться нормально.
Причины:
- Менялся формат данных.
Различия внутренних систем, ИТ-решений, подходов к сбору данных (по дням или по транзакциям) приводят к тому, что данные в разные периоды жизни компании собираются в разных форматах . - Данные собирались для разных целей.
Если данные собираются в обобщенном виде, например, для расчета премии категорийным менеджерам и не категорируются, они, как правило, не пригодны для обучения алгоритмов. - Ритейлер недавно вышел на рынок.
На начальном этапе 90% продаж зависят от трафика сайта. Поэтому невозможно определить, как цены влияют на продажи в течение этого периода. - Горящие распродажи.
Если ритейлер работает в режиме flash sales (запуск кратковременных распродаж разных категорий или брендов), алгоритмы не могут использовать полученные неоднородные данные.
Если по какой-либо причине данных недостаточно для обучения алгоритма и прогнозирования, ритейлер должен постараться выжать все возможное из доступного объема данных, смоделировать или купить недостающие данные.
Как работать с существующими данными
Данные, независимо от источника, должны быть в едином формате. Если уже собран определенный объем данных, то ритейлеру потребуется около года, чтобы собрать данные в новом формате (например, включающие цены и акции конкурентов), прежде чем их можно будет использовать в алгоритмах.
Еще один путь — купить недостающие данные.
В то же время для создания моделей прогнозирования данные о конкурентах не нужны.
Такие модели менее точны, более трудоемки, требуют допущений и моделирования отсутствующей информации, но используются достаточно широко.
Как смоделировать недостающие данные
Есть методы, которые прогнозируют недостающие значения на основе существующих данных об определенных переменных. Например, у ритейлера есть данные о своих ценах и продажах за два года, а также о продажах конкурента за полтора года. На основе этой информации можно определить, какими были цены конкурента за отсутствующий период.
Для решения таких задач, как правило, используются классификаторы. Они прогнозируют недостающие значения на основе других независимых переменных, значения которых известны.
Рассмотрим типы «умного» заполнения отсутствующих данных.
1. Предиктивная модель: чтобы получить прогноз о недостающих данных, все данные нужно разделить на две части.
Первая часть — известные данные, вторая — недостающие. Первый массив будет играть роль тренировочного для обучения модели, а данные из второй части станут целевыми переменными для прогноза.
В этой модели, бинарный классификатор будет отвечать на вопрос, произошло ли то или иное событие (например, были ли товары на полке). Категорийный классификатор — присвоит товар определенному сегменту (например, ценовому сегменту) ;
2. Заполнение методом KNN (k-nearest neighbor): предсказывает недостающие значения на основе ближайшей к целевому показателю переменной.
Близость переменных определяется на основании так называемой расчетной дистанции между ними.
Существует пять основных типов алгоритмов-классификаторов:
- логистическая регрессия;
- древо принятия решений;
- нейронные сети;
- семейство бустеров;
- Random Forest.
Для прогнозирования конечного целевого показателя — продаж — используются регрессоры. Они предсказывают не сегмент или вероятность, а вероятное числовое значение.
Самые распространенные типы регрессоров — линейная и полиномиальная регрессия, нейронные сети, регрессионные деревья и упомянутый выше Random Forest.Как использовать алгоритмы машинного обучения в работе с данными
Если у ритейлера собран большой объем данных, можно использовать нейронные сети, чтобы с высокой точностью рекомендовать ассортимент или цены для максимального увеличения продаж. Если же их мало, можно использовать другие алгоритмы, которым нужно меньше данных.
Например, если у ритейлера есть достаточное количество исторических данных только о 30% товаров, а также небольшой трафик и редкие продажи, нейронная сеть не сможет работать. В таком случае, можно использовать алгоритмы-деревья для отдельных продуктов.
Примеры древовидного алгоритма — XGboost, LightGBM и CatBoost.Этот тип алгоритма может прогнозировать оптимальные цены на основе 150-дневной истории активных продаж. Однако, у него есть недостаток: он не умеет учитывать взаимозависимость цен на разные товары. Такой алгоритм можно использовать для KVI-товаров, а к остальным — применять простые сценарии переоценки (rule-based pricing).
Чтобы вычислить эластичность цены для 20-30 товаров, ритейлер может использовать регрессию, добавляя три-четыре переменные. Регрессию можно использовать для принятия высокоуровневых решений: например, стоит или нет повышать цены.
Пример: линейная или полиномиальная регрессия (метод опopных векторов).Этот алгоритм не определяет конкретную цену, необходимую для максимального увеличения продаж и маржи, но показывает тенденцию.
Другой метод, который используется, когда ритейлеру не хватает данных, это A/B-тестирование на основе аналитики и статистики. Начинающие ритейлеры могут воспользоваться им, чтобы оценить влияние рекламы и цен на продажи.
Пример: сопряженный анализ.Сопряженный анализ на основе небольшой выборки данных, собранных с помощью A/B-тестирования, определяет оптимальные комбинации цена-промо-реклама. Этот метод показывает, как каждый из этих факторов влияет на цены, и определяет их оптимальное значение.
Выводы
Ритейлер может использовать несколько методов, чтобы восполнить недостающие данные или прогнозировать цены на основе небольших объемов данных: различные классификаторы, древовидные алгоритмы, метод регрессии, A/B-тестирование и совместный анализ.
Самый оптимальный метод — сбор и обработка качественных исторических данных. Используя такие данные, нейронные сети быстрее обучаются и делают более точные прогнозы.
Комментарии:
Руководитель отдела HR, Ольга Пачесная, написала пост о главном — людях, которые выбрали работу в Netpeak....
31 05 2026 15:53:51
Тренинг по контекстной рекламе образовательных курсов в Google Ads, Яндекс.Директ, Target@mail...
30 05 2026 3:56:58
Эти данные пригодятся в составлении медиапланов по продвижению в интернете. Понимания стоимость конверсии и необходимое количество конверсий, вы можете прогнозировать, сколько денег на рекламу нужно выделить. Читать!...
29 05 2026 8:22:45
95% заполняемости коливингов для сервиса аренды жилья....
28 05 2026 15:28:49
Продвижение крупного интернет-магазина в перегретой нише...
27 05 2026 0:46:32
Короткий прогон сервисов для аналитики активности в Твиттер....
26 05 2026 12:47:30
Результаты грамотного внедрения технического SEO-аудита...
25 05 2026 15:35:48
Директор «1С-Битрикс» в Казахстане Сармантай Касенов о кейсах, развитии и образовательной миссии компании...
24 05 2026 12:21:21
Подробно о преимуществах и особенностях двух сервисов контекстной рекламы....
23 05 2026 6:19:25
Разбор типичных ошибок в рекламе Google Shopping как обязательного инструмента рекламы в Google. О минус-словах, геолокации, структуре сайта и обновлении объявлений. Что именно важно? Читайте дальше!...
22 05 2026 21:21:18
Языковой закон требует, чтобы общение бизнеса с клиентами шло на украинском языке, если нет просьбы о другом приемлемом варианте. Что это означает для РРС, читайте дальше....
21 05 2026 11:47:43
Как прокачать свои знания и навыки использования GA, чтобы оптимизировать сайт и получать больше (намного больше, чем сейчас) трафика, конверсий, вовлечения. Больше!...
20 05 2026 21:56:16
Структура того, чем обладают сотрудники департаментов работы с клиентами лучших компаний....
19 05 2026 18:23:57
Короткая история Serpstat — от сервиса «для своих» до международной SEO-платформы....
18 05 2026 12:54:58
Создание репутации крутого специалиста — дело рук крутого специалиста....
17 05 2026 9:32:20
Все про kpi охват в социальных медиа или как оценивать эффективность работы SMM-специалиста?...
16 05 2026 11:46:49
Google Adwords: типы рекламных кампаний и объявлений, тонкостях настройки... Все, о чем вы боялись спросить... Или не боялись, а просто не знали, о чем спрашивать....
15 05 2026 23:53:35
Рассказываем о приемах, которые помогут вам заинтересовать читателей рассылки....
14 05 2026 6:40:32
Поговорим о soft skills, потому что именно они, исходя из моего опыта, помогают строить поистине сильные комaнды....
13 05 2026 8:20:14
Подкаст — это аудиозапись в повествовательном, музыкальном, юмористическом формате. Создается с целью рекламы, увеличения потока посетителей на сайт и роста почитателей определенного продукта...
12 05 2026 18:11:57
Словосочетания и аббревиатуры, которыми пользуются на рынке игрового маркетинга....
11 05 2026 23:44:32
Николь Лаззаро из XEODesign провела исследование о том, почему мы играем или не играем в игры....
10 05 2026 16:40:45
Происходит все большая автоматизация рекламы от Google. И это хорошо....
09 05 2026 16:53:39
Как узнать, что потенциальный сотрудник креативный, умеет убеждать, работать в комaнде, адаптироваться к быстрой смене условий, владеет эмоциональным интеллектом? Вопросы для проверки этих софт-скиллов здесь....
08 05 2026 0:50:38
Отмена видео-сниппетов в выдаче Google, удаление страницы с тегами и инструмента подсказки ключевых слов в YouTube — все события последних месяцев свидетельствуют: Google всерьёз взялся за видеохостинги и решил изменить правила игры для видеомаркетинга в...
07 05 2026 6:50:16
Простая инструкция для новичков, как легко создать анимированные баннеры для рекламных кампаний с помощью бесплатного инструмента Google Web Designer. При создании баннера сервис предложит создать файл с нуля либо использовать шаблон. Узнайте обо всех возможностях!...
06 05 2026 15:53:22
Создание канала бренда на видеоплатформе необходимо для увеличения притока трафика, улучшения репутации и поискового продвижения компании...
05 05 2026 16:22:19
Как зарегистрировать и настроить новый сайт в сервисах веб-аналитики...
04 05 2026 17:52:32
Когда и зачем нужно заказывать сбор семантического ядра, на какие этапы разбит процесс и какие результаты можно получить...
03 05 2026 8:11:32
Об особенностях реализации интернет-проектов в Великобритании, России и Казахстане и фишках успешного ведения бизнеса онлайн мы побеседовали с Владимиром Меркушевым — руководителем интернет-проектов успешной казахстанской компании Kolesa.kz....
02 05 2026 16:41:24
Подружим GTM и Метрику с минимальным вовлечением программиста....
01 05 2026 12:47:33
Андреас Рётль о продвижении Journi: как трое выпускников Стэнфордского университета создали приложение для сторителлинга с 25 000 пользователями в 100 странах....
30 04 2026 9:18:55
Цели у личных сайтов могут быть разные, но в первую очередь они помогают рассказать историю о специалисте...
29 04 2026 19:43:11
Обзор полезных сервисов и программ, которые увеличат эффективность работы из дома и улучшат организацию бизнес-комaнды...
28 04 2026 12:20:54
Обычно SaaS-бизнесы начинают привлечение лидов с запуска рекламы на Facebook. Но наш опыт говорит о том, что это не самые подходящие каналы. Более высокие результаты можно получить на LinkedIn....
27 04 2026 22:46:47
При наложении санкций на сайт его страницы заметно понижаются в выдаче. При наличии бана ресурс полностью исчезает из поиска, включая брендовые запросы...
26 04 2026 19:23:39
Академия — набор структурированного контента, интеpaктивных заданий и обучающих курсов, посвященных конкретному продукту или индустрии в целом...
25 04 2026 19:30:42
Как сделать рекламу в Universal App Campaign 2.0 максимально эффективной...
24 04 2026 13:48:18
кмс Google: как достичь поставленной цели с помощью рекламы? Делимся советам по настройке КМС-кампаний....
23 04 2026 20:48:45
Какой контент публиковать в Instagram, зачем ставить хештеги, какие активности интересны пользователям инсты, как ведут свой Инстаграм топовые бренды. Узнать больше!...
22 04 2026 3:37:23
Результаты четвертого опроса среди IT-специалистов по уровню зарплат интернет-маркетологов с интересными итогами от количества участников до самой высокооплачиваемой должности и среднего опыта в рынке. Узнайте больше!...
21 04 2026 4:55:51
Как Blizzard реализует тимбилдинг, мотивирует сотрудников и превращает офис в музей...
20 04 2026 14:32:39
Услуга уровня элит-класса в конкурентной нише и не в самом простом для продвижения регионе. Рассказываем, как привели целевой трафик по минимальной цене. Узнать!...
19 04 2026 18:31:40
Direct way. Как вложить 200 у.е. и получить 800 у.е....
18 04 2026 8:24:42
Настройка аналитики для пустого поиска, а также поиска по методам GET и POST...
17 04 2026 19:26:25
Применяя фишки, можно выделить релевантную аудиторию и продать ей что угодно — от кроссовок до президента....
16 04 2026 2:18:13
Нескучный инструктаж на примере @netpeak_ua о том, зачем компании корпоративный Twitter для продвижения контента, компании или персоны. А еще про хештеги, поиск читателей, аналитику, стиль ведения вашего микроблога, создание сообщества и акции...
15 04 2026 16:38:30
Cafe case. Знакомство аудитории с только что открывшимся заведением: online + offline....
14 04 2026 3:18:28
Аналитик Netpeak Алексей Селезнев рассказал, как составить и пользоваться сводными таблицами онлайн в excel и за считанные секунды выделить нужные для анализа данные из десятков тысяч строк в отчетах Google ***ytics...
13 04 2026 5:48:18
Идем в Бразилию: опыт Depositphotos + полезные факты....
12 04 2026 11:26:59
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::