Анализ парных предпочтений

12/05/2010
Подписка RSS

affinity analysis, парные предпочтения

Настоящая статья посвящена вопросу определения парных предпочтений в поступающих заказах и визуализации полученных данных.

Анализ парных предпочтений - это способ определения парной корреляции между отдельными номенклатурными позициями в поступающих заказах. По сути, это метод выяснения наиболее часто встречающихся, устойчивых пар продуктов в заказах.

В рознице метод используется для оптимизации размещения продуктов на полках магазинов (по принципу географического сближения устойчивых пар). Также, некоторые наиболее устойчивые пары выносятся ближе к кассам оплаты. По той же причине на складах комплектации номенклатурные позиции из устойчивых пар стараются размещать в ячейках как можно ближе друг к другу и зоне комплектации для минимизации времени сборки. Данный тип анализа используется для формирования продуктовых наборов или наборов для промо-акций. Ещё одним применением данного анализа является повышение эффективности кросс-продаж, когда специалисты Customer Service, располагающие данными об исторической встречаемости пар продуктов, могут влиять на закупку продуктов клиентами, предлагая им повысить продажи за счёт парных позиций.

Так как при анализе парных предпочтений рассматривают значительный объём номенклатуры, количество пар для корреляционного анализа будет слишком большим для статистических пакетов. В этой связи предпочтительно использовать специализированное ПО для анализа парных предпочтений. Простым и удобным продуктом является открытый Affinity Analyzer. На входе в программу поступает файл с историческими данными по заказам, на выходе система выдаёт данные по частоте появления отдельных SKU (stock keeping units) и пар SKU в заказах. Помимо числа заказов с данным SKU или парой SKU, ПО рассчитывает данные по количеству заказов, которые состоят только из одного SKU или только из одной рассматриваемой пары SKU. 

Табличное представление даёт понимание о встречаемости пар, но не раскрывает особенностей взаимоотношения пар продуктов между собой. Продукты могут образовывать устойчивые кластеры, в которых один SKU может присутствовать сразу в нескольких парах. Если бы эта информация была доступна в простом для восприятия виде, она позволила бы более эффективно определить схемы размещения продукции в торговых залах и складах.

Рассматриваемый анализ, а точнее, способ визуализации уже полученных данных, можно провести с помощью систем разметки графов, таких, как graphviz или yEd. Графами в математике называются объекты, состоящие из узлов (в нашем случае, SKU) и дуг, связывающих их (в нашем случае, дугами объединены SKU, образующие пары).

Мы можем воспользоваться физической аналогией. Представим, что все SKU, образующие пары, соединены пружинами. Чем чаще встречается пара, тем больше жёсткость пружины. Если уравновесть эту систему, то мы получим картину взаимного притяжения SKU друг к другу. Визуализацию этого подхода можно посмотреть по ссылке

Чтобы получить визуализацию,  необходимо преобразовать данные расчёта Affinity Analyzer в текстовый файл следующего формата:

graph affinity {
1178574 -- 1216614 [weight="9"];
1178574 -- 1434068 [weight="9"];
1333138 -- 1955922 [weight="5"];
... };

где 1178574 -- 1216614 - это пары SKU, а [weight="9"] - частота встречаемости пары.

Graphviz преобразует данные текстового файла в изображение:

На этом изображении проявляются два крупных кластера "родственных" SKU и несколько мелких.

yEd может импортировать графы из нескольких форматов. Ближе всего к формату graphviz формат tgf. Это текстовый список узлов и связей в виде:

Node_1
Node_2
Node_3
...
#
Node_1 Node_2
Node_1 Node_3 
... 

Рассмотренный ранее пример из graphviz в yEd будет иметь следующий вид:

Помимо простой визуализации данных yEd может представить ещё и информацию о топологии графа. В частности, такая метрика как мера центральной связности узлов (node betweenness centrality) позволит получить представление о самых важных SKU, объединяющих наибольшее число пар:

Комбинируя статистическую информацию и данные о топологии графов, можно выбрать наиболее предпочтительные SKU-кандидаты для последующей оптимизации местоположения продукции в торговом зале или на складе.

Планируя описанное исследование, следует иметь в виду, что оно не потребует длительного времени и усилий, но может и не привести к новым "маркетинговым открытиям", выявив уже известные из опыта пары SKU, как в старом анекдоте про наиболее распространённые парные покупки:

  • раскладушку для тещи и пистолет;
  • диск с фильмами Тарковского и бутылку водки;
  • автомобиль для жены и валидол;
  • томик лирических стихов и презервативы;
  • котенка и новые обои;
  • бутылку водки и бутылку водки.