Tidy data БЛОГ

Как найти 20% клиентов, которые приносят
80% прибыли?

Определяем типичные портреты клиентов и их LTV при помощи кластерного анализа
Коротко. В этой статье мы будем:

  • Узнавать ценности, потребности, драйверы и барьеры, медиапредпочтения клиентов;
  • Мэтчить результаты опроса с внутренними данными об LTV и поведении потребителей;
  • Применять кластерный анализ, чтобы определить типичные портреты;
  • Узнаем, есть ли сегмент 20% клиентов, которые приносят 80% прибыли.
График важности характеристик по методу Кано
Дисклеймер

Чтобы не нарушать корпоративные тайны все цифры в этой статье перемешаны.

А как вы формулируете целевую аудиторию?

Большинство компаний формулируют целевую аудиторию в стиле «молодые люди в возрасте 25-45 лет, живущие в городах-миллионниках». Такое описание слишком широкое и абстрактное. Из-за этого оно НЕ может направлять продуктовые и маркетинговые команды к конкретным действиям.

Так жили и мы в GrowFood, а потом захотели понять аудиторию глубже. План был такой:
(мы его придерживались и все получилось:)

1. Опрашиваем репрезентативную выборку клиентов. Человек 900. Задаем три блока вопросов:
  • Продуктовые (потребности, ценности, драйверы, барьеры пользования сервисом);
  • Маркетинговые (пользование каналами коммуникаций и СМИ, доверие к блогерам и платформам);
  • Сегментационные (профессия, образ жизни, тип занятости, интересы, состав семьи, доход).

2. Обогащаем данные опроса выгрузкой из внутренних систем:
  • LTV (прибыль от клиента за весь период сотрудничества);
  • предпочитаемая платформа (Web/IOS/Android);
  • паттерны поведения;
  • статус программы лояльности и др.

3. На основе меры похожести объединяем клиентов в сегменты (кластеры). Интерпретируем и изучаем каждый из них. А главное, считаем суммарный и средний LTV в каждом сегменте, чтобы найти сегмент клиентов, который генерит большую часть прибыли.

Раздел про алгоритмы и техническую реализацию

(Если хотите сразу к бизнес смыслу, то этот абзац можно пропустить и перейти к образу результата)

1. Подготовка данных

Большинство алгоритмов кластеризации работают с числовыми данными, поэтому для всех номинативных переменных необходимо произвести «dummy кодирование», то есть превращение длинного столба с категориями в широкую таблицу с единицами и нулями. Понятней будет на примере:
График важности характеристик по методу Кано
Выполняем преобразование категориальных переменных в бинарные нули и единицы,
иначе алгоритмы кластеризации не заведутся

Если рассматривать эти нули и единицы, то можно найти клиентов, которые отвечали на этот вопрос схожим образом. Алгоритмы кластерного анализа переберут ВООБЩЕ ВСЕ имеющиеся данные и объединят клиентов в группы.

2. Выбор алгоритма кластеризации

Алгоритмов кластеризации очень много. Если совсем коротко, то всех их можно разделить на итеративные и иерархические.

Итеративные методы кластеризации подходят, когда заранее известно число сегментов. Такие алгоритмы пересчитывают матрицу расстояний на каждом шаге до тех пор пока все объекты не найдут свои кластеры. Центроиды – это объекты в середине каждого кластера будут являться типичными, центральным примерами-иллюстрациями своих сегментов.

Иерархические методы последовательно пересчитывают расстояния между всеми объектами, которые впоследствии группируются в кластеры на дендрограмме. Подходят для случаев, когда неизвестно к-в групп. А у нас именно такой случай.
График важности характеристик по методу Кано
Пример иерархической кластеризации.
Коричневый и желтый объекты ближе друг к другу. Синий и голубой тоже близки друг к другу, но удалены от сегмента «желто-коричневых». Объект серого цвета не похож ни на один из сегментов, но если мы хотим выделить две группы, то серый будет ближе к «желто-коричневым», чем к «синим». Все эти отношения отражены на дендрограмме справа.

Я долго перебирал алгоритмы и меры подобия и остановился на том, который дал наиболее интерпретируемый результат на моих данных — мера подобия рассчитана при помощи евклидова расстояния (корень из квадратов расстояний между точками), а дендрограмма сложена при помощи иерархического метода Варда (Ward's method).

Со строгой математической точки зрения следует выбирать тот алгоритм, который покажет максимальную межгрупповую дисперсию при минимальной внутригрупповой. То есть определит такие сегменты, клиенты внутри которых будут очень похожи друг на друга и при этом максимально НЕ похожи на клиентов из других сегментов.
Пример кода на R

d <- dist(scale(GFmatrix), method = "euclidean") #рассчет матрицы расстояний
dendr <- hclust(d, method="ward") #построение дендрограммы
plot(dendr) #визуализация дендрограммы
rect.hclust(dendr, k = 6, border = 1:6) #обрезка дерева, т.е. укрупнение до 6 кластеров
GFmatrix$segment <- cutree(dendr, k=6) #присвоение меток сегментов к исходной таблице клиентов

3. Иллюстрация дерева

График важности характеристик по методу Кано
Дендрограмма, при помощи которой все клиенты объединены в группы на основе меры похожести
После применения иерархического алгоритма все клиенты в нашей выборке объединяются в группы при помощи дендрограммы. Сколько кластеров выбрать в итоге – решает исследователь. Я опирался на баланс между специфичностью и воспроизводимостью.

Если кластеров будет слишком много, то они будут очень СПЕЦИФИЧНЫМИ, и НЕ очень ВОСПРОИЗВОДИМЫМИ. А если кластеров будет слишком мало (например два: мужчины и женщины), то описание этих сегментов будет слишком общим и малополезным.

Я использовал такой подход: изучал специфичные, компактные кластеры. Например, «богатые неработающие женщины с детьми за 50», а потом объединял их с другими кластерами похожих женщин. В итоге получился кластер «Прагматичные худеющие женщины», под критерии которого подходит сразу 16% клиентов. Не слишком обще и не слишком специфично.

4. SELECT * GROUP BY Segment_name

Теперь самое интересное! Давайте изучим все имеющиеся данные в разрезе полученных кластеров. Для этого рассмотрим все доступные признаки и определим те, которые стали причиной разделения клиентов на сегменты и интерпретируем их.
График важности характеристик по методу Кано
Верхушка сводной таблицы в которой приведены все характеристики клиентов в разрезе по сегментам клиентов.
Цветом прокрашены значимые отличия от total.

Образ результата

Все отклонения между сегментами можно изучить и выделить главные.
Ниже представлены портреты, которые получились после интерпретации данных:
График важности характеристик по методу Кано
Есть ли сегмент, который принес 80% прибыли?

Нет, но мы можем наблюдать сегмент клиентов 30%, который приносит 38% прибыли. И наоборот — сегмент «грустных», к которому относится 20% клиентов, приносящие 11% прибыли.

Чем это объяснить?
PRODUCT MARKET FIT-ом! (да, да, вопрос про то, насколько вы расстроитесь, если компания перестанет существовать мы тоже задавали :) То есть теперь нам известны характеристики людей, для которых наш сервис выполняет действительно важную «работу» и знаем, что это за «работа»: экономить время и силы на рутинной готовке. Кроме этого мы знаем, каким рекламным каналам они доверяют и что для них важно при выборе сервисов.

Например «валютные айтишники экономящие время» среди всех каналов коммуникаций доверяют только друзьям и рекомендациям. У этого сегмента самые высокие PMF, LTV и NPS, а ключевой драйвер для них — это экономия времени. Этот же драйвер релевантен для «молодых осознанных девушек», а вот «прагматичные худеющие женщины» пользуются продуктом, потому что он помогает худеть. Предпочитаемые линейки, используемые функции приложения и любимые блоггеры у этих сегментов будут также отличаться!

Применение сегментов для развития продукта и маркетинга

Полученные сегменты применяются для повышения конверсии за счет целевого таргетирования. Времена газет и телевидения прошли. При помощи таргетинга диджитал каналов мы можем точечно целиться по сегментам с тем посылом, который попадает именно в их ценности и потребности. Например, самые «валютные» клиенты доверяют только рациональным доводам и рекомендациями друзей. Это намекает на то, в какую сторону развивать реферальную программу. Аналогичные связки «сегмент ~ канал» известны и для других кластеров. Например, мы достоверно знаем, какие клиенты доверяют Вконтакте и с какими коммуникациями к ним подходить.

Теперь про продукт продукт. Во-первых понимание портретов развивает эмпатию. Это просто магия, когда ты приходишь на глубинное интервью с клиентом и перед тобой оживает реальный представитель своего сегмента. Благодаря сегментам мы можем выкатывать именно те фичи, которые важны/нужны самым ценным клиентам (а не тем, кто пользуется продуктом пару раз и уходит навсегда). Таким образом портреты помогают для приоритезация бэклога, роста LTV и NPS.

А вам такое полезно?

Я размышляю над автоматизацией алгоритма, который будет «из коробки» рассчитывать сегменты и для других компаний. Если такое может быть полезно для вашей компании, то приходите обсудить пилотный проект.

Недавно я опубликовал онлайн пособие «Анализ данных для хулиганов». В нем собраны фреймворки и методологии для управления продуктом и маркетингом на основе данных.
Про кластерный анализ там тоже есть :)
Понравилась статья?
Поделиться: