Tidy data БЛОГ

Как понимать Boxplot?


Очень просто
Чтобы характеризовать распределение числового признака часто используют среднеарифметическое. Но среднее ничего не сообщает о форме, размахе вариации и наличии выбросов.

Боксплот — это способ визуализации о которым договорились статистики, чтобы в простой картинке передать всю необходимую информацию о распределении числовых переменных.
Интерпретация​ боксплота (ящика с усами)
Интерпретация боксплота.
В нашем примере множество осьминогов и утят оценивают вероятность покупки чего-либо.
Вот, что показывает боксплот:

Медиана – это значение элемента в центре ранжированного ряда.
Например, если всех осьминогов выставить в порядке возрастания их оценок, то медианой будет та оценка, которую поставил осьминог в середине. А это значит, что половина осьминогов справа оценили вероятность покупки ниже, а другая половина (слева) выше, чем медианный.

Медиана меньше подвержена влиянию выбросов, поэтому в центре отображается именно она, а не среднеарифметическое.

Верхний квартиль – это значение, выше которого только 25% оценок.
Нижний квартиль – это значение, ниже которого только 25% оценок.
Межквартильный размах (МКР) – это разница между 75% и 25% квартилем. Внутри этого диапазона лежит 50% наблюдений. Если диапазон узкий (как в случае с осьминогами), значит члены подгруппы единогласны в своих оценках. Если широкий – значит однородного мнения нет (как у цыплят).

Выбросы – это нетипичные наблюдения. Что именно считать нетипичным? Зависит от контекста, но можно прибегнуть к следующем расчетам:
Выбросы – это значения за пределами:
  • 25% перцентили минус 1.5 х МКР
  • 75% перцентили плюс 1.5 х МКР

Уровень значимости не имеет отношения к ящику, но часто результаты стат. тестов и боксплоты удобно показать вместе. P-value помогает понять: реально ли существуют различия в оценках (у осьминогов и цыплят) или видимые отличия получились случайно из-за того, что мы используем выборочные наблюдение и не обследовали вообще всех осьминогов и цыплят.

Коротко: если p-value меньше 0.05, значит различия между подгруппами НЕ случайны (т.е. различия между подгруппам статистически значимы).
Хотите систематизировать свои знания по аналитике?
Встречайте «Анализ данных для хулиганов»


Онлайн пособие о том, как создавать великолепные продукты и эффективно управлять маркетингом на основе данных⚡


Методики / Фреймворки / Шаблоны для скачивания

Как построить боксплот

Проще всего это сделать при помощи скрипта на языке R
Boxplot в R строиться в три строчки (в одну стройку, если библиотека ggplot2 уже скачана и подключена)

install.packages('ggplot2') #скачайте библиотеку для графиков
library(ggplot2) #активируйте её
ggplot(data, aes(x=F, y=N))+geom_boxplot() #постройте свой первый боксплот
В скрипте нужно изменить три значения на ваши собственные:
data это имя вашей таблицы с данными
F имя колонки в таблице "data", которая содержит метки групп сравнения
(например: "осьминог/цыпленок")
N имя колонки в таблице "data", которая содержит числа, которые вы анализируете (например готовность купить что-то, выраженную в 5-балльной шкале)
Понравилась статья?