Tidy data БЛОГ

Как понимать Boxplot?


Очень просто
Чтобы характеризовать распределение числового признака часто используют среднеарифметическое. Но среднее ничего не сообщает о форме, размахе вариации и наличии выбросов.

Боксплот — это способ визуализации о которым договорились статистики, чтобы в простой картинке передать всю необходимую информацию о распределении числовых переменных.
Интерпретация​ боксплота (ящика с усами)
Интерпретация боксплота.
В нашем примере множество осьминогов и утят оценивают вероятность покупки чего-либо.
Вот, что показывает боксплот:

Медиана – это значение элемента в центре ранжированного ряда.
Например, если всех осьминогов выставить в порядке возрастания их оценок, то медианой будет та оценка, которую поставил осьминог в середине. А это значит, что половина осьминогов справа оценили вероятность покупки ниже, а другая половина (слева) выше, чем медианный.

Медиана меньше подвержена влиянию выбросов, поэтому в центре отображается именно она, а не среднеарифметическое.

Верхний квартиль – это значение, выше которого только 25% оценок.
Нижний квартиль – это значение, ниже которого только 25% оценок.
Межквартильный размах (МКР) – это разница между 75% и 25% квартилем. Внутри этого диапазона лежит 50% наблюдений. Если диапазон узкий (как в случае с осьминогами), значит члены подгруппы единогласны в своих оценках. Если широкий – значит однородного мнения нет (как у цыплят).

Выбросы – это нетипичные наблюдения. Что именно считать нетипичным? Зависит от контекста, но можно прибегнуть к следующем расчетам:
Выбросы – это значения за пределами:
  • 25% перцентили минус 1.5 х МКР
  • 75% перцентили плюс 1.5 х МКР

Уровень значимости не имеет отношения к ящику, но часто результаты стат. тестов и боксплоты удобно показать вместе. P-value помогает понять: реально ли существуют различия в оценках (у осьминогов и цыплят) или видимые отличия получились случайно из-за того, что мы используем выборочные наблюдение и не обследовали вообще всех осьминогов и цыплят.

Коротко: если p-value меньше 0.05, значит различия между подгруппами НЕ случайны (т.е. различия между подгруппам статистически значимы).
Хотите систематизировать свои знания по аналитике?

Как построить боксплот

Проще всего это сделать при помощи скрипта на языке R
Boxplot в R строиться в три строчки (в одну стройку, если библиотека ggplot2 уже скачана и подключена)
install.packages('ggplot2') #скачайте библиотеку для графиков
library(ggplot2) #активируйте её
ggplot(data, aes(x=F, y=N))+geom_boxplot() #постройте свой первый боксплот
В скрипте нужно изменить три значения на ваши собственные:
data это имя вашей таблицы с данными
F имя колонки в таблице "data", которая содержит метки групп сравнения
(например: "осьминог/цыпленок")
N имя колонки в таблице "data", которая содержит числа, которые вы анализируете (например готовность купить что-то, выраженную в 5-балльной шкале)
Понравилась статья?