Tidy data БЛОГ

Как понимать Boxplot?


Очень просто
Чтобы характеризовать распределение числового признака часто используют среднеарифметическое. Но среднее указывает только на центр распределения и ничего не сообщает о форме, размахе вариации и наличии выбросов.

Боксплот — это способ визуализации о которым договорились статистики, чтобы в простой картинке передать всю необходимую информацию о распределении числовых переменных.
Интерпретация​ боксплота (ящика с усами)
Интерпретация боксплота.
Вот, что показывает боксплот:

Медиана – это значение элемента в центре ранжированного ряда.
Например, если всех осьминогов выставить в порядке возрастания их оценок, то медианой будет та оценка, которую поставил осьминог в середине. А это значит, что половина осьминогов справа оценили вероятность покупки ниже, а другая половина (слева) выше, чем медианный.

Медиана меньше подвержена влиянию выбросов, поэтому в центре отображается именно она, а не среднеарифметическое.

Верхний квартиль – это такая оценка, выше которой только 25% оценок.
Нижний квартиль
– это такое значение, ниже которого только 25% оценок.
Межквартильный размах (МКР) – это разница между 75% и 25% квартилем. Внутри этого диапазона лежит 50% наблюдений. Если диапазон узкий (как в случае с осьминогами), значит члены подгруппы единогласны в своих оценках. Если широкий – значит однородного мнения нет (как у цыплят).

Выбросы – это нетипичные наблюдения. Что именно считать нетипичным? Зависит от контекста, но можно прибегнуть к следующем расчетам:
Выбросы – это значения за пределами:
  • 25% перцентили минус 1.5 х МКР
  • 75% перцентили плюс 1.5 х МКР

Уровень значимости не имеет отношения к ящику, но часто результаты стат. тестов и боксплоты удобно показать вместе. P-value помогает понять: реально ли существуют различия в оценках (у осьминогов и цыплят) или видимые отличия получились случайно из-за того, что мы используем выборочные наблюдение и не обследовали вообще всех осьминогов и цыплят.

Коротко: если p-value меньше 0.05, значит различия между подгруппами НЕ случайны (т.е. различия между подгруппам статистически значимы).
Строгое статистическое определение
P-value – это вероятность ошибки, при отказе от нулевой гипотезы. Или вероятность получить такие или еще более значимые отклонение выборочного среднего, если верна нулевая гипотеза (т.е. отличий между группами в генеральной совокупности нет). Подробнее про всю эту жуть здесь.

Как построить боксплот

Проще всего это сделать при помощи скрипта на языке R
Boxplot в R строиться в три строчки (в одну стройку, если библиотека ggplot2 уже скачана и подключена)
install.packages('ggplot2') #скачайте библиотеку для графиков
library(ggplot2) #активируйте её
ggplot(data, aes(x=F, y=N))+geom_boxplot() #постройте свой первый боксплот
В скрипте нужно изменить три значения на ваши собственные:
data это имя вашей таблицы с данными
F имя колонки в таблице "data", которая содержит метки групп сравнения
(например: "осьминог/цыпленок")
N имя колонки в таблице "data", которая содержит чиста, которые вы анализируете (например готовность купить что-то, выраженную в 5-балльной шкале)

Вместо заключения

Описание статистических метов на примере животных вдохновлено книгой Владимира Савельева «Статистика и котики». Если вы начинаете изучать статистику и вам подходит такой способ объяснения, то рекомендую :)

Понравилась статья?
Бесполезно
Ни рыба ни мясо
Полезно