Вот, что показывает боксплот:
Медиана – это значение элемента в центре ранжированного ряда.
Например, если всех осьминогов выставить в порядке возрастания их оценок, то медианой будет та оценка, которую поставил осьминог в середине. А это значит, что половина осьминогов справа оценили вероятность покупки ниже, а другая половина (слева) выше, чем медианный.
Медиана меньше подвержена влиянию выбросов, поэтому в центре отображается именно она, а не среднеарифметическое.
Верхний квартиль – это значение,
выше которого только 25% оценок.
Нижний квартиль – это значение,
ниже которого только 25% оценок.
Межквартильный размах (МКР) – это разница между 75% и 25% квартилем. Внутри этого диапазона лежит 50% наблюдений. Если диапазон узкий (как в случае с осьминогами), значит члены подгруппы единогласны в своих оценках. Если широкий – значит однородного мнения нет (как у цыплят).
Выбросы – это нетипичные наблюдения. Что именно считать нетипичным? Зависит от контекста, но можно прибегнуть к следующем расчетам:
Выбросы – это значения за пределами:
- 25% перцентили минус 1.5 х МКР
- 75% перцентили плюс 1.5 х МКР
Уровень значимости не имеет отношения к ящику, но часто результаты стат. тестов и боксплоты удобно показать вместе. P-value помогает понять: реально ли существуют различия в оценках (у осьминогов и цыплят) или видимые отличия получились случайно из-за того, что мы используем выборочные наблюдение и не обследовали вообще всех осьминогов и цыплят.
Коротко: если p-value меньше 0.05, значит различия между подгруппами НЕ случайны (т.е. различия между подгруппам статистически значимы).