Основы статистики

Это база

В этом разделе собраны базовые понятия статистики. К нему можно возвращаться, чтобы подсматривать. Здесь собран минимум, необходимый для работы, но не смотря на это раздел получился объемным. Используйте оглавление для удобства навигации:

Категориальные признаки

Количественные признаки

Показатели центра распределения

Показатели структуры распределения

Показатели изменчивости

Нормальное распределение

Статистика оперирует рядами распределения, т.е. набором объектов у которых могут быть:

количественные признаки (длина, высота, выручка);
категориальные признаки (цвет, пол, бренд и всё то, что не выразить цифрами).

Категориальные признаки

Категориальные признаки (также называются номинативные) — это цвет, пол, категория продукции, бренд и все то, что не выразить цифрами. С ними тоже можно проводить статистические операции — подсчет частоты и доли.

Структура клиентов по основной потребности. Угадайте, какой продукт?

Мощнейший инструмент для работы с категориальными данными — это сводные таблицы, которые используются для подсчета частоты и доли объектов каждой категории.

В таблице пересечены потребности клиентов и названия моделей, которые они приобрели.
Данные намекают, что некоторые клиенты используют модели не по назначению или бренд их некорректно позиционирует.

Количественные признаки

С количественными (числовыми) признаками можно производить гораздо больше статистических изысканий: рассчитывать показатели центра распределения (типичные значения), анализировать структуру и форму распределения, наличие выбросов (нетипичных наблюдений), применять статистические тесты и модели. Разберем всё по порядку:

Показатели центра распределения

Количественные ряды можно описать всего одной цифрой. Для этого существуют характеристики центра распределения:

Мода – самое часто встречающееся значение признака.
Медиана – значение признака у объекта, который находится в центре ранжированного ряда.
Среднеарифметическое – сумма значений, деленное на их количество.

Такой тип графиков называется гистограммой распределения.
Чем выше столбик — тем больше в выборке наблюдений с соответствующим значением признака.
Распределение, как на графиках называется логнормальным из-за ассиметричной формы

Чаще всего, когда нам нужно описать весь количественный ряд одной цифрой мы используем среднеарифметическое, но у него есть недостаток. Если распределение ассиметричное или в нем присутствуют выбросы, то среднеарифметическое будет вводить нас в заблуждение. В таких случаях вместо него следует использовать медиану.

Выбросы — это нетипичные наблюдения.

Нет строгого определения, что считать «нетипичным». Каждый случай исследователь рассматривает отдельно. Например, если в изучаемом ряду зарплат вы наблюдаете значения: 40, 65, 92, 105, 122 и 495 тыс. руб. в мес., то значение 495 можно признать выбросом и исключить из анализа или заменить на среднее (а можно и не исключать).

Существует и формальное правило определения выбросов. Согласно нему выбросами считаются все значения больше, чем:

Выбросы > Третий Квартиль + 1.5 х Межквартильный Размах

Показатели структуры распределения

Квартили — это значения, которые делят распределение на 4 равные части одинакового размера. Различают первый квартиль (Q1), второй (Q2 — это медиана) и третий (Q3). Первый квартиль — это такое значение, меньше которого будет 25% наблюдений, а 75% будут больше. Q2 является медианой и делит распределение пополам. Q3 (третий квартиль) — это значение, больше которого будет 25% наблюдений.

А еще изредка встречаются децили —значения, которые делят выборку на 10 равных частей.

Сравнение двух распределений при помощи боксплота. Подробнее про визуализацию >

Показатели изменчивости

Два ряда могут иметь одинаковую среднюю, но разный диапазон разброса значений. Это вариацию (другими словами изменчивость) можно выразить разными способами:

Размах — разница между самым большим и самым маленьким значением.
Межквартильный размах — разница между первым и третьим квартилем.
Дисперсия — сумма квадратов отклонений индивидуальных значений от среднего, деленное на их количество. Не интерпретируется.
Стандартное отклонение — квадратный корень из дисперсии. Интерпретируемая величина. Например, если стандартное отклонение роста в выборке равно 10 см. — это значит, что в среднем рост каждого отдельного человека на 10 см. отличается от среднего роста измеренных людей.
Коэффициент вариации — относительный показатель вариации. Рассчитывается, как отношение стандартного отклонения к среднему. Подходит для сравнения выборок с разными единицами измерений. Если средний рост россиян 170 см., а стандартное отклонение их роста 10 см., то коэф. вариации будет равен 10/170 = 5.9%. Значит рост россиян в среднем отличается от среднего на 6%.

Нормальное распределение

Понятие нормального распределения (также обозначается «распределением Гаусса») играет ключевую роль для понимания статистических тестов. Не вдаваясь в формулы можно сказать, что нормальным распределением является распределение симметричной формы, у которого среднее = моде = медиане. А стандартным нормальным распределением называется нормальное распределение с математическим ожиданием = 0 и стандартным отклонением = 1.

Нормальным распределением является распределение любой случайной величины. Например гены людей смешиваются случайно, поэтому и рост населения подчиняется законам нормального распределения.

Зачем это нам? Затем, что нормальное распределение обладает стандартными свойствами:

Ключевое свойство нормальных распределений

При нормальном распределении 95% наблюдений будут лежать в диапазоне
среднеарифметическое плюс минус два стандартных отклонения.

Из этого вытекает: вероятность встретить в выборке значение, которое отличается от среднеарифметического более чем на два стандартных отклонения менее 5%!

Немного строгой теории:

К чему все эти сигмы? А вот к чему:

Статистические тесты

В научных, маркетинговых и бизнес исследованиях мы по части (по выборке) судим о целом (о генеральной совокупности). Очень часто и бизнес или ученые подвергают выборки воздействиям и оценивают, как это воздействие повлияло на метрики. Например, как новая производственная технология повлияла на долю брака?

Мы знаем, что обычно доля бракованной продукции, скажем 5% — это метрика, рассчитанная по генеральной совокупности. После внедрения новой технологии мы не можем подвергнуть испытаниям вообще всю продукцию, поэтому оцениваем брак по выборке.

Метрики по выборке всегда будут отличаться от метрики по генеральной совокупности на размер ошибки выборки. Учтем её и рассчитываем доверительный интервал для выборочного среднего и получаем диапазон от 4.2% до 5.8%. Это диапазон в котором в 95% случаев будет попадать выборочное среднее.

Если при оценке новой производственной технологии по выборке доля брака будет меньше, чем 4.2%, то мы можем прийти к выводу, что сокращение доли брака произошло НЕ из-за случайности (не из-за ошибки выборки), а из-за собственно нашего воздействия (внедрения новой технологии). В противном случае вы признаем сокращение доли брака случайным, а новую технологию признаем бесполезной.

Обычно в таких экспериментах сразу считается p-value. Это вероятность получить такие отличия в выборочных оценках (до и после внедрения новой технологии) случайно. Если эта вероятность менее 0.05, то результаты эксперимента признаются значимыми (т.е НЕ случайными, полезными).

Статистические критерии невозможно объяснить за один абзац. Конкретные формулы, нюансы подходов зависят от типов данных, формы распределения и дизайна экспериментов. Цель этого блока — дать общее понимание и умение корректно интерпретировать P-Value.

Продолжить путь к пониманию статистических критериев вам поможет:

АБ-тесты

Выбор объективно лучшей альтернативы

Проверяем гипотезы при помощи статистики

Новое лекарство работает? Какой баннер лучше?

Репрезентативность: Объем выборки. Квоты. Случайный отбор.

Планируем исследования и эксперименты

А так же:

gallery.shinyapps.io/CLT_mean/ — интерактивная визуализация, которая показывает, как ошибки выборки подчиняются законам нормального распределения и как зависят от дисперсии / числа наблюдений

rpsychologist.com/d3/nhst/ — интерактивная визуализация, которая объясняет мощность статистических экспериментов, типы ошибок, p-value и размер эффекта.

Корреляция

Корреляция — это степень совместного варьирования двух числовых переменных. Широко распространен линейный коэффициент корреляции Пирсона. Он измеряется в диапазоне от -1 до +1 отражает тесноту линейной зависимости двух переменных и ее направление.

Скриншоты со страницы «Interpreting Correlations»

Запомните Correlation ≠ Causation!
Наличие корреляции не означает наличие причинно-следственной связи.

Число пожаров в городах тесно коррелирует с числом пожарных машин, но из этого не следует, что пожарники — поджигатели. На самом деле есть третья переменная, которая все объясняет — размер города.

Tyler Vigen на своем сайте собирает примеры графиков нелепых корреляций.

Регрессия

Регрессия — построение уравнения, описывающего поведение признака результата и помощи внешних факторов — предикторов. Например, при помощи регрессии можно вычислить формулу, которая предскажет, сколько продаж мы получим в следующих периодах в зависимости от затрат на маркетинг.

Пример простейшей регрессионной модели

В данном примере «ПРОДАЖИ» — это зависимая переменная, поведение которой моделируется при помощи предиктора «Рекламный бюджет». В модели может быть любое число предикторов, как количественных (числовых), так и номинативных (не числовых). Коэффициенты уравнения подбираются при помощи метода наименьших квадратов.

Нулевой коэффициент указывает, каким будет уровень зависимой переменной, если предиктор будет равен нулю. В нашем примере он ответит на вопрос, каким будет уровень продаж, если вообще не тратить средства на рекламу.

Коэффициент регрессии (в нашем примере - 0.00058) показывает, сколько продаж приносит каждый рубль, вложенный в рекламу. При помощи него вы ответите на вопрос: «Сколько рекламного бюджета нужно потратить на рекламу, чтобы привлечь 1 дополнительную продажу?»

Перед тем как интерпретировать и использовать регрессионную модель нужно проверить её по критериям качества:

Ниже приведены визуализации и объясняющие материалы на тему регрессии (англ):

gallery.shinyapps.io/slr_diag/— визуализация диагностики простой регрессионной модели
setosa.io/ev/ordinary-least-squares-regres... — интерактивное объяснение метода наименьших квадратов
mlu-explain.github.io/linear-regression/ — визуальное объяснение регрессии

✨ ЗАДАНИЕ: Проанализируйте распределение цен на квартиры. От чего они зависят сильней всего?

Скачать данные >>

Навигатор по заданию:

1. Постройте распределение цен на объекты недвижимости. Рассчитайте показатели центра, структуры и изменчивости распределения цен. Удалите или замените выбросы. Постройте матрицу корреляций цен с другими числовыми переменными.

2. Обработайте номинативные данные. Укрупните малочисленные группы, чтобы не попадаться в ловушку малых выборок. Найдите подгруппы, которые сильней всего определяют цену квартир. Покажите топ-5 факторов по силе влияния на цену. Найдите сегменты с самыми низкими и самыми высокими ценами на квартиры.

3. Постройте регрессионную модель, которая «объяснит» поведение цен на недвижимость.
Продиагностируйте модель перед тем, как делать выводы.

4. Подготовьте аналитическую записку.
Структурировано и понятно изложите выводы на одной странице. Используйте визуализацию.

5. Отдельным блоком напишите бизнес выводы, полученные из этих данных.
Что следует предпринять компании заказчику исследования?

Оцените страницу:

Следующая страница: дашборды

Это курс от TidyData.ru.
Подробнее об авторе и контакты >
Войти // Купить полный доступ

© 2023 TidyData. Копирование материалов недопустимо