В научных, маркетинговых и бизнес исследованиях мы по части (по выборке) судим о целом (о генеральной совокупности). Очень часто и бизнес или ученые подвергают выборки воздействиям и оценивают, как это воздействие повлияло на метрики. Например, как новая производственная технология повлияла на долю брака?
Мы знаем, что обычно доля бракованной продукции, скажем 5% — это метрика, рассчитанная по генеральной совокупности. После внедрения новой технологии мы не можем подвергнуть испытаниям вообще всю продукцию, поэтому оцениваем брак по выборке.
Метрики по выборке всегда будут отличаться от метрики по генеральной совокупности на размер ошибки выборки. Учтем её и рассчитываем доверительный интервал для выборочного среднего и получаем диапазон от 4.2% до 5.8%. Это диапазон в котором в 95% случаев будет попадать выборочное среднее.
Если при оценке новой производственной технологии по выборке доля брака будет меньше, чем 4.2%, то мы можем прийти к выводу, что сокращение доли брака произошло НЕ из-за случайности (не из-за ошибки выборки), а из-за собственно нашего воздействия (внедрения новой технологии). В противном случае вы признаем сокращение доли брака случайным, а новую технологию признаем бесполезной.
Обычно в таких экспериментах сразу считается p-value. Это вероятность получить такие отличия в выборочных оценках (до и после внедрения новой технологии) случайно. Если эта вероятность менее 0.05, то результаты эксперимента признаются значимыми (т.е НЕ случайными, полезными).