Все тесты гипотез имеют одинаковую основную терминологию и структуру.
Нулевая гипотеза - это утверждение о населении, которое вы хотели бы проверить. Оно является «нулевым» в том смысле, что оно часто представляет собой веру в статус-кво, такую как отсутствие характеристики или отсутствие эффекта. Его можно формализовать, утверждая, что параметр популяции или комбинация параметров популяции имеет определенное значение. В примере, приведенном в тестировании гипотез, нулевая гипотеза будет заключаться в том, что средняя цена газа по штату составила 1,15 доллара. Это записано H0: start= 1,15.
Альтернативная гипотеза - контрастное утверждение о популяции, которое можно проверить против нулевой гипотезы. В примере, приведенном в проверке гипотез, возможными альтернативными гипотезами являются:
H1: ≠ 1,15 - Средний показатель по штату отличался от 1,15 долл. США (двусторонний тест)
H1: start> 1.15 - Средний показатель по штату превысил 1,15 долл. США (тест правого хвоста)
H1: start< 1,15 - Средний показатель по штату составил менее 1,15 долл. США (тест левого хвоста)
Для проведения теста гипотезы собирают случайную выборку из популяции и вычисляют соответствующую тестовую статистику для суммирования выборки. Эта статистика варьируется в зависимости от типа теста, но его распределение при нулевой гипотезе должно быть известным (или предполагаемым).
Значение p теста является вероятностью, при нулевой гипотезе, получения значения проверочной статистики как экстремального или более экстремального, чем значение, вычисленное из выборки.
Уровень значимости теста - это порог вероятности α, согласованный до проведения теста. Типичное значение α равно 0,05. Если значение p теста меньше α, тест отклоняет нулевую гипотезу. Если значение p больше α, недостаточно доказательств для отклонения нулевой гипотезы. Следует отметить, что отсутствие доказательств отклонения нулевой гипотезы не является доказательством принятия нулевой гипотезы. Следует также отметить, что существенная «значимость» альтернативы не может быть выведена из статистической значимости теста.
Уровень значимости α можно интерпретировать как вероятность отклонения нулевой гипотезы, когда она на самом деле верна - ошибка типа I. Распределение проверочной статистики при нулевой гипотезе определяет вероятность α ошибки типа I. Даже если нулевая гипотеза не отвергнута, она все равно может быть ложной - ошибка типа II. Распределение проверочной статистики при альтернативной гипотезе определяет вероятность β ошибки типа II. Ошибки типа II часто обусловлены небольшими размерами выборки. Силой теста, 1 - β, является вероятность правильного отклонения ложной нулевой гипотезы.
Результаты тестов гипотез часто сообщаются с доверительным интервалом. Доверительный интервал - это оценочный диапазон значений с заданной вероятностью содержания истинного значения совокупности параметра. Верхняя и нижняя границы доверительных интервалов вычисляются из выборочной оценки параметра и известного (или предполагаемого) распределения выборки оценщика. Типичным предположением является то, что оценки будут нормально распределены с повторной выборкой (как диктуется Центральной предельной теоремой). Более широкие доверительные интервалы соответствуют плохим оценкам (более мелкие выборки); узкие интервалы соответствуют лучшим оценкам (большие выборки). Если нулевая гипотеза утверждает значение параметра совокупности, тест отклоняет нулевую гипотезу, когда гипотетическое значение лежит вне вычисленного доверительного интервала для параметра.