У меня есть набор данных по N номерам, которые я хочу проверить на нормальность. Я знаю, что scipy.stats имеет функцию kstest но нет примеров того, как его использовать и как интерпретировать результаты. Кто-нибудь здесь знаком с этим, что может дать мне несколько советов?
В соответствии с документацией использование kstest возвращает два числа, статистическую статистику D K и значение p. Если p-значение больше уровня значимости (скажем, 5%), то мы не можем отвергнуть гипотезу о том, что данные поступают из данного распределения.
Когда я выполняю пробный запуск, рисуя 10000 выборок из обычного распределения и тестирования для гауссовости:
import numpy as np
from scipy.stats import kstest
mu,sigma = 0.07, 0.89
kstest(np.random.normal(mu,sigma,10000),'norm')
Я получаю следующий вывод:
(0.04957880905196102, 8.9249710700788814e-22)
Значение p меньше 5%, что означает, что мы можем отклонить гипотезу о том, что данные обычно распределяются. Но образцы были взяты из нормального распределения!
Может кто-нибудь понять и объяснить мне несоответствие здесь?
(Если тестирование на нормальность принимает mu = 0 и sigma = 1? Если да, то как я могу проверить, что мои данные распределены по гауссову, но с другим mu и sigma?)