Критерий c2. Основные сведения

Сразу отметим распределения, для которых мы проверяем критерий c2, плотности этих распределений можно увидеть здесь. Итак, пусть дана выборка (X1,...,Xn) из распределения F. Проверяется основная гипотеза {F=F0} при альтернативе {F F0}. Статистика критерия c2 (или Пирсона) строится после предварительного группирования выборочных данных. Для этого все множество S возможных значений с.в. Xi разбивается на конечное число непересекающихся частей:
S=S1ИS2И... ИSr,     SiЗSj = Ж, i j.
Обозначим nj - число элементов выборки  (X1,...,Xn),  попавших в множество  Sj,  а  pj  - вероятность попадания с.в. Xi в множество  Sj,  вычисленная с помощью гипотетической функции распределения F=F0. В дальнейшем nj мы будем называть фактическим числом попаданий элементов выборки в интервал группировки, а npj - ожидаемым. В качестве статистики критерия  c2 ; рассматривают следующую, предложенную Пирсоном, меру отклонения эмпирического распределения от предполагаемого теоретического:
c2= r
е
j=1 
(nj-npj)2/npj = r
е
j=1 
nj2/npj - n.
(1)
Справедлива следующая теорема, позволяющая находить распределение статистики  c2 ; при больших значениях n, а стало быть и строить статистический критерий. Если гипотеза  H0 : F=F0 - простая, однозначно фиксирующая вероятности  p1, p2, ... ,pr ,  то статистика  c2  слабо сходится к случайной величине h, имеющей распределение  c2 с r-1 степенями свободы:
c2 Ю h,   n® Ґ.
Для построения критерия, основанного на статистике  c2 предполагаем, что ее распределение совпадает с распределением случайной величины  h и по заданному уровню  a находим критическое значение  C ; такое, что
P(h > C) = a.
Тогда критерий Пирсона имеет следующий вид:
H0Ы  c2 Ј CЫ P(h > c2) < a,
где P(h > c2) - достигаемый уровень значимости.
Заметим, что для практического применения рекомендуется разбиение производить  таким  образом,  чтобы  выполнялось  условие  npi і 5.
При нарушении этого условия нужно объединить соседние множества Sj.
Критерий Пирсона (c2) для проверки параметрической гипотезы. Дана выборка (X1,...,Xn) из неизвестного распределения F. Проверяется сложная гипотеза {F О {Fq;q О Q Н Rd}}, где q - неизвестный параметр, а d - размерность этого параметра. Разобьем числовую ось на r > d+1 интервалов группировки S1,...,Sr. Разбиение проведем так, чтобы выполнялось условие npj(q**) і 5,  j=1,...,r, где q** - оценка максимального правдоподобия неизвестного параметра (будем предполагать, что таковая существует). Через nj обозначим число элементов выборки, попавших в интервал Sj. Заметим, что теперь вероятность pj=PH0(X1 О Sj) зависит от неизвестного параметра q, мера отклонения (1) также зависит от неизвестного параметра q. Пусть q* - значение параметра q, на котором функция (см. (1)) c2(X1,...,Xn,q) достигает своего минимума. В итоге мы получим следующую меру отклонения эмпирического распределения от предполагаемого теоретического:
c2(X1,...,Xn,q*)= r
е
j=1 
(nj-npj(q*))2/npj(q*).
(2)
Обратим внимание, что мы намеренно изначально строили интервалы группировки, так чтобы npj(q**) і (q** - оценка максимального правдоподобия), ведь следует ожидать, что и npj(q*) і 5 (поскольку q* » q**), этот факт естественно следует проверить после нахождения q*. Справедлива следующая теорема, позволяющая находить распределение построенной статистики c2(X1,...,Xn,q*) при больших значениях n. Если верна гипотеза H0, d - размерность параметра q, то при n® Ґ статистика  c2(X1,...,Xn,q* слабо сходится к распределению  c2r-1-d :
c2 Ю c2r-1-d,   n® Ґ,
где c2r-1-d есть распределение c2 с r-1-d степенями свободы. Построим теперь собственно критерий c2, основанный на статистике  c2(X1,...,Xn,q*). Пусть случайная величина h имеет распределение c2r-1-d. Предполагаем, что ее распределение совпадает с распределением  c2r-1-d и по заданному уровню  a находим критическое значение  C  такое, что
P(h > C) = a.
Тогда критерий Пирсона имеет следующий вид:
H0Ы  c2 Ј CЫ P(h > c2) < a,
где P(h > c2) - достигаемый уровень значимости.
Обратим внимание, что если использовать оценку максимального правдоподобия q** вместо оценки q*, то по определению,
c2(X1,...,Xn,q*) Ј c2(X1,...,Xn,q**). Поэтому, если верно неравенство c2(X1,...,Xn,q**) < C, то тем более верно неравенство
c2(X1,...,Xn,q*) < C. Тем самым, если H0 принимается из-за того, что c2(X1,...,Xn,q**) < C, она тем более будет приниматься по функции c2(X1,...,Xn,q*). Для того чтобы отвергнуть H0 придется считать q* и соответственно c2(X1,...,Xn,q*).
Теперь поясним собственно, зачем мы требуем, чтобы npj(q*) і 5. Факт тот, что сходимость c2Ю c2r-1-d,   n® Ґ обеспечивается ЦПТ, поэтому в силу неравенства Берри-Эссеена имеем
PH0(c2 > C)-P(c2r-1-d > C) Ј
max
j 
{b/(npj(1-pj))1/2},
где b - некоторая константа. Маленькие значения npj в знаменателе приведут к существенному различию между истинной ошибкой первого рода и предельной.