Сразу отметим распределения, для которых мы проверяем критерий c2, плотности этих распределений можно увидеть здесь. Итак, пусть дана выборка (X1,...,Xn) из распределения F. Проверяется
основная гипотеза {F=F0} при альтернативе {F № F0}.
Статистика критерия c2 (или Пирсона) строится после
предварительного группирования выборочных данных. Для этого
все множество S возможных значений с.в. Xi разбивается на
конечное число непересекающихся частей:
S=S1ИS2И... ИSr, SiЗSj = Ж, i № j.
Обозначим nj - число элементов выборки (X1,...,Xn),
попавших в множество Sj, а pj
- вероятность попадания
с.в. Xi в множество Sj, вычисленная с помощью
гипотетической функции распределения F=F0.
В дальнейшем
nj мы будем называть фактическим числом попаданий элементов выборки в интервал группировки,
а npj
- ожидаемым. В
качестве статистики критерия c2 рассматривают следующую,
предложенную Пирсоном, меру отклонения эмпирического распределения
от предполагаемого теоретического:
c2=
r е
j=1
(nj-npj)2/npj =
r е
j=1
nj2/npj - n.
(1)
Справедлива следующая
теорема, позволяющая находить распределение статистики c2
при больших значениях n, а стало быть и строить статистический
критерий. Если гипотеза H0 :
F=F0 -
простая, однозначно фиксирующая вероятности p1, p2, ... ,pr ,
то статистика c2 слабо сходится к случайной
величине h, имеющей распределение c2 с r-1 степенями
свободы:
c2 Ю h, n® Ґ.
Для построения критерия, основанного на статистике c2,
предполагаем, что ее распределение совпадает с распределением
случайной величины h, и по заданному уровню a
находим критическое значение C такое, что
P(h > C) = a.
Тогда критерий Пирсона имеет следующий вид:
H0Ы c2 Ј CЫ P(h > c2) < a,
где P(h > c2)
- достигаемый уровень значимости.
Заметим, что для практического применения рекомендуется разбиение
производить таким образом, чтобы выполнялось условие
npi і 5. При нарушении этого условия нужно объединить соседние
множества Sj.
Критерий Пирсона (c2) для проверки параметрической
гипотезы. Дана выборка (X1,...,Xn) из неизвестного
распределения F. Проверяется сложная гипотеза {F О {Fq;q О Q Н Rd}}, где q -
неизвестный параметр, а d - размерность этого параметра.
Разобьем числовую ось на r > d+1 интервалов группировки
S1,...,Sr. Разбиение проведем так, чтобы выполнялось условие
npj(q**) і 5, j=1,...,r, где
q**
- оценка максимального правдоподобия неизвестного параметра
(будем предполагать, что таковая существует). Через nj
обозначим число элементов выборки, попавших в интервал Sj.
Заметим, что теперь вероятность pj=PH0(X1 О Sj)
зависит от неизвестного параметра q, мера отклонения
(1) также зависит от неизвестного параметра q. Пусть
q* - значение параметра q, на котором функция
(см. (1)) c2(X1,...,Xn,q) достигает своего
минимума. В итоге мы получим следующую меру отклонения
эмпирического распределения от предполагаемого теоретического:
c2(X1,...,Xn,q*)=
r е
j=1
(nj-npj(q*))2/npj(q*).
(2)
Обратим внимание, что мы намеренно изначально строили интервалы
группировки, так чтобы npj(q**) і 5
(q** - оценка максимального правдоподобия), ведь
следует ожидать, что и npj(q*) і 5 (поскольку
q* » q**), этот факт естественно
следует проверить после нахождения q*. Справедлива
следующая теорема, позволяющая находить распределение построенной
статистики c2(X1,...,Xn,q*) при больших значениях
n. Если верна гипотеза H0, d - размерность параметра
q, то при n® Ґ статистика
c2(X1,...,Xn,q*) слабо сходится к распределению
c2r-1-d:
c2 Ю c2r-1-d, n® Ґ,
где c2r-1-d есть распределение c2 с r-1-d
степенями свободы. Построим теперь собственно критерий c2,
основанный на статистике c2(X1,...,Xn,q*). Пусть
случайная величина h имеет распределение c2r-1-d.
Предполагаем, что ее распределение совпадает с распределением
c2r-1-d, и по заданному уровню a находим
критическое значение C такое, что
P(h > C) = a.
Тогда критерий Пирсона имеет следующий вид:
H0Ы c2 Ј CЫ P(h > c2) < a,
где P(h > c2)
- достигаемый уровень значимости.
Обратим внимание, что если использовать оценку максимального
правдоподобия q** вместо оценки q*, то
по определению, c2(X1,...,Xn,q*) Ј c2(X1,...,Xn,q**). Поэтому, если верно
неравенство c2(X1,...,Xn,q**) < C, то тем
более верно неравенство c2(X1,...,Xn,q*) < C. Тем
самым, если H0 принимается из-за того, что
c2(X1,...,Xn,q**) < C, она тем более будет
приниматься по функции c2(X1,...,Xn,q*). Для того
чтобы отвергнуть H0 придется считать q* и
соответственно c2(X1,...,Xn,q*).
Теперь поясним собственно, зачем мы требуем, чтобы
npj(q*) і 5. Факт тот, что сходимость c2Ю c2r-1-d, n® Ґ обеспечивается ЦПТ,
поэтому в силу неравенства Берри-Эссеена имеем
PH0(c2 > C)-P(c2r-1-d > C) Ј
max
j
{b/(npj(1-pj))1/2},
где b - некоторая константа. Маленькие значения npj в
знаменателе приведут к существенному различию между истинной
ошибкой первого рода и предельной.