Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Критерий согласия Колмогорова

Критерии согласия

Пусть X=(x1, x2, …, xn) – выборка с неизвестной функцией распределения F(x), о которой выдвинута простая гипотеза H0: F(x)=F0(x), где F0(x) – гипотетическая функция распределения (нормальная, показательная, равномерная и т.д.). Альтернативная гипотеза H1: F(x)¹F0(x). В исследовательской практике применяются различные критерии согласия. Наибольшее применение получили критерии согласия Пирсона (критерий c2 – читается хи-квадрат), Колмогорова, Смирнова и др.

Допустим, что построенную по выборке статистическую функцию распределения мы сгладили с помощью некоторой гипотетической функции распределения F(x). Возникает вопрос: а верна ли гипотеза о том, что функция распределения именно F(x), а не какая-либо другая? Точнее, не противоречит ли гипотеза о законе распределения F(x) результатам эксперимента? Чтобы ответить на этот вопрос, пользуются критериями согласия.

Под критерием согласия понимают некоторую величину , которая отражает количественную меру расхождения гипотетического F(x) и эмпирического распределений. Эту величину можно выбрать многими способами, в соответствии с которыми получаются и различные критерии проверки интересующей нас гипотезы.

Критерий согласия Колмогорова

Критерий согласия Колмогорова применяется для проверки гипотез о законе распределения только непрерывных случайных величин и при условии, что параметры распределения известны. В качестве меры расхождения между теоретическим и статистическим распределениями рассматривается максимальное значение модуля разности D=max|Fn(x)-F(x)|, где Fn(x) – эмпирическая функция распределения выборки X.

А.Н. Колмогоров доказал, что какова бы ни была функция распределения F(x) непрерывной случайной величины, при неограниченном увеличении числа независимых наблюдений n вероятность P( стремиться к пределу

P(l)=1- . (1)

Уровень значимости a принимается чаще всего в пределах 0,10–0,20 [Микулик, с. 105]. Это связано с тем, что применение критерия согласия Колмогорова предполагает знание параметров распределения, если они неизвестны, то требуется оценка параметров распределения по другой выборке. Если параметры распределения оцениваются по выборке, которая используется и для проверки критерия согласия, то оценки получаются завышенными и поэтому рекомендуют брать уровень значимости a в 0,10–0,20.

Порядок работы:

1. Выдвигаются гипотезы:

· H0: F(x)=F0(x) – нулевая гипотеза, о том что выборка принадлежит, например, нормальному закону распределения.

· H1: F(x)≠F0(x) – альтернативная гипотеза, не принадлежит.

2. Порядок проверки гипотезы:

· располагаю выборку по возрастанию (строят вариационный ряд);

· строят эмпирическую функцию распределения Fn(x);

· вычисляют, пользуясь предполагаемой функцией F(x), значения теоретической функции распределения, соответствующие наблюдаемым значениям X;

· находят для каждого xi модуль разности между эмпирической и теоретической функциями распределения;

· определяют величину l= = max|Fn(x)-F(x)| ;

· находят критические значения la в зависимости от уровня значимости из табл. 1.

Табл. 1

a 0,5 0,4 0,3 0,2 0,1 0,05 0,02 0,01 0,001
la 0,828 0,895 0,974 1,073 1,224 1,368 1,510 1,627 1,950

Если опытное значение l³la, то гипотеза о согласии теоретического распределения с данными выборки опровергается. Если l£la, то гипотеза принимается.

При использовании программы Statgraphics проверку гипотезы проводят следующим образом:

если P-value>a, то гипотеза принимается,

если P-value<a, то гипотеза отклоняется.

Рассмотрим пример. Выборка представлена в файле "Предварительная обработка" стр. 7, таблица 4. Из рис. 5.1. следует, что P-value<a (0,49848>0,05). Следовательно, гипотеза о нормальности принимается. Проверим гипотезу через величину l. Вычислим величину l= max|Fn(x)-F(x)| =0,0934369*8,944272=0,835725. Из табл. 1 находим la=l0,05=1,368. Так как мы используем одну выборку, то a следует взять от 0,1 до 0,2. Возьмём, например, a=0,1. Тогда l0,1=1,224. Гипотеза принимается.

Проверим гипотезу, используя P-value. Из рис. 5.1. следует, что P-value=0,49848. Следовательно, гипотеза о нормальности принимается.

Предположим теперь, что, например, из физических соображений мы можем высказать гипотезу только о виде закона распределения, а параметры, входящие в него, неизвестны. Тогда критерий согласия Колмогорова не применим. В таких случаях часто используют критерий согласия Пирсона.

Критерий согласия Пирсона

В основе метода проверки гипотезы по критерию c2 лежит сравнение фактически наблюдаемых частот с теоретическими, которые вычисляются в предположении, что закон распределения известен. Например, выборка извлечена из нормального закона распределения. Отметим, что параметры распределения определяются по выборке в отличие от критерия Колмогорова.

Всю числовую ось разобьем на r непересекающихся интервалов (разрядов) точками -¥<x0<x1<x2<…<xr<¥. Примем гипотезу о функции распределения. Неизвестные параметры, входящие в нее, заменим их оценками. Таким образом, гипотетическая функция распределения F(x) будет известна, и можно будет найти вероятности pi=F(xi)-F(xi-1) попадания случайной величины в i-й разряд. Возьмем статистику

(2)

Здесь n – объем выборки, r – число разрядов, ni– число значений в i-м разряде, pi – вероятность попадания в i – интервал. Пирсон доказал, что при достаточно большом объёме выборки эта статистика имеет закон распределения, приближающийся к c2 – распределению.

Порядок проверки гипотезы:

· вычисляем по формуле (2) ;

· по таблице закона распределения Пирсона определяем значение (a,f); входные данные: уровень значимости a; f=r-m-1 – число степеней свободы, где m – число параметров, входящих в гипотетическую функцию распределения. Например, для нормального закона m=2;

· если < , то гипотеза принимается; если > , то гипотеза отклоняется.

При использовании программы Statgraphics проверку гипотезы проводят следующим образом:

· если P-value>a, то гипотеза принимается,

· если P-value<a, то гипотеза отклоняется.

Рассмотрим пример. Выборка представлена в файле "Предварительная обработка" таблица 4 стр. 7. Программа выдала сообщение см. рис. 5. Здесь Chi-Square= =13,1996; По таблице распределения Пирсона находим значение (a,f)= (0,05,5)=11,1. Так экспериментальное значение больше теоретического, то гипотеза о нормальности отклоняется. Так как таблиц распределения Пирсона не всегда оказывается под рукой, то проще проверить гипотезу, используя P-value. Так как P-value<a (0,021576<0,05), то гипотеза о нормальности отклоняется.

Что мы получили? По критерию согласия c2 гипотеза отклоняется, а по критерию согласия Колмогорова принимается. Как было сказано выше при использовании критерия Колмогорова параметры распределения считаются известными или определяются по параллельным измерениям (по другой выборке). Если мы используем для определения неизвестных параметров ту же самую выборку, то результаты получаются завышенными. Поэтому StatAdvisor программы Statgraphics отдал предпочтение критерию согласия Пирсона, т.е. гипотеза о нормальности отклоняется (см. рис. 5.2).

Замечание. Критерий c2 использует тот факт, что случайная величина , i=1,2, …, r, имеет распределение, близкое к нормальному N(0;1). Чтобы это утверждение было достаточно точным, необходимо,

· чтобы для всех интервалов выполнялось условие npi³5. Если в некоторых интервалах это условие не выполняется, то их следует объединить с соседними.

· объём выборки n>30.

Контрольные вопросы

1. Что называется критерием согласия?

2. Какие критерии согласия Вы знаете?

3. Опишите схему применения критерия согласия Колмогорова

4.Опишите схему применения критерия согласия Пирсона.

4. Каковы достоинства и недостатки критерия согласия Пирсона.

5. Каковы достоинства и недостатки критерия согласия Колмогорова.

6. На основании каких признаков можно произвести предварительный выбор закона распределения случайной величины по опытным данным?

6. Могут ли опытные данные одновременно согласовываться с несколькими гипотезами о законе распределения?

Задача 1. Падения самолётов-снарядов в Лондоне. Во время Второй мировой войны на Лондон упало 537 самолётов-снарядов. Вся территория Лондона была разделена на 576 участков по 0,25 км2. Ниже приведены числа участков nk, на которые упало k снарядов:

k           5 и более
nk            
npk 226,74 211,39 98,54 30,62 7,14 1,57
Ответ:a=0,05; l=0,93; =1, 17; =9,49.

Задача 2. Имеется 200 электронных ламп, выбранных наудачу из большой партии, которая испытывалась на продолжительность работы. Результаты (в часах) приведены в табл. 1

Таблица 1

[xi-1, xi) [0, 300) [300, 600) [600, 900) [900, 1200) [1200, 1500) [1500, 1800)
середина интервала            
ni            
[xi-1, xi) [1800, 2100) [2100, 2400) [2400, 2700) [2700, 3000) [3000, 3300)  
середина интервала            
ni            

Хотелось бы дать разумный ответ на такие вопросы: какую продолжительность работы следует ожидать, если взять наудачу лампу из этой же партии? Какова вероятность того, что лампа проработает не менее 1000 часов? Какова вероятность того, что лампа проработает не менее 200 часов?

Задача 3. Заказчику необходимы валы с допуском отклонения диаметра от номинального размера ±0.1 мкм. Прежде чем покупать партию из 1000 валов, он приобрёл партию из 200 валов, чтобы оценить ожидаемую долю неподходящих изделий. Результаты измерений представлены в табл.

Таблица

середина. интервала -0,14 -0,12 -0,10 -0,08 -0,06 -0,04 -0,02
ni              
середина. интервала 0,00 0,02 0,04 0,06 0,08 0,10 0,12
ni              

Построить гистограмму. По гистограмме сделать предположение о законе распределения.

Литература

1. Феллер В. Введение в теорию вероятностей и её приложения. В 2-х томах. Т, 1; Пер. с англ.– М.: Мир, 1984. – 528 с. – С. 177-178.

2. Сборник задач по математике для втузов. Под редакцией А.В. Ефимова. – М.: Наука,, 1990. – 428 с. – С. 283.

3. И.А. Палий. Прикладная статистика: Учеб. пособие для вузов./И.А. Палий. – М.: Высш. шк., 2004. – 176 с.

4. Дюк Вячеслав. Обработка данных на ПК. – М.: 1997 г. – 234 с.

5.

 

Это версия 5.0

Рис. 1

Рис. 2.

 

Рис. 3.

 

Рис. 4

Рис.5.1

*Indicates that the P-value has been compared to tables of critical values specially constructed for fitting the currently selected distributions. Other P-value are based on general tables and may be very conservative.

*Указывает, что P-значение было по сравнению с таблицами критических значений специально построенных для установки выбранные распределения. Другое P-значение на основе общих таблиц и может быть очень консервативным.

Рис. 5.2

Рис. 5.3.

This pane shows the results of tests run to determine whether X can be adequately modeled by a normal distribution. The chi-square test divides the range of X into nonoverlapping intervals and compares the number of observations in each class to the number expected based on the fitted distribution. The Kolmogorov-Smirnov test computes the maximum distance between the cumulative distribution of X and the CDF of the fitted normal distribution. In this case, the maximum distance is 0,0934369.

На этой панели отображаются результаты тестов, проведенных для выборки X, для проверки гипотезы о нормальном распределении. Критерий хи-квадрат делит диапазон X на непересекающиеся интервалы и сравнивает ряд замечаний в каждом классе на номер ожидаемого на основе встроенной распределения. Критерий Колмогорова-Смирнова вычисляет максимальное расстояние между кумулятивного распределения X и CDF подогнанной нормального распределения. В этом случае, максимальное расстояние 0,0934369.

Since the smallest P-value amongst the teste performed is less than 0,05, we can reject the idea that X comes from normal distribution with 95% confidence.

Так минимальное P-значение среди тестов менее чем 0,05, мы должны отказаться от идеи, что X происходит от нормального распределения с 95% уверенностью.

 

Рис. 6.

Пример

 

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...