Выравнивание статистических рядов
Во всяком статистическом распределении неизбежно присутствуют элементы случайности, связанные с тем, что число наблюдений ограничено, что произведены именно те, а не другие опыты, давшие именно те, а не другие результаты. Только при очень большом числе наблюдений эти элементы случайности сглаживаются, и случайное явление обнаруживает в полной мере присущую ему закономерность. На практике мы почти никогда не имеем дела с таким большим числом наблюдений и вынуждены считаться с тем, что любому статистическому распределению свойственны в большей или меньшей мере черты случайности. Поэтому при обработке статистического материала часто приходится решать вопрос о том, как подобрать для данного статистического ряда теоретическую кривую распределения, выражающую лишь существенные черты статистического материала, но не случайности, связанные с недостаточным объемом экспериментальных данных. Такая задача называется задачей выравнивания (сглаживания) статистических рядов. Задача выравнивания заключается в том, чтобы подобрать теоретическую плавную кривую распределения, с той или иной точки зрения наилучшим образом описывающую данное статистическое распределение (рис. 7.5.1). Рис. 7.5.1 Задача о наилучшем выравнивании статистических рядов, как и вообще задача о наилучшем аналитическом представлении эмпирических функций, есть задача в значительной мере неопределенная, и решение ее зависит от того, что условиться считать «наилучшим». Например, при сглаживании эмпирических зависимостей очень часто исходят из так называемого принципа или метода наименьших квадратов (см. 14.5), считая, что наилучшим приближением к эмпирической зависимости в данном классе функций является такое, при котором сумма квадратов отклонений обращается в минимум. При этом вопрос о том, в каком именно классе функций следует искать наилучшее приближение, решается уже не из математических соображений, а из соображения, связанных с физикой решаемой задачи, с учетом характера полученной эмпирической кривой и степени точности произведенных наблюдений. Часто принципиальный характер функции, выражающей исследуемую зависимость, известен заранее из теоретических соображении, из опыта же требуется получить лишь некоторые численные параметры, входящие в выражение функции; именно эти параметры подбираются с помощью метода наименьших квадратов.
Аналогично обстоит дело и с задачей выравнивания статистических рядов. Как правило, принципиальный вид теоретической кривой выбирается заранее из соображений, связанных с существом задачи, а в некоторых случаях просто с внешним видом статистического распределения. Аналитическое выражение выбранной кривой распределения зависит от некоторых параметров; задача выравнивания статистического ряда переходит в задачу рационального выбора тех значений параметров, при которых соответствие между статистическим и теоретическим распределениями оказывается наилучшим. Предположим, например, что исследуемая величина есть ошибка измерения, возникающая в результате суммирования воздействий множества независимых элементарных ошибок; тогда из теоретических соображений можно считать, что величина подчиняется нормальному закону: (7.5.1) и задача выравнивания переходит в задачу о рациональном выборе параметров и в выражении (7.5.1). Бывают случаи, когда заранее известно, что величина распределяется статистически приблизительно равномерно на некотором интервале; тогда можно поставить задачу о рациональном выборе параметров того закона равномерной плотности
которым можно наилучшим образом заменить (выровнять) заданное статистическое распределение. Следует при этом иметь в виду, что любая аналитическая функция , с помощью которой выравнивается статистическое распределение, должна обладать основными свойствами плотности распределения: (7.5.2) Предположим, что, исходя из тех или иных соображений, нами выбрана функция , удовлетворяющая условиям (7.5.2), с помощью корой мы хотим выровнять данное статистическое распределение; в выражение этой функции входит несколько параметров ; требуется подобрать эти параметры так, чтобы функция наилучшим образом описывала данный статистический материал. Один из методов, применяемых для решения этой задачи, - это так называемый метод моментов. Согласно методу моментов, параметры выбираются с таким расчетом, чтобы несколько важнейших числовых характеристик (моментов) теоретического распределения были равны соответствующим статистическим характеристикам. Например, если теоретическая кривая зависит только от двух параметров и , эти параметры выбираются так, чтобы математическое ожидание и дисперсия теоретического распределения совпадали с соответствующими статистическими характеристиками и . Если кривая зависит от трех параметров, можно подобрать их так, чтобы совпали первые три момента и т.д. При выравниваниистатистических рядов может оказаться полезной специально разработанная система кривых Пирсона, каждая из которых зависит в общем случае от четырех параметров. При выравнивании эти параметры выбираются с тем расчетом, чтобы сохранить первые четыре момента статистического распределения (математическое ожидание,дисперсию, третий и четвертый моменты). Оригинальный набор кривых распределения, построенных по иному принципу, дал Н.А. Бородачев. Принцип, на котором строится система кривых Н.А. Бородачева, заключается в том, что выбор типа теоретической кривой основывается не на внешних формальных признаках, а на анализе физической сущности случайного явления или процесса, приводящего к тому или иному закону распределения. Следует заметить, что при выравнивании статистических рядов нерационально пользоваться моментами порядка выше четвертого, так как точность вычисления моментов резко падает с увеличением их порядка.
Пример. 1. В 7.3 приведено статистическое распределение боковой ошибки наводки при стрельбе с самолета по наземной цели. Требуется выровнять это распределение с помощью нормального закона: . Нормальный закон зависит от двух параметров: и . Подберем эти параметры так, чтобы сохранить первые два момента – математическое ожидание и дисперсию – статистического распределения. Вычислим приближенно статистическое среднее ошибки наводки по формуле (7.47), причем за представителя каждого разряда примем его середину: Для определения дисперсии вычислим сначала второй начальный момент по формуле (7.4.9), полагая Пользуясь выражением дисперсии через второй начальный момент (формула (7.4.6)), получим: Выберем параметры и нормального закона так, чтобы выполнялись условия: то есть примем: . Напишем выражение нормального закона: Пользуясь в табл. 3 приложения, вычислим значения на границах разрядов Построим на одном графике (рис. 7.5.2) гистограмму и выравнивающую ее кривую распределения. Из графика видно, что теоретическая кривая распределения , сохраняя, в основном существенные особенности статистического распределения, свободна от случайных неправильностей хода гистограммы, которые, по-видимому, могут быть отнесены за счет случайных причин; более серьезное обоснование последнему суждению будет дано в следующем параграфе. Рис. 7.5.2 Примечание. В данном примере при определении , мы воспользовались выражением (7.4.6) статистическойдисперсии через второй начальный момент. Этот прием можно рекомендовать только в случае, когдаматематическое ожидание исследуемой случайной величины сравнительно невелико; в противном случае формула (7.4.6) выражает дисперсию как разность близких чисел и дает весьма малую точность. В случае, когда это имеет место, рекомендуется либо вычислять непосредственно по формуле (7.4.3), или перенести начало координат в какую-либо точку, близкую к , и затем применить формулу (7.4.6). Пользование формулой (7.4.3) равносильно перенесению начала координат в точку ; это может оказаться неудобным, так как выражение может быть дробным, и вычитание из каждого при этом излишне осложняет вычисления; поэтому рекомендуется переносить начало координат в какое-либо круглое значение , близкое к .
Пример 2. С целью исследования закона распределения ошибки измерения дальности с помощью радиодальномера произведено 400 измерений дальности. Результаты опытов представлены в виде статистического ряда:
Выровнять статистический ряд с помощью закона равномерной плотности. Решение. Закон равномерной плотности выражается формулой и зависит от двух параметров и . Эти параметры следует выбрать так, чтобы сохранить первые два момента статистического распределения – математическое ожидание и дисперсию . Из примера 5.8 имеем выражения математического ожидания и дисперсии для закона равномерной плотности: Для того, чтобы упростить вычисления, связанные с определением статистических моментов, перенесем начало отсчета в точку и примем за представителя его разряда его середину. Ряд распределения имеет вид: где - среднее для разряда значение ошибки радиодальномера при новом начале отсчета. Приближенное значение статистического среднего ошибки равно: Второй статистический момент величины равен: , откуда статистическая дисперсия: . Переходя к прежнему началу отсчета, получим новое статистическое среднее: в ту же статистическую дисперсию: . Параметры закона равномерной плотности определяются уравнениями: . Решая эти уравнения относительно и , имеем: , откуда . На рис. 7.5.3. показаны гистограмма и выравнивающий ее закон равномерной плотности . Рис. 7.5.3
Критерии согласия В настоящем мы рассмотрим один из вопросов, связанных с проверкой правдоподобия гипотез, а именно – вопрос согласованности теоретического и статистического распределения. Допустим, что данное статистическое распределение выровнено с помощью некоторой теоретической кривой (рис. 7.6.1). Как бы хорошо ни была подобрана теоретическая кривая, между нею и статистическим распределением неизбежны некоторые расхождения. Естественно возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченный числом наблюдений, или они являются существенными и связаны с тем, что подобранная нами кривая плохо выравнивает данное статистическое распределение. Для ответа на такой вопрос служат так называемые «критерии согласия».
Идея применения критериев согласия заключается в следующем. На основании данного статистического материала нам предстоит проверить гипотезу , состоящую в том, чтослучайная величина подчиняется некоторому определенному закону распределения. Этот закон может быть задан в той или иной форме: например, в виде функции распределения или в виде плотности распределения или же в виде совокупности вероятностей , где - вероятность того, что величина попадет в пределы -го разряда. Рис. 7.6.1 Так как из этих форм функция распределения является наиболее общей и определяет собой любую другую, будем формулировать гипотезу , как состоящую в том, что величина имеет функцию распределения . Для того чтобы принять или опровергнуть гипотезу , рассмотрим некоторую величину , характеризующую степень расхождения теоретического и статистического распределений. Величина может быть выбрана различными способами; например, в качестве можно взять сумму квадратов отклонений теоретическихвероятностей от соответствующих частот или же сумму тех же квадратов с некоторыми коэффициентами («весами»), или же максимальное отклонение статистической функции распределения от теоретической и т. д. Допустим, что величина выбрана тем или иным способом. Очевидно, это есть некотораяслучайная величина. Закон распределений этой случайной величины зависит от закона распределения случайной величины , над которой производились опыты, и от числа опытов . Если гипотеза верна, то закон распределения величины определяется законом распределения величины (функцией ) и числом . Допустим, что этот закон распределения нам известен. В результате данной серии опытов обнаружено, что выбранная нами мера расхождения приняла некоторое значение . Спрашивается, можно ли объяснить это случайными причинами или же это расхождение слишком велико и указывает на наличие существенной разницы между теоретическим и статистическим распределениями и, следовательно, на непригодность гипотезы ? Для ответа на этот вопрос предположим, что гипотеза верна, и вычислим в этом предположении вероятность того, что гипотеза верна, и вычислим в этом предположении вероятность того, что за счет случайных причин, связанных с недостаточным объемом опытного материала, мера расхождения окажется не меньше, чем наблюденное нами в опыте значение , т. е. вычислим вероятность события: . Если эта вероятность весьма мала, то гипотезу следует отвергнуть как мало правдоподобную; если же эта вероятность значительна, следует признать, что экспериментальные данные не противоречат гипотезе . Возникает вопрос о том, каким же способом следует выбирать меру расхождения ? Оказывается, что при некоторых способах ее выбора закон распределения величины обладает весьма простыми свойствами при достаточно большом практически не зависит от функции . Именно такими мерами расхождения и пользуются в математической статистике в качестве критериев согласия. Рассмотрим один из наиболее часто применяемых критериев согласия - так называемый «критерий » Пирсона. Предположим, что произведено независимых опытов, в каждом из которых случайная величина приняла определенное значение. Результаты опытов сведены в разрядов и оформлены в виде статистического ряда: Требуется проверить, согласуются ли экспериментальные данные с гипотезой о том, что случайная величина имеет данный закон распределения (заданной функцией распределения или плотностью ). Назовем этот закон распределения «теоретическим». Зная закон распределения, можно найти теоретические вероятности попадания случайной величины в каждый из разрядов: . Проверяя согласованность теоретического и статистического распределений, мы будем исходить из расхождений между теоретическими вероятностями и наблюденными частотами . Естественно выбрать в качестве меры расхождения между теоретическим и статистическим распределениями сумму квадратов отклонений , взятых с некоторыми «весами» : . (7.6.1) Коэффициенты («веса» разрядов) вводятся потому, что в общем случае отклонения, относящиеся к различным разрядам, нельзя считать равноправными по значимости. Действительно, одно и то же по абсолютной величине отклонение , может быть мало значимым, если сама вероятность мала. Поэтому естественно «веса» взять обратно пропорциональными вероятностям разрядов . Далее возникает вопрос о том, как выбрать коэффициент пропорциональности. К. Пирсон показал, что если положить (7.6.2) то при больших закон распределения величины обладает весьма простыми свойствами: он практически не зависит от функции распределения и от числа опытов , а именно, этот закон при увеличении приближается к так называемому «распределению ». При таком выборе коэффициентов мера расхождения обычно обозначается : . (7.6.3) Для удобства вычислений (чтобы не иметь дела с дробными величинами с большим числом нулей) можно ввести под знак суммы и, учитывая, что , где - число значений в -м разряде, привести формулу (7.6.3) к виду: (7.6.4) Распределение зависит от параметра , называемого числом «степеней свободы» распределения. Число «степеней свободы» равно числу разрядов минус число независимых условий («связей»), наложенных на частоты . Примерами таких условий могут быть , если мы требуем только того, чтобы сумма частот была равна единице (это требование накладывается во всех случаях); , если мы подбираем теоретическое распределение с тем условием, чтобы совпадали теоретическое и статистическоесредние значения; , если мы требуем, кроме того, совпадения теоретической и статистической дисперсий и т.д. Для распределения составлены таблицы (см. табл. 4 приложения). Пользуясь этими таблицами, можно для каждого значения и числа степеней свободы найти вероятность того, что величина, распределенная по закону , превзойдет это значение. В табл. 4 входами являются: значение вероятности и число степеней свободы . Числа, стоящие в таблице, представляют собой соответствующие значения . Распределение дает возможность оценить степень согласованности теоретического и статистического распределений. Будем исходить из того, что величина действительно распределена по закону . Тогдавероятность , определенная по таблице, есть вероятность того, что за счет чисто случайных причин мера расхождения теоретического и статистического распределений (7.6.4) будет не меньше, чем фактически наблюденное в данной серии опытов . Если эта вероятность весьма мала (настолько мала, что событие с такой вероятностью можно считать практически невозможным), то результат опыта следует считать противоречащим гипотезе о том, что закон распределения величины есть . Эту гипотезу следует отбросить как неправдоподобную. Напротив, если вероятность сравнительно велика, можно признать расхождения между теоретическим и статистическим распределениями несущественными и отнести их за счет случайных причин. Гипотезу о том, что величина распределена по закону , можно считать правдоподобной или, по крайней мере, не противоречащей опытным данным. Таким образом, схема применения критерия к оценке согласованности теоретического и статистического распределений сводится к следующему: 1) Определяется мера расхождения по формуле (7.6.4). 2) Определяется число степеней свободы как число разрядов минус число наложенных связей : . 3) По и с помощью табл. 4 определяется вероятность того, что величина, имеющая распределение с степенями свободы, превзойдет данное значение . Если эта вероятность весьма мала, гипотеза отбрасывается как неправдоподобная. Если эта вероятность относительно велика, гипотезу можно признать не противоречащей опытным данным. Насколько должна быть мала вероятность для того, чтобы отбросить или пересмотреть гипотезу – вопрос неопределенный; он не может быть решен из математических соображений, так же как и вопрос о том, насколько мала должна быть вероятность события для того, чтобы считать его практически невозможным. На практике, если оказывается меньшим чем 0,1, рекомендуется проверить эксперимент, если возможно – повторить его и в случае, если заметные расхождения снова появятся, пытаясь искать более подходящий для описания статистических данных закон распределения. Следует особо отметить, что с помощью критерия (или любого другого согласия) можно только в некоторых случаях опровергнуть выбранную гипотезу и отбросить ее как явно несогласную с опытными данными - если жевероятность велика, то этот факт сам по себе ни в коем случае не может считаться доказательством справедливости гипотезы , а указывает только на то, что гипотеза не противоречит опытным данным. С первого взгляда может показаться, что чем больше вероятность р, тем лучше согласованность теоретического и статистического распределений и тем более обоснованным следует считать выбор функции в качестве закона распределения случайной величины. В действительности это не так. Допустим, например, что, оценивая согласие теоретического и статистического распределении по критерию , мы получили . Это значит, что с вероятностью 0,99 за счет чисто случайных причин при данном числе опытов должны были получиться расхождения большие, чем наблюденные. Мы же получили относительно весьма малые расхождения, которые слишком малы для того, чтобы признать их правдоподобными. Разумнее признать, что столь близкое совпадение теоретического и статистического распределений не является случайным и может быть объяснено определенными причинами, связанными с регистрацией и обработкой опытных данных (в частности, с весьма распространенной на практике «подчисткой» опытных данных, когда некоторые результаты произвольно отбрасываются или несколько изменяются). Разумеется, все эти соображения применимы только в тех случаях, когда количество опытов достаточно велико (порядка нескольких сотен) и когда имеет смысл применять сам критерий, основанный на предельном распределении меры расхождения при . Заметим, что при пользовании критерием достаточно большим должно быть не только общее число опытов , но и числа наблюдений в отдельные разрядах. На практике рекомендуется иметь в каждом разряде не менее 5 — 10 наблюдений. Если числа наблюдений в отдельных разрядах очень мала (порядка 1 — 2), имеет смысл объединить некоторые разряды. Пример 1. Проверить, согласованность теоретического и статистического распределений для примера 1 . Решение. Пользуясь теоретическим нормальным законом распределения с параметрами , находим вероятности попадания в разряды по формуле , где - границы -го разряда. Затем составляем сравнительную таблицу чисел попаданий в разряды и соответствующих значений
|
|
|