Главная | Обратная связь | Поможем написать вашу работу!

Основные задачи предварительной обработки экспериментальных данных

Конечной целью предварительной обработки экспериментальных данных является выдвижение гипотез о классе и структуре математической модели исследуемого явления, определение состава и объема дополнительных измерений, выбор возможных методов последующей статистической обработки. Для этого необходимо решить некоторые частные задачи, среди которых можно выделить следующие:

1. Анализ, отбраковка и восстановление аномальных (ошибочных) или пропущенных измерений, так как экспериментальная информация обычно неоднородна по качеству.

2. Экспериментальная проверка законов распределения полученных данных, оценка параметров и числовых характеристик наблюдаемых случайных величин или процессов. Выбор методов последующей обработки, направленной на построение и проверку адекватности математической модели исследуемому явлению, существенно зависит от закона распределения наблюдаемых величин.

3. Сжатие и группировка исходной информации при большом объеме экспериментальных данных. При этом должны быть учтены особенности их законов распределения, которые выявлены на предыдущем этапе обработки.

4. Объединение нескольких групп измерений, полученных, возможно, в различное время или в различных условиях, для совместной обработки.

5. Выявление статистических связей и взаимовлияния различных измеряемых факторов и результирующих переменных, последовательных измерений одних и тех же величин. Решение этой задачи позволяет отобрать те переменные, которые оказывают наиболее сильное влияние на результирующий признак. Выделенные факторы используются для дальнейшей обработки, в частности, методами регрессионного анализа. Анализ корреляционных связей делает возможным выдвижение гипотез о структуре взаимосвязи переменных и, в конечном итоге, о структуре модели явления.

Для предварительной обработки характерно итерационное решение основных задач, когда повторно возвращаются к решению той или иной задачи после получения результатов на последующем этапе обработки.

1. КЛАССИФИКАЦИЯ ОШИБОК ИЗМЕРЕНИЯ.

Под измерением понимают нахождение значения физической величины экспериментальным путем с помощью специальных технических средств. Измерения могут быть как прямыми, когда искомую величину находят непосредственно из опытных данных, так и косвенными, когда искомую величину определяют на основании известной зависимости между этой величиной и величинами, подвергаемыми прямым измерениям. Значение величины, найденное измерением, называют результатом измерения.

Несовершенство измерительных приборов и органов чувств человека, а часто и природа самой измеряемой величины приводят к тому, что при любых измерениях результаты получаются с определенной точностью, т. е. эксперимент дает не истинное значение измеряемой величины, а лишь ее приближенное значение. Под действительным значением физической величины понимают ее значение, найденное экспериментально и настолько приближающееся к истинному значению, что для данной цели может быть использовано вместо него.

Точность измерения определяется близостью его результата к истинному значению измеряемой величины. Точность прибора определяется степенью приближения его показаний к истинному значению искомой величины, а точность метода – физическим явлением, на котором он основан.

Ошибки (погрешности) измерений характеризуются отклонением результатов измерений от истинного значения измеряемой величины. Ошибка измерения, как и истинное значение измеряемой величины, обычно неизвестна. Поэтому одной из основных задач статистической обработки результатов эксперимента и является оценка истинного значения измеряемой величины по полученным опытным данным. Другими словами, после неоднократного измерения искомой величины и получения ряда результатов, каждый из которых содержит некоторую неизвестную ошибку, ставится задача вычисления приближенного значения искомой величины с возможно меньшей ошибкой.

Ошибки измерений делят на грубые ошибки (промахи), систематические и случайные.

Грубые ошибки. Грубые ошибки возникают вследствие нарушения основных условий измерения или в результате недосмотра экспериментатора. При обнаружении грубой ошибки результат измерения следует сразу отбросить и повторить измерение. Внешним признаком результата, содержащего грубую ошибку, является его резкое отличие по величине от остальных результатов. На этом основаны некоторые критерии исключения грубых ошибок по их величине (будут рассмотрены далее), однако самым надежным и эффективным способом браковки неверных результатов является браковка их непосредственно в процессе самих измерений.

Систематические ошибки. Систематической является такая погрешность, которая остается постоянной или закономерно изменяется при повторных измерениях одной и той же величины. Систематические погрешности появляются из-за неправильной регулировки приборов, неточности метода измерения, какого-либо упущения экспериментатора, использования для вычисления неточных данных.

Систематические ошибки возникают также при проведении сложных измерений. Экспериментатор может и не догадываться о них, хотя они могут быть очень большими. Поэтому в таких случаях нужно тщательно проанализировать методику измерений. Такие ошибки можно обнаружить, в частности, проведя измерения искомой величины другим методом. Совпадение результатов измерений обоими методами служит определенной гарантией отсутствия систематических погрешностей.

При измерениях необходимо сделать все возможное, чтобы исключить систематические погрешности, так как они могут быть так велики, что сильно исказят результаты. Выявленные погрешности устраняют введением поправок.

Случайные ошибки. Случайной ошибкой является составляющая погрешности измерения, которая изменяется случайным образом, т. е. это ошибка измерения, остающаяся после устранения всех выявленных систематических и грубых ошибок. Случайные ошибки вызываются большим числом как объективных, так и субъективных факторов, которые нельзя выделить и учесть в отдельности. Поскольку причины, приводящие к случайным ошибкам, не одинаковы, в каждом эксперименте и не могут быть учтены, исключить такие ошибки нельзя, можно лишь оценить их значение. С помощью методов теории вероятностей можно учесть их влияние на оценку истинного значения измеряемой величины со значительно меньшей ошибкой, чем ошибки отдельных измерений.

Поэтому, когда случайная погрешность больше погрешности измерительного прибора, необходимо многократно повторять одно и то же измерение для уменьшения ее значения. Это позволяет минимизировать случайную погрешность и сделать ее сравнимой с погрешностью прибора. Если же случайная ошибка меньше погрешности прибора, то уменьшать ее не имеет смысла.

Кроме этого, ошибки делят на абсолютные, относительные и инструментальные. Абсолютной ошибкой считают погрешность, выраженную в единицах измеряемой величины. Относительной ошибкой является отношение абсолютной ошибки к истинному значению измеряемой величины. Составляющую ошибки измерения, которая зависит от погрешности применяемых средств измерения, называют инструментальной погрешностью измерения.

2. ПОГРЕШНОСТИ ПРЯМЫХ РАВНОТОЧНЫХ ИЗМЕРЕНИЙ. ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ.

Прямые измерения – это такие измерения, когда значение изучаемой величины находят непосредственно из опытных данных, например снимая показания прибора, измеряющего значение искомой величины. Для нахождения случайной погрешности измерение необходимо провести несколько раз. Результаты таких измерений имеют близкие значения погрешностей и называются равноточными.

Пусть в результате n измерений величины х, проведенных с одинаковой точностью, получен ряд значений: х ₁, х ₂, …, х _n. Как показано в теории ошибок, наиболее близким к истинному значению х ₀ измеряемой величины х является среднее арифметическое значение

. (2.1)

Среднее арифметическое значение рассматривают только как наиболее вероятное значение измеряемой величины. Результаты отдельных измерений в общем случае отличаются от истинного значения х ₀. При этом абсолютная погрешность i -го измерения составляет

D x_i' = х ₀ – x_i₄

и может принимать как положительные, так и отрицательные значения с равной вероятностью. Суммируя все погрешности, получаем

Откуда

. (2.2)

В этом выражении второе слагаемое в правой части при большом n равно нулю, так как всякой положительной погрешности можно поставить в соответствие равную ей отрицательную. Тогда х ₀= . При ограниченном числе измерений будет лишь приближенное равенство х ₀ . Таким образом, можно назвать действительным значением.

Во всех практических случаях значение х ₀ неизвестно и есть лишь определенная вероятность того, что х ₀ находится в каком-то интервале вблизи и требуется определить этот интервал, соответствующий этой вероятности. В качестве оценки абсолютной погрешности отдельного измерения используют D x_i = – x_i.

Она определяет точность данного измерения.

Для ряда измерений определяют среднюю арифметическую погрешность

Она определяет пределы, в которых лежит более половины измерений. Следовательно, х ₀ с достаточно большой вероятностью попадает в интервал от –h до +h. Результаты измерений величины х записывают тогда в виде:

Величина х измерена тем точнее, чем меньше интервал, в котором находится истинное значение х ₀.

Абсолютная погрешность результатов измерений D x сама по себе еще не определяет точности измерений. Пусть, например, точность некоторого амперметра составляет 0.1 а. Были проведены измерения силы тока в двух электрических цепях. При этом получили следующие значения: 32 0.1 а и 0.2 0.1 а. Из примера видно, что, хотя абсолютная погрешность измерений одинакова, точность измерений различна. В первом случае измерения достаточно точны, а во втором – позволяют судить лишь о порядке величины. Следовательно, при оценке качества измерения необходимо сравнивать погрешность с измеренным значением, что дает более наглядное представление о точности измерений. Для этого вводится понятие относительной погрешности

d _x = D x / . (2.3)

Относительную погрешность обычно выражают в процентах.

Так как в большинстве случаев измеряемые величины имеют размерность, то и абсолютные погрешности размерны, а относительные ошибки безразмерны. Поэтому с помощью последних можно производить сравнение точности измерений разнородных величин. Наконец, эксперимент должен быть поставлен таким образом, чтобы относительная погрешность оставалась постоянной во всем диапазоне измерений.

Следует отметить, что при правильных и тщательно выполненных измерениях средняя арифметическая погрешность их результата близка к погрешности измеряемого прибора.

Если измерения искомой величины х проведены много раз, то частоты появления того или иного значения х _i можно представить в виде графика, имеющего вид ступенчатой кривой – гистограммы (см. рис. 1), где у – число отсчетов; D x_i = х _i – x_i ₊₁ (i изменяется от – n до + n). С увеличением числа измерений и уменьшением интервала D x_i гистограмма переходит в непрерывную кривую, характеризующую плотность распределения вероятности того, что величина x_i окажется в интервале D x_i.

Под распределением случайной величины понимают совокупность всех возможных значений случайной величины и соответствующих им вероятностей. Законом распределения случайной величины называют всякое соответствие случайной величины возможным значениям их вероятностей. Наиболее общей формой закона распределения является функция распределения Р (х).

Тогда функция р (х) = Р' (х) – плотность распределения вероятности или дифференциальная функция распределения. График плотности распределения вероятностей называется кривой распределения.

Функция р (х) характерна тем, что произведение р (х) dx есть вероятность оказаться отдельному, случайно выбранному значению измеряемой величины в интервале (х, x + dx).

В общем случае эта вероятность может определяться различными законами распределений (нормальный (Гаусса), Пуассона, Бернулли, биномиальный, отрицательный биномиальный, геометрический, гипергеометрический, равномерный дискретный, отрицательный экспоненциальный). Однако чаще всего вероятность появления величины x_i в интервале (х, x + dx) в физических экспериментах описывают нормальным законом распределения – законом Гаусса (см. рис. 2):

, (2.4)

где s² - дисперсия генеральной совокупности. Генеральной совокупностью называют все множество возможных значений измерений x_i или возможных значений погрешностей D x_i.

Широкое использование закона Гаусса в теории ошибок объясняется следующими причинами:

1) равные по абсолютному значению погрешности встречаются одинаково часто при большом числе измерений;

2) малые по абсолютному значению погрешности встречаются чаще, чем большие, т. е. вероятность появления погрешности тем меньше, чем больше ее абсолютное значение;

3) погрешности измерений принимают непрерывный ряд значений.

Однако, эти условия никогда строго не выполняются. Но эксперименты подтвердили, что в области, где погрешности не очень велики, нормальный закон распределения хорошо согласуется с опытными данными. С помощью нормального закона можно найти вероятность появления погрешности того или иного значения.

Распределение Гаусса характеризуется двумя параметрами: средним значением случайной величины и дисперсией s². Среднее значение определяется абсциссой (х = ) оси симметрии кривой распределения, а дисперсия показывает, как быстро уменьшается вероятность появления погрешности с увеличением ее абсолютного значения. Кривая имеет максимум при х = . Следовательно, среднее значение является наиболее вероятным значением величины х. Дисперсия определяется полушириной кривой распределения, т. е. расстоянием от оси симметрии до точек перегиба кривой. Она является средним квадратом отклонения результатов отдельных измерений от их среднего арифметического значения по всему распределению. Если при измерении физической величины получают только постоянные значения х = , то s² = 0. Но если значения случайной величины х принимают значения, не равные , то ее дисперсия не равна нулю и положительна. Дисперсия, таким образом, служит мерой флуктуации значений случайной величины.

Мера рассеяния результатов отдельных измерений от среднего значения должна выражаться в тех же единицах, что и значения измеряемой величины. В связи с этим в качестве показателя флуктуации результатов измерений гораздо чаще используют величину

называемую средней квадратичной погрешностью.

Она является важнейшей характеристикой результатов измерений и остается постоянной при неизменности условий эксперимента.

Значение этой величины определяет форму кривой распределения.

Так как при изменении s площадь под кривой, оставаясь постоянной (равной единице), меняет свою форму, то с уменьшением s кривая распределения вытягивается вверх вблизи максимума при х = , и сжимаясь в горизонтальном направлении.

С увеличением s значение функции р (х _i) уменьшается, и кривая распределения растягивается вдоль оси х (см. рис. 2).

Для нормального закона распределения средняя квадратическая погрешность отдельного измерения

, (2.5)

а средняя квадратическая погрешность среднего значения

. (2.6)

Средняя квадратическая погрешность более точно характеризует погрешности измерений, чем средняя арифметическая погрешность, так как она получена достаточно строго из закона распределения случайных величин погрешностей. Кроме того, непосредственная связь ее с дисперсией, вычисление которой облегчается рядом теорем, делает среднюю квадратическую погрешность очень удобным параметром.

Наряду с размерной погрешностью s используют и безразмерную относительную погрешность d_s=s/ , которая, как и d _x, выражается либо в долях единицы, либо в процентах. Окончательный результат измерений записывают в виде:

, . (2.7)

Однако, на практике невозможно провести слишком много измерений, поэтому нельзя построить нормальное распределение, чтобы точно определить истинное значение х ₀. В этом случае хорошим приближением к истинному значению можно считать , а достаточно точной оценкой ошибки измерений – выборочную дисперсию , вытекающую из нормального закона распределения, но относящуюся к конечному числу измерений. Такое название величины объясняется тем, что из всего множества значений х _i, т. е. генеральной совокупности выбирают (измеряют) лишь конечное число значений величины х _i (равное n), называемых выборкой. Выборка характеризуется уже выборочным средним значением и выборочной дисперсией.

Тогда выборочная средняя квадратическая погрешность отдельного измерения (или эмпирический стандарт)

, (2.8)

а выборочная средняя квадратическая погрешность ряда измерений

. (2.9)

Из выражения (2.9) видно, что, увеличивая число измерений, можно сделать сколь угодно малой среднюю квадратическую погрешность . При n > 10 заметное изменение величины достигается лишь при весьма значительном числе измерений, поэтому дальнейшее увеличение числа измерений нецелесообразно. К тому же, невозможно полностью исключить систематические погрешности, и при , меньшей систематической ошибки дальнейшее увеличение числа опытов также не имеет смысла.

Таким образом, задача нахождения приближенного значения физической величины и его погрешности решена. Теперь необходимо определить надежность найденного действительного значения. Под надежностью измерений понимают вероятность попадания истинного значения в данный доверительный интервал. Интервал ( – e, + e), в котором находится с заданной вероятностью истинное значение х ₀, называют доверительным интервалом. Допустим, что вероятность отличия результата измерений х от истинного значения х ₀ на величину, большую, чем e, равна 1 – a, т. е.

p ( – e< х ₀ < + e) = 1 – a. (2.10)

В теории ошибок обычно под e понимают величину . Поэтому

p ( – < х ₀ < + ) = Ф(t), (2.11)

где Ф(t) – интеграл вероятности (или функция Лапласа), а также нормальная функция распределения:

, (2.12) где .

Таким образом, чтобы охарактеризовать истинное значение, требуется знать как погрешность, так и надежность. Если доверительный интервал увеличивается, то возрастает надежность того, что истинное значение х ₀ попадает в данный интервал. Высокая степень надежности необходима при ответственных измерениях. Это означает, что в таком случае нужно выбирать большой доверительный интервал или вести измерения с большей точностью (т. е. уменьшить величину ), что можно сделать, например, многократным повторением измерений.

Под доверительной вероятностью понимается вероятность того, что истинное значение измеряемой величины попадает в данный доверительный интервал. Доверительный интервал характеризует точность измерения данной выборки, а доверительная вероятность – достоверность измерения.

В подавляющем большинстве экспериментальных задач доверительная вероятность составляет 0.9 0.95 и более высокая надежность не требуется. Так при t = 1 согласно формулам (2.10 –2.12) 1 – a = Ф(t) = 0.683, т. е. более 68 % измерений находится в интервале ( – , + ). При t = 2 1 – a = 0.955, а при t = 3 параметр 1 – a = 0.997. Последнее означает, что в интервале ( – , + ) находятся почти все измеренные значения. Из данного примера видно, что интервал действительно содержит большинство измеренных значений, т. е. параметр a может служить хорошей характеристикой точности измерений.

До сих пор предполагалось, что число измерений хотя и конечно, но достаточно велико. В действительности же число измерений почти всегда бывает небольшим. Более того, как в технике, так и в научных исследованиях нередко используют результаты двух-трех измерений. В этой ситуации величины и в лучшем случае могут определить лишь порядок величины дисперсии. Существует корректный метод для определения вероятности нахождения искомого значения в заданном доверительном интервале, основанный на использовании распределения Стьюдента (предложенного в 1908 г. английским математиком В.С. Госсетом). Обозначим через интервал, на который может отклоняться среднее арифметическое значение от истинного значения х ₀, т. е. D x = х ₀ – . Иными словами, мы хотим определить значение

Тогда

, (2.13)

где S_n определяется формулой (2.8). Эта величина подчиняется распределению Стьюдента. Распределение Стьюдента характерно тем, что не зависит от параметров х ₀ и s нормальной генеральной совокупности и позволяет при небольшом числе измерений (n < 20) оценить погрешность D x = – х _i по заданной доверительной вероятности a или по заданному значению D x найти надежность измерений. Это распределение зависит только от переменной t _a и числа степеней свободы l = n – 1.

Распределение Стьюдента справедливо при n 2 и симметрично относительно t _a = 0 (см. рис. 3). С ростом числа измерений t _a-распределение стремится к нормальному распределению (фактически при n > 20).

Доверительную вероятность при заданной погрешности результата измерений получают из выражения

p ( – < х ₀ < + ) = 1 – a. (2.14)

При этом величина t _a аналогична коэффициенту t в формуле (2.11). Величину t _a называют коэффициентом Стьюдента, его значения приводятся в справочных таблицах. Используя соотношения (2.14) и справочные данные можно решить и обратную задачу: по заданной надежности a определить допустимую погрешность результата измерений.

Распределение Стьюдента позволяет также установить, что с вероятностью, как угодно близкой к достоверности, при достаточно большом n среднее арифметическое значение будет как угодно мало отличаться от истинного значения х ₀.

Предполагалось, что закон распределения случайной погрешности известен. Однако часто при решении практических задач не обязательно знания закона распределения, достаточно лишь изучить некоторые числовые характеристики случайной величины, например среднее значение и дисперсию. При этом вычисление дисперсии позволяет оценить доверительную вероятность даже в случае, когда закон распределения погрешности неизвестен или отличается от нормального.

В случае, если проведено всего одно измерение, точность измерения физической величины (если оно проведено тщательно) характеризуется точностью измерительного прибора.

1 234 5

Воспользуйтесь поиском по сайту: