зависимостями по методу наименьших квадратов
Стр 1 из 2Следующая ⇒ случайной величины
1.1. Цель и задачи Цель – изучить методику статистической обработки одномерной выборки случайной величины. Задачи – освоить основные понятия (случайная величина, выборка, характеристики случайной величины), методику формулировки и проверки статистических гипотез, изучить требования к выборке и методику проверки их соблюдения, научиться определять достоверные статистические характеристики случайной величины.
1.2. Основные понятия и определения
Случайная величина — это переменная, которая принимает в результате опыта одно значение из множества исходов, причём появление того или иного значения этой величины до её измерения нельзя точно предсказать. Все возможные значения случайной величины называют генеральной совокупностью. Если мы проведем n повторных измерений случайной величины Х, то есть получим n конкретных различных численных значений Репрезентативная выборка – точно (достоверно) отражает свойства генеральной совокупности.Чтобы выборка правильно отражала основные свойства, присущие генеральной совокупности, она должна быть случайной, т.е. все объекты генеральной совокупности должны иметь равные шансы попасть в выборку. Для этого выборки формируются с помощью специальных методик. Репрезентативная выборка должна быть достаточной по объему для обеспечения необходимой точности определяемых показателей (характеристик).
Достоверная выборка не должна содержать грубые ошибки (промахи, не характерные значения реализации случайной величины). Доверительная вероятность – вероятность того, что значение рассчитываемых оценочных характеристик для генеральной совокупности попадет в доверительный интервал. Чем больше доверительная вероятность, тем больше должен быть доверительный интервал. Для оценки случайной величины используют характеристики положения и рассеивания. Характеристики положения: математическое ожидание, мода и медиана. М атематическое ожидание - число, вокруг которого сосредоточены значения случайной величины представляет абсциссу центра тяжести плоской фигуры, ограниченной кривой распределения и осью абсцисс. Математическое ожидание случайной величины x обозначается M(x). М атематическое ожидание непрерывной случайной величины Х равно Модой дискретной случайной величины, обозначаемой Мо, называется ее наиболее вероятное значение, а модой непрерывной случайной величины – значение, при котором плотность вероятности максимальна. Медианой непрерывной случайной величины Х называется такое ее значение Ме, для которого одинаково вероятно, окажется ли случайная величина меньше или больше Ме, т.е. Р(Х < Ме) = Р(X > Ме). Характеристики рассеивания: дисперсия, среднее квадратическое отклонение и коэффициент вариации. Дисперсия случайной величины характеризует степень разброса случайной величины около ее математического ожидания и представляет собой математическое ожидание квадрата ее отклонения: Средним квадратическим отклонением случайной величины
Коэффициент вариации V[X] ‑ отношение стандартного отклонения σ[X] к математическому ожиданию M[X], выраженное в процентах или в долях (в расчетах). Для оценки приведенных выше истинных характеристик случайной величины используют некоторые оценочные функции этих величин Математическое ожидание М [X] оценивается выборочным средним
Дисперсия D[X] оценивается выборочной дисперсией
Оценочный коэффициент вариации вычисляется по формуле где S – оценочное значение среднего квадратического отклонения
1.3. Задание Для сформированной на компьютере выборки объемом (N=25) выполнить проверки соблюдения требований к выборке: - проверить наличие грубых ошибок в выборке; - проверить соблюдение требований о случайном характере выборки; - проверить соблюдения требований о достаточности выборки; - определить оценочные статистические характеристики случайной величины.
1.4. Рекомендации по выполнению задания
1. С помощью специальной программы в среде MathCAD (рис.1.1) смоделируем N=25 значений случайной величины. Варианты индивидуального задания задаются преподавателем или задаются параметры рассеивания условной случайной величины (табл. 1.1.)
Рис. 1.1 Программа моделирования условной выборки
2. Найдем статистические характеристики для полученной выборки Выборочное среднее:
Выборочная дисперсия:
Среднее квадратическое отклонение:
Таблица 1.1. Данные для моделирования выборки на компьютере
3. Исключение грубых ошибок
Смоделированную на компьютере выборку представим в виде вариационного ряда, т.е. ряда упорядоченного по мере возрастания (колонка 3). Проанализируем наибольшее значение Хmax= 29,114 и наименьшее значение - Xmin=0,117. Если эти значения выделяются из приведенной совокупности, то их моно считать грубыми ошибками и исключить из выборки.
Проверку этого утверждения относительно Хmax= 29,114 выполним в следующем порядке: 3.1. Сформулируем основную и альтернативную статистические гипотезы: H0: Хmax является грубой ошибкой; H1: Хmax не является грубой ошибки. 3.2. Выбираем статистический критерий, который представляет собой отношение удаления подозреваемой величины Хmax= 29,114 от среднего значения
3.3. Определяем критическое значение статистического критерия таблица 1 (приложения)
3.4. Сравниваем расчетное значение с критическим: так как Vp < Vкр, то Хmax не является грубой ошибкой, справедлива гипотеза H1.
Проверяем, является ли Xmin грубой ошибкой.
H0: Xmin является грубой ошибкой H1: Xmin не является грубой ошибки
Так как Vp < Vкр, то Хmin так же не является грубой ошибкой.
4. Проверка случайности выборки Проверку гипотезы о случайности выборки проведем на основе метода разностей. Сформируем новую случайную величину 3.1 Сформулируем гипотезу: H0: выборка случайна; H1: выборка неслучайна. 3.2. В качестве критерия возьмем отношение двух характеристик рассеивания
где
Расчетное значение критерия получим
3.3. Критическое значение выбранного критерия для объема выборки n ≤ 20 Для выборки объемом больше n> 20 τ распределено по нормальному закону распределения с параметрами
В этом случае
Для n=25, α=0,05 находим параметр нормирования ЗНР Искомое значение будет равно
3.4. Вывод: так как 5. Проверка достаточности выборки
4.1.Рассчитаем значения оценочное значение среднего (1) для первых 3, 5, 10 и 25 значений и построим график зависимости среднего от объема выборки
n Рис. 1.2 Зависимость среднего Из графика видно, что среднее зависит от анализируемой величины и от объема выборки. Для достаточной выборки должно выполняться условие
где Iдов – доверительный интервал для нахождения среднего значения; mx – математическое ожидание среднего значения; α – доверительная вероятность (в расчетах принимаем α=0,95). Для соблюдения условия (1.14) должно выполняться условие
где Δ – относительная погрешность определения среднего; Значение относительной погрешности задается методикой испытаний или измерений (в расчетах принимаем Δ=10% или 0,1). 4.2. Минимально необходимый объем подсчитываем из условия равенства (1.15)
Полученное расчетное значение округляем до большего целого значения np =65. Сравниваем полученное значение минимально необходимого числа опытов с объемом выборки и делаем вывод о достаточности имеющейся выборки. В нашем примере np =65 >N=25, следовательно выборка не достаточная по объему. В этом случае, необходимо провести дополнительную серию опытов.
4.3. Определение минимально необходимого числа измерений при разработке методики исследования.
В практической работе исследователя чаще всего встречается задача обоснования необходимого числа измерений при разработке рабочей методики испытаний. На этом этапе выборочных значений не имеем. Значения величин по формуле (1.16) найти не можем, так как каждое из них зависит от искомого объема выборки. При выполнении задания необходимо самостоятельно разобраться и объяснить, как поступить в этом случае? Контрольные вопросы: 1. Дать определение случайной величины и привести примеры из своей практики. 2. Как будут изменяться статистические характеристики случайной величины при увеличении и выборки? 3. Объяснить порядок проверки статистических гипотез. 4. Объяснить понятие статистического критерия. 5. Как сравнить два исследуемых идентичных процесса с разными средними и дисперсиями одного признака?
2. Статистическая обработка выборки большого объема
2.1.Основные понятия и определения По мере увеличения объема выборки увеличивается риск ввода ошибочных данных. В практической статистике выборки более 30-40 значений относят к выборкам большого объема. Для определения статистических характеристик выборку в этом случае преобразуем в форму представления случайной величины в виде ряда распределения. Ряд распределения – это таблица, ставящая в соответствие значения случайной величины и вероятности их появления.
В статистике ряд распределения — представляет собой упорядоченное распределение единиц изучаемой совокупности по группам, разделяемым по определенному варьирующему признаку. В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения. Атрибутивными — называют ряды распределения, построенные по качественными признакам. Сгруппированные данные в порядке возрастания или убывания значений количественного признака называются вариационным рядом. Количественный признак может иметь дискретные (целочисленные) значения или непрерывные значения. Непрерывные значения признака могут быть разбиты на интервалы и оценены частотой попадания выборочных значений в тот или иной интервал. Ряд распределения характеризуется двумя элементами: вариантой (Х) и частотой (f). Варианта – это отдельное значение признака отдельной единицы или группы совокупности. Число, показывающее, сколько раз встречается то или иное значение признака, называется частотой. Сумма всех частот должна быть равна численности единиц всей совокупности. Если частота выражена относительным числом, то она называется частостью (опытной вероятностью).
2.2. Задание Для анализа методики статистической обработки выборки большого объема необходимо определить по данным из 1-ого задания: - преобразовать выборку объемом n = 25 (взять из 1-ой работы) в ряд распределения; - определить статистические характеристики; - сравнить значения статистических характеристик, полученных в 1-ом и 2-ом задании.
2.3.Выполнение задания
1. Задаемся числом интервалов m и разбиваем весь диапазон изменения случайной величины от min до max на равные участки. Процедура не формализованная. Существует достаточно много эмпирических соотношений. В частности в ряде учебников приводится формула Стерджесса 2. Подсчитаем ширину интервала
3. Определим левые и правые границы для каждого интервала и заполним расчетную таблицу (столбцы 2 и 3). Левая граница первого интервала равна Xmin=0,117, правая граница будет равна Xmin+d. Для второго интервала левая граница будет равна правой границе первого интервала, правая граница равна Xmin+2d. Правая граница последнего интервала будет равна Xmax.
Таблица 2.1. Преобразование выборки в ряд распределения
4. Определим середины интервалов 5. Подсчитаем число значений выборки, попадающие в каждый интервал ni. Значения запишем в 5 столбец таблицы и проверим условие: 6. Определим опытные вероятности Принимаем допущение 2 – вероятность попадания случайной величины в интервал различна для левой и правой границы, а в расчетах примем постоянной или распределенной по закону равномерной плотности. С учетом принятых допущений 1 и 2 получили ряд распределения. 7. Определим среднее значение
8. Определим дисперсию
9. Сравним значения средних значений, полученных в первом и втором задании
10. Сравним значения дисперсий, полученных в первом и втором задании
Анализ полученных данных показывает удовлетворительную разницу меду средними значениями 2,85%, а для дисперсии разницу существенная – 71,47%. В этом случае необходимо проводить дополнительные опыты. Если провести дополнительные опыты невозможно, используют поправку Шепарда
Для уменьшения относительной погрешности можно попробовать увеличить число интервалов и (или) провести дополнительные опыты. 11. Опытные данные в графическом виде представляют в виде гистограммы и опытной функцией плотности распределения (многоугольник распределения, полигон распределения) (рис. 2.1). Гистограмма - столбчатая диаграмма, высота столбиков которой соответствует частоте или относительной частоте (частости, опытной вероятности) попадания данных в каждый из интервалов. Для построения гистограммы на горизонтальной оси в выбранном масштабе отметим границы соответствующих интервалов. На вертикальной оси выбирают масштаб в соответствии с максимальным значением опытной вероятности. Строят столбчатую диаграмму, затем середины столбчатой диаграммы соединяют отрезками ломаной прямой и получают полигон распределения (рис. 2.1). Полигон представляет собой опытную функцию плотности распределения. 12. Опытная функция распределения (кумулята) показана на рис. 2.2. График накопленных относительных частот представляет собой опытную функцию распределения. Для его построения по горизонтальной оси, как и для гистограммы, отмечают границы интервалов, а по вертикальной оси (ординате) в интервале (0,1) откладывают накопленные частоты из условия:
Рис. 2.1. Гистограмма распределения и опытная функция плотности распределения
Рис. 2.2. Опытная функция распределения (кумулята)
x =11,7, ордината будет равна p1+p2, так для всех других значений границ интервалов.
Контрольные вопросы: 1. В какой форме представлена случайная величина? 2. Какие причины могут вызвать большую относительную погрешность определения оценочной дисперсии? 3. Как будут изменяться частости (опытные вероятности) при увеличении числа измерений? 4. Как будут изменяться частости (опытные вероятности) при увеличении числа интервалов? 5. Как будет изменяться полигон распределения при увеличении числа измерений?
3. Выбор закона распределения случайной величины 3.1. Цель и задачи Цель – изучить методику выбора закона распределения для описания одномерной выборки случайной величины. Задачи – освоить основные понятия (закон распределения, функция распределения, функция плотности распределения, вероятность согласия), методику выбора закона распределения, изучить свойства функции распределения, научиться определять критические значения критериев согласия Пирсона и Колмогорова и вероятность согласия опытных данных определенному закону распределения.
3.2. Основные понятия и определения Закон распределения – математическая зависимость, связывающая значения случайной величины и вероятности ее определения Закон распределения используется для сглаживания статистических данных. Задача сглаживания заключается в том, чтобы подобрать теоретическую плавную кривую распределения, с той или иной точки зрения наилучшим образом описывающую данное статистическое распределение. Как правило, принципиальный вид теоретической кривой выбирается заранее из соображений, связанных с существом задачи, а в некоторых случаях просто с внешним видом статистического распределения. Функцией распределения – называется функция F(X), описывающая вероятности появления значений случайной величины P(X≤x) меньше наперед заданного числа равной α.
Функция распределения 1. 2. 3. Функция плотности распределения случайной величины f(x) представляет собой первую производную функции распределения F(X)
Близость опытных данных к функции распределения оценивается вероятностью согласия.
3.3. Задание Для имеющихся данных (задание 2, таблица 2.1) - проверить гипотезу о возможности использования закона нормального распределения (ЗНР) для сглаживания опытных данных по критерию Пирсона (χ2); - проверить гипотезу о возможности использования закона нормального распределения для сглаживания опытных данных по критерию Колмогорова (l); - определить по одному из критериев вероятность согласия опытных данных и теоретической функции распределения с опытными параметрами.
3.4. Порядок выполнения 1. Для ряда распределения формулируем гипотезу: Н0: случайная величина Х подчинена закону нормального распределения) Н1: случайная величина Х не подчинена закону нормального распределения. 2. Проверяем гипотезу по критерию Пирсона (χ2). Из таблицы 2.1 перенести значения середин интервалов Xi и опытные вероятности pi в таблицу 3.1. Накладываем теоретическую функцию плотности распределения на полигон распределения. Для этого вычислим параметр нормирования ti (3.3) для нормированного закона нормального распределения и запишем в столбец 4 таблицы 3.1. Параметры закона распределения a =
Определим значения теоретической функции плотности распределения для закона нормального распределения для середин интервалов Подсчитаем расчетное значение критерия Пирсона Расчетное значение критерия Пирсона является мерой расхождения теоретической функции плотности распределения для нормального закона распределения с опытными параметрами и опытной функцией распределения (полигоном распределения).
Таблица 3.1. Расчетная таблица для критерия Пирсона
Найдем критическое значение критерия Пирсона по таблице 4 (приложение 1) для уровня доверительной вероятности 0,95 (ошибка 0,05) и k=m -1=5-1=4. Сравниваем расчетное значение критерия Пирсона с критическим значением и делаем вывод. Если 3. Проверка гипотезы по критерию Колмогорова А.Н. (λр). Накладываем теоретическую функцию распределения с опытными параметрами на опытную функцию (рис. 2.2). Для этого подсчитываем значения опытной функции распределения, соответствующее серединам интервалов
Полученные значения запишем в столбец 5 таблицы 3.2. Определим значения теоретической функции распределения нормального закона распределения
Таблица 3.2 Расчетная таблица для критерия Колмогорова
Находим разницу между опытными и теоретическими значениями функции распределения по абсолютной величине
Выбираем максимальное значение
По таблице 5 (приложение 1) находим λкр = 0,52 или вероятность согласия
Контрольные вопросы: 1. Что оценивает расчетное значение критерия Пирсона? 2. Что оценивает расчетное значение критерия Колмогорова? 3. С какой вероятность делается вывод о справедливости проверяемой гипотезы? 4. Как определить вероятность согласия опытных данных и теоретического закона распределения? 5. Как выбрать лучший закон распределения для имеющихся опытных данных?
4. Оценка статистической взаимосвязи двух случайных величин
5.1. Цель и задачи
Цель – изучить методику статистической оценки системы случайных величин. Задачи – освоить основные понятия (система случайных величин, эллипс рассеивания, ковариация и корреляционный момент, коэффициент парной и множественной корреляции), методику оценки статистической взаимосвязи двух случайных величин, изучить виды взаимосвязи случайных величин, научиться определять коэффициент парной корреляции и оценивать его значимость.
5.2. Основные понятия и определения
В экспериментальных исследованиях, связанных с сельскохозяйственными объектами (растениями, животными, технологическими процессами) применительно к одному и тому же объекту рассматривают две и более связей. Связь – совокупность зависимостей свойств одного элемента от свойств других элементов системы. Установить связь между двумя элементами – это значит выявить наличие зависимостей их свойств. Связи, взаимодействующие на основе законов природы, называют функциональными На практике чаще всего встречаются такие соотношения между переменными, когда каждому значению признака x соответствует ни одно, а множество возможных значений признака y. Такие связи в отличие от функциональных связей, называются стохастическими (вероятностными) или корреляционными. При изучении таких связей возникают два основных вопроса – о тесноте связи и форме связи. Для измерения тесноты связи используют специальный статистический метод, называемый корреляцией. Для анализа линейной корреляции между x | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|