По выполнению лабораторной работы
Стр 1 из 2Следующая ⇒ Лабораторная работа № Однофакторный корреляционный и регрессионный анализ (4 часа) Цель работы
1. Изучить методику проведения однофакторного корреляционного и регрессионного анализа. 2. Сформировать практические навыки проведения однофакторного корреляционного и регрессионного анализа. 3. Построить уравнение регрессии, определить коэффициенты регрессии, коэффициент корреляции, коэффициент детерминации. 4. Оценить значимость коэффициентов регрессии и уравнения регрессии.
Краткая теория
Связь между явлениями классифицируется по ряду признаков, которые делятся на два класса: факторные, вызывающие измененияявлений, и результативные, изменяющиеся под влиянием факторных. Связи между явлениями и признаками классифицируются по степени тесноты, направлению, аналитическому выражению и количеству факторов, действующих на результативный признак. Рассматривается выборка двух взаимосвязанных дискретных случайных величин X и Y. Пара , где соответствует i -й точке (i -му опыту). Здесь n – объем парной выборки. Для удобства последующего использования табличные (опытные) данные моделируют некоторой функцией, которую называют уравнением регрессии: . Процедура построения регрессионной (статистической) модели предусматривает, во-первых, выбор функции . В качестве функции чаще всего используют полином: (5.1) где − коэффициенты регрессии ; k − порядок полинома. На втором этапе построения модели определяют коэффициенты регрессии . Это осуществляется путем аппроксимации опытных точек. Уравнение регрессии позволяет вычислить ожидаемое значение функции Y для опытных значений :
(5.2)
Разность между опытным значением и ожидаемым значением составляет ошибку или погрешность функции:
(5.3)
Аппроксимация может быть произведена при разных требованиях к величине . Наиболее распространенным является требование мини-мизации суммы квадратов отклонений опытных точек от линии регрессии. Это требование называют принципом Лежандра, согласно которому коэффициенты регрессии должны быть подобраны так, чтобы сумма:
(5.4)
принимала минимальное значение. Метод определения коэффициентов регрессии по принципу Лежандра называют методом наименьших квадратов. Искомые коэффициенты регрессии находятся из решения системы уравнений: или Отсюда получается система нормальных уравнений: (5.5) В простейшем случае k = 1, то есть полинома первой степени, уравнение регрессии принимает вид: (5.6) Система (5.5) также упрощается: (5.7) Уравнение (5.6) с коэффициентами регрессии учитывает погрешность функции и не учитывает погрешность фактора. Его называют уравнением прямой регрессии.
Y
0 X Рис. 5.1. Аппроксимация опытных данных линейным уравнением прямой регрессии Решим систему (5.7) двух уравнений с двумя неизвестными а 0 и а 1: (5.8) . (5.9) Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициента регрессии (коэффициента а 1). Если знак при коэффициенте регрессии − положительный, связь зависимой переменной с независимой будет положительной. Если знак при коэффициенте регрессии − отрицательный, связь зависимой переменной с независимой является отрицательной (обратной). Для анализа общего качества уравнения регрессии используют обычно множественный коэффициент детерминации R 2, называемый также квадратом коэффициента множественной корреляции R. R 2 (мера определенности) всегда находится в пределах интервала [0; 1].
Если значение R 2 близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата, близкое к нулю, означает плохое качество построенной модели. Коэффициент детерминации R 2 показывает, на сколько процентов найденная функция регрессии описывает связь между исходными значениями факторов X и Y: где – объясненная вариация; – общая вариация. Соответственно, величина показывает, сколько процен-тов вариации параметра Y обусловлены факторами, не включенными в регрес-сионную модель. При высоком значении коэффициента детерми-нации можно делать прогноз для конкретного значения .
Множественный R − коэффициент множественной корреляции R − выражает степень зависимости независимых переменных (X) и зависимой переменной (Y) и равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы. В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона, который вычисляется по формуле: (5.10) Коэффициент корреляции может принимать значения в пределах . Функциональной связи отвечает значение . При r = 0 величины X и Y не зависят друг от друга. При связь является вероятностной. Интерпретация значений r представлена в табл. 5.1, 5.2.
Таблица 5.1 Оценка линейного коэффициента корреляции r по характеру связи
Таблица 5. 2 Оценка коэффициента корреляции r по степени тесноты связи
Для практического использования моделей регрессии очень важна их адекватность, т.е. соответствие фактическим статистическим данным. Значимость коэффициентов простой линейной регрессии осуществляется с помощью t -критерия Стьюдента. При этом вычисляют расчетные значения t -критерия: – для параметра a 0 ; (5.11) – для параметра a 1 , (5.12) где n – объем выборки; − среднее квадратическое отклонение результативного признака y от выравненных значений ; − среднее квадратическое отклонение факторного признака x от общей средней . Вычисленные по формулам (5.11) и (5.12) значения, сравнивают с критическими , которые определяются по таблице Стьюдента (табл. 5.3) с учетом принятого уровня значимости и числом степеней свободы вариации (m − число факторных признаков в уравнении). Обычно в социально-экономических расчетах уровень значимости принимается равным 0,05. При параметр является значимым (существенным). Если в уравнении все коэффициенты регрессии значимы, то данное уравнение признают окончательным и применяют в качестве модели изучаемого показателя для последующего анализа.
Таблица 5.3 Квантили распределения Стьюдента
Проверка значимости уравнения регрессии производится на основе вычисления F- критерия Фишера:
, где – среднее квадратическое отклонение результа-тивного признака y от общей средней . Полученное значение – критерий F расч сравнивают с критическим (табличным) для принятого уровня значимости a и чисел степеней свободы и . Величины F табл при различных значениях , и уровнях значимости a приведены в табл. 5.4. Уравнение регрессии значимо, если F расч > F табл.
Это означает, что доля вариации, обусловленная регрессией, намного превышает случайную ошибку. Принято считать, что уравнение регрессии пригодно для практического использования в том случае, если F расч превышает табличное не менее чем в 4 раза.
Таблица 5.4 Значения по распределению Фишера при уровне значимости = 0,05
Методические рекомендации по выполнению лабораторной работы
Для проведения регрессионного анализа и прогнозирования необходимо: 1) построить график исходных данных и попытаться зрительно, приближенно определить характер зависимости; 2) выбрать вид функции регрессии, которая может описывать связь исходных данных; 3) определить численные коэффициенты функции регрессии методом наименьших квадратов; 4) оценить силу найденной регрессионной зависимости на основе коэффициента детерминации R 2; 5) сделать прогноз (при или сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. При этом не рекомендуется использовать модель регрессии для тех значений независимого параметра X, которые не принадлежат интервалу, заданному в исходных данных.
Воспользуйтесь поиском по сайту: ©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|