Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Множественная регрессия и корреляция




Краткая теория

Множественная регрессия – уравнение связи с несколькими независимыми переменными:

,

где -зависимая переменная (результативный признак),

-независимые переменные (факторы)

Для построения уравнения множественной регрессии чаще используются следующие функции:

· линейная - ;

· степенная - ;

· экспонента - ;

· гипербола - .

Можно использовать и другие функции, приводимые к линейному виду.

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии:

Другой вид уравнения множественной регрессии – уравнение регрессии в стандартизованном масштабе:

,

где , -стандартизованные переменные;

-стандартизованные коэффициенты регрессии.

К уравнению множественной регрессии в стандартизованном масштабе применим МНК. Стандартизованные коэффициенты регрессии ( -коэффициенты) определяются из следующей системы уравнений:

Связь коэффициентов множественной регрессии со стандартизованными коэффициентам описывается соотношением

.

Параметр определяется так: .

Средние коэффициенты эластичности для линейной регрессии рассчитываются по формуле:

Для расчета частных коэффициентов эластичности применяется формула:

.

 

Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции:

.

Значение индекса множественной корреляции лежит в пределах от 0 до1 и должно быть больше или равно максимальному парному индексу корреляции:

 

.

Индекс множественной корреляции для уравнения в стандартизованном масштабе можно записать в виде:

.

Частные коэффициенты корреляции, измеряющие влияние на фактора при неизменном уровне других факторов можно определить по рекуррентной формуле:

.

Частные коэффициенты корреляцииизменяются в пределах от -1 до 1.

Качество построенной модели в целом оценивает коэффициент (индекс) множественной детерминации , который рассчитывается как квадрат индекса множественной корреляции.

Скорректированный индекс множественной детерминации содержит поправку на число степеней свободы и рассчитывается следующим образом:

,

где -число наблюдений, -число факторов.

Значимость уравнения множественной регрессии в целом оценивается с помощью F-критерия Фишера. Фактическое значение критерия определяется по формуле:

определяется по уровню значимости (который обычно принимается равным 0,05 или 0,01), числу степеней свободы и числу степеней свободы .

Если , то вероятностью делаем заключение о статистической значимости уравнения в целом и показателя тесноты связи.

Частный F-критерий оценивает статистическую значимость присутствия каждого из факторов в уравнении. Фактическое значение для него определяется по формуле:

.

А табличное значение зависит от уровня значимости , числа степеней свободы и числа степеней свободы .

Оценку значимости коэффициентов чистой регрессии с помощью t-критерия Стьюдента сводится к вычислению значения:

,

где -средняя квадратическая ошибка коэффициента регрессии , она может быть определена по следующей формуле:

.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов, их тесной линейной связанности. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если . По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции . Чем ближе к 0 значение , тем сильнее мультиколлинеарность факторов и ненадежнее результаты регрессии. И наоборот, чем ближе к 1 значение , тем меньше мультиколлинеарность факторов.

 


Примеры решения задач

Пример 3.2.1

По 30 территория России имеются данные, представленные в таблице 3.2.1

Таблица 3.2.1

Признак Среднее значение Среднее квадратическое отклонение
Среднедневной душевой доход, руб., 86,8 11,44
Среднедневная заработная плата работающего, руб., 54,9 5,86
Средний возраст безработного, лет, 33,5 0,58

 

Матрица парных коэффициентов корреляции этих показателей имеет следующий вид:

 
     
0,8405    
-0,2101 -0,1160  

Требуется:

1. Построить уравнение множественной регрессии в стандартизованной и естественной форме.

2. Рассчитать частные коэффициенты эластичности, сравнить их с -коэффициентами, пояснить различия между ними.

3. Рассчитать линейные коэффициенты частной корреляции и коэффициент множественной корреляции. Проанализировать линейные коэффициенты парной и частной корреляции. Рассчитать значение скорректированного коэффициента множественной детерминации.

4. С помощью общего F-критерия Фишера оценить статистическую надежность уравнения регрессии.

5. С помощью частных F-критериев Фишера оценить, насколько целесообразно включение в уравнение регрессии фактора после фактора и насколько целесообразно включение в уравнение регрессии фактора после фактора .

6. Оценить с помощью t-критерия Стьюдента статистическую значимость коэффициентов при переменных и множественного уравнения регрессии.

7. Сделать выводы.

 

Решение

1. Линейное уравнение регрессии от и имеет вид:

.

Для расчета его параметров применим метод стандартизации переменных и построим искомое уравнение в стандартизованном масштабе:

.

В нашем примере число объясняющих факторов .

Стандартизованные коэффициенты регрессии ( -коэффициенты) определяются из следующей системы уравнений:

.

При эта система принимает вид:

.

Для нахождения -коэффициентов применим метод Крамера:

;

, ;

, .

Определим из матрицы парных коэффициентов корреляции значения , , и выполним расчет -коэффициентов по полученным формулам:

;

.

Получим уравнение в стандартизованном масштабе .

Для построения уравнения в естественной форме рассчитаем и , используя формулы для перехода от к :

; ;

; .

Значение параметра определим из соотношения

.

Получим уравнение в естественной форме .

2. Для характеристики относительной силы влияния и на рассчитаем средние коэффициенты эластичности:

;

; .

С увеличением средней заработной платы на 1 % от ее среднего уровня средний душевой доход возрастает на 1,02% от своего среднего уровня; при повышении среднего возраста безработного на 1 % от его среднего уровня средний душевой доход снижается на 0,87% от своего среднего уровня. Очевидно, что сила влияния средней заработной платы на средний душевой доход оказалась большей, чем сила влияния среднего возраста безработного . К аналогичным выводам о силе влияния приходим при сравнении модулей значений стандартизованных коэффициентов и :

.

Различия в силе влияния фактора на результат, полученные при сравнении и , объясняются тем, что коэффициент эластичности исходит из соотношения средних, а -коэффициент из соотношения средних квадратических отклонений.

3. Линейные коэффициенты частной корреляции здесь рассчитываются по рекуррентной формуле:

.

При получаем:

;

;

.

Коэффициенты частной корреляции дают более точную характеристику тесноты связи двух признаков, чем коэффициенты парной корреляции, так как очищают парную зависимость от взаимодействия данной пары признаков с другими признаками, представленным в модели. В рассматриваемой задаче из-за слабой межфакторной связи () коэффициенты парной и частной корреляции отличаются незначительно, выводы о тесноте и направлении связи на основе коэффициентов парной и частной корреляции совпадают:

-связь между и сильная, прямая;

-связь между и слабая, обратная;

-связь между и слабая, прямая.

Расчет линейного коэффициента множественной корреляции выполним с использованием коэффициентов и :

.

Зависимость от и характеризуется как тесная, в которой 72% вариации среднего душевого дохода определяются вариацией учтенных в модели факторов: средней заработной платы и среднего возраста безработного. Прочие факторы, не включенные в модель, составляют соответственно 28% от общей вариации .

Скорректированный индекс множественной детерминации содержит поправку на число степеней свободы и рассчитывается следующим образом:

.

4. Общий F-критерий проверяет гипотезу о статистической незначимости уравнения регрессии и показателя тесноты связи:

Определяем по таблице значений F-критерия Фишера .

Так как , то гипотеза о случайной природе оцениваемых характеристик отклоняется и с вероятностью делаем заключение о статистической значимости уравнения в целом и показателя тесноты связи, которые сформировались под неслучайным воздействием факторов и .

5. Частные F-критерии - и оценивают статистическую значимость присутствия факторов и в уравнении множественной регрессии. оценивает, насколько целесообразно включение в уравнение регрессии фактора после фактора , а указывает целесообразность включения в уравнение регрессии фактора после фактора .

Фактическое значение частного F-критерия рассчитываетcя по формуле:
.

.

Так как , то гипотезу о несущественности прироста за счет включения дополнительного фактора отклоняем, и приходим к выводу о статистически подтвержденной целесообразности включения в уравнение регрессии фактора после фактора .

Целесообразность включения в модель фактора после фактора проверяет :

.

Так как , то гипотезу о несущественности прироста за счет включения дополнительного фактора принимаем. Это означает нецелесообразность включения в уравнение регрессии фактора после фактора .

6. Оценка с помощью t-критерия Стьюдента значимости коэффициентов и связана с сопоставлением их значений с величиной их случайных ошибок и . Расчёт значений случайных ошибок достаточно сложен и трудоёмок. Поэтому предлагается расчёт значения t-критерия Стьюдента по следующим формулам:

;

.

Табличные (критические) значения t-критерия Стьюдента зависят от принятого уровня значимости и от числа степеней свободы , где -число единиц совокупности, -число факторов в уравнении.

В нашем примере . Так как , то коэффициент регрессии является статистически значимым, надежным, на него можно опираться в анализе и в прогнозе. Так как , то приходим к заключению, что величина является статистически незначимой, ненадежной в силу того, что формируется преимущественно под воздействием случайных факторов. Еще раз подтверждается статистическая значимость влияния на и ненадежность, незначимость влияния на .

7. Проведенные выше исследования показывают, что в данном примере парная регрессионная модель зависимости среднего дохода от средней заработной платы является достаточно статистически значимой, и нет необходимости улучшать ее, включая дополнительный фактор (средний возраст безработного).

 

Пример 3.2.2.

По 20 территориям Росси изучается зависимость среднегодового душевого дохода (тыс.руб.) от доли занятых тяжелым физическим трудом в общей численности занятых (%) и от доли экономически активного населения (%). Данные приведены в таблице 3.2.2.

Таблица 3.2.2

Признак Среднее Ср.кв.откл. Теснота связи Уравнение связи
112,76 31,58
5,40 3,34
50,88 1,74

Требуется:

Составить таблицу дисперсионного анализа для проверки при уровне значимости статистической значимости уравнения множественной регрессии и его показателя тесноты связи.

 

 

Решение.

Задача дисперсионного анализа состоит в проверке нулевой гипотезы о статистической незначимости уравнения регрессии в целом и показателя тесноты связи.

Анализ выполняется при сравнении фактического и табличного (критического) значений F-критерия Фишера и . определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:

,

где -число единиц совокупности;

-число факторов в уравнении;

-фактическое значение результативного признака;

- среднее значение результативного признака;

-расчетное значение результативного признака.

Результаты дисперсионного анализа представлены в таблице 3.2.3.

 

Таблица 3.2.3

Вариация результата Число степеней свободы Сумма квадратов отклонений, Дисперсия на одну степень свободы,
Общая 19945,9 - - -
Факторная 11918,3 5959,15 12,62 3,59
Остаточная 8027,6 472,21 - -

;

;

;

.

Сравнивая и , приходим к выводу о необходимости отклонить гипотезу и сделать вывод о статистической значимости уравнения регрессии в целом и значения , так как они статистически надежны и сформировались под систематическим действием неслучайных причин. Вероятность того, что допускается ошибка при отклонении гипотезы составляет 5%.

Пример 3.2.3.

В результате исследования факторов, определяющих экономический рост, по 73 странам было получено следующее уравнение регрессии:

, ,

где - темпы экономического роста (темпы роста среднедушевого ВВП в % к базисному периоду);

-реальный среднедушевой ВВП, %;

-бюджетный дефицит, % к ВВП;

-объем инвестиций, % к ВВП;

-внешний долг, % к ВВП;

-уровень инфляции, %.

В скобках указаны фактические значения t-критерия для коэффициентов регрессии.

Можно ли утверждать, что эмпирические результаты по данной модели доказали:

1. Наличие обратной связи между темпами экономического роста и объемом внешнего долга страны?

2. Наличие прямой связи между темпами экономического роста и объемом инвестиций?

Решение.

Исходя из экономического смысла коэффициентов полученного уравнения регрессии, можно сделать вывод, что при увеличении внешнего долга страны на 1 единицу его измерения (% к ВВП), экономический рост страны снижается на 0,38 единиц своего измерения (темпы роста среднедушевого ВВП в % к базисному периоду); при возрастании же объема инвестиций на 1 единицу его измерения (% к ВВП), экономический рост страны повышается на 11,16 единиц своего измерения. Однако, утверждать, что эмпирические результаты по данной модели доказали наличие обратной связи между темпами экономического роста и объемом внешнего долга страны и существование прямой связи между темпами экономического роста и объемом инвестиций, можно лишь в случае статистической надежности результатов регрессионного моделирования.

Выдвигаем гипотезу о статистической незначимости уравнения регрессии в целом и показателя тесноты связи.

.

.

Так как , то гипотеза о случайной природе оцениваемых характеристик отклоняется, и с вероятностью делаем заключение, что уравнение в целом и показатель тесноты связи статистически значимы.

Теперь мы должны убедиться в том, что и коэффициенты множественной регрессии при переменных и статистически надежны.

При оценке значимости коэффициентов линейной регрессии с помощью t-статистики можно пользоваться следующим «грубым» правилом:

1. -практически стопроцентное свидетельство наличия связи;

2. говорит о весьма значимой связи (доверительная вероятность от 0,95 до 0,99);

3. если , то сделанная оценка может рассматриваться как более или менее значимая (доверительная вероятность от 0,7 до 0,95-уточняется по таблицам);

4. если , то коэффициент не может быть признан «хорошим» (значимым), поскольку доверительная вероятность здесь составит менее 0,7.

Конечно, при оценке надежности всегда играет роль число элементов совокупности, однако, при сформулированные правила практически всегда верны.

В рассматриваемой модели , (при ), поэтому даже без использования таблиц можно заключить, что коэффициент регрессии при переменной не является статистически значимым, на него нельзя опираться при анализе и прогнозе, в то время как коэффициент регрессии при переменной практически стопроцентно надежен. Таким образом, полученная модель не доказывает наличие обратной связи между темпами экономического роста и объемом внешнего долга страны, но доказывает существование прямой связи между темпами экономического роста и объемом инвестиций.


Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...