Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Линейная модель парной регрессии. Метод наименьших квадратов (МНК). Свойство оценок  МНК.

Линейная регрессия находит широкое применение в эконометрике в виде чёткой экономической интерпретации её параметров.

Линейная регрессия сводится к нахождению уравнения вида   (1) или (2). Уравнение (1) позволяет по заданным значениям фактора х иметь теоретические значения результативного признака, подставляя в него фактические значения фактора х. Уравнение (2) рассматривает у как зависимую переменную, состоящую из двух составляющих:

1) неслучайную составляющую , где  выступает как объясняющая (независимая) переменная, а  и  - параметры уравнения;

 2) случайного члена -  (возмущение)

 

 

Если , то получатся точки .

Если , то получим точки  ; .

Случайный член существует по ряду причин:

1) включение не всех объясняющих переменных (есть ещё другие факторы, влияющие на у), но измерить их невозможно (например, психологические);

2) агрегирование переменных (объединение некоторого числа микроэкономического соотношения);

3) неправильное описание структуры модели (временные ряды зависят не только от t, но и от  t-1);

4) неправильная функциональная спецификация (не линейная, а какая-то другая);

5) ошибки измерения.

εi есть сумма всех этих факторов.

Рассмотрим задачу определения параметров модели, то есть коэффициентов  и  - оценке параметров модели.

Оценки параметров линейной регрессии могут быть найдены разными методами, например можно построить поле корреляции, взять 2 точки и провести через них прямую.

 

 

 оценка параметра , то есть отрезок отсекаемой прямой на оси ;

,  - угловой коэффициент прямой,

 - оценка параметра .

Необходимо с самого начала признать, что мы не сможем рассчитать истинные значения  и . Мы можем получить только оценки, и они могут быть или хорошими или плохими. Построение линии регрессии на глаз является достаточно субъективным.

Отрезок ε1 (остаток), ε2. Остатки должны быть min. .

Y
XX
X1
 P1
 P4
 R3
 R2
 R4
 P3
 P2
 R1
ε1
eeeΕ222

Существует целый ряд критериев:

1. МНК  минимизация суммы квадратов отклонений.

2. Минимизируется  сумма модулей отклонений.

3. Функция Хубера , где  - «мера» с которой отклонение входит в функционал.

 

         

c
  -c
0
y
x
                                                            

Рассмотрим достоинства и недостатки перечисленных функционалов.

1) сумма квадратов отклонений:

«+» лёгкость вычисления, хорошие статистические свойства, простота математических выводов делают возможным построить развитую теорию, позволяющую провести тщательную проверку различных статистических гипотез;

«-» чувствительность к выбросам;

2) сумма модулей отклонений:

«+» робастость, то есть нечувствительность к выбросам;

«-» сложность вычислительной процедуры, большим отклонениям надо придавать больший вес (лучше 2 отклонения по 1, чем одно 0 и 2), неоднозначность, то есть разным значениям параметра  могут соответствовать одинаковые суммы модулей отклонений.

Функция Хубера является попыткой совместить достоинства двух первых функционалов.

Рассмотрим МНК:

Из множества линий регрессии на графике выбирается та, сумма квадратов отклонений была минимальной.

                                   

Y
P1
Pi
εi
ε1
X
yi
        

Чтобы найти минимум надо взять частные производные по  и  функции S и приравнять их нулю.

        

Получим систему нормальных уравнений для оценки параметров a и b (3):

(3)

 

Решая систему (3) любым методом: исключение, Крамера (через определители), найдем оценки параметров a и b. МНК даёт самые точные несмещённые и эффективные оценки  и .

Можно воспользоваться формулами для определения параметров: 

               ;     

             - ковариация признаков; 

         - дисперсия признака х.

                             

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата (у) с изменением фактора х на одну единицу. Зависимость между расходами на питание (у) и располагаемым личным доходом (х) за период 1959 по 1983 г. В США описывается уравнением регрессии.

, х увеличился на 1 единицу, а у на 0,093ед.

 Если Х увеличился на 1 млрд $, то у (расходы на питание) возрастут на 93 млн $ (т. е. из 1 $ дохода 9,3 цента – на питание).

у = а
 Параметр а, . Уравнение регрессии теряет смысл, «а» - не имеет экономического содержания. Интерпретировать можно только знак при параметре а.  - относительное изменение параметра у, происходит медленнее, чем изменение фактора или вариации результата.

Коэффициенты вариации ;  ;

Если , то ;

Если , то

Возможность чёткой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в экономических исследованиях.

Поскольку полученные оценки a и b коэффициентов линейной рег­рессии опираются на статистические данные и являются случайными величинами, то естественно установить свойства названных оценок; как случайных величин. Более того, не выяснив этих свойств, невоз­можно сделать обоснованные выводы относительно качества и надеж­ности полученных оценок. Необходимо, в частности, определить такие их статистические характеристики, как математическое ожидание и дисперсия. К желательным свойствам оценок относятся также несмещенность и состоятельность. Далее, если бы удалось установить вид распределения (плотности распределения) оценок, можно было бы по­строить доверительные интервалы для истинных значений параметров регрессии (т. е. получить интервальные оценки коэффициентов) и реа­лизовать процедуры проверки гипотез относительно их значений. Важ­ную роль играет также изучение статистических свойств остатков оце­ненной регрессии.

Все эти задачи можно решить, основываясь на некоторых правдопо­добных теоретических предпосылках (гипотезах) модели, выполнение которых на практике подлежит проверке с помощью специально разра­ботанных для этого статистических процедур.

Предположение относительно независимых переменных

В дальнейшем будем допускать, что х — детерминированная (не­случайная) величина, т. е. значения независимых переменных заранее известны. Данное предположение (предпосылка), к сожалению, на практике при моделировании реальных социально-экономических процессов часто не выполняется. Это связано с тем, что здесь в качест­ве независимых переменных часто выступают стохастические некон­тролируемые величины, такие как интенсивность потока покупателей (в одном из примеров главы 1) или рыночный индекс в рыночной мо­дели, который также является случайной величиной. При нарушении вышеупомянутой предпосылки ряд «хороших» свойств оценок сохра­няется (при некоторых условиях), но в отдельных случаях требуется корректировка модели (оценок).

Предположения относительно случайной составляющей модели

При выполнении предпосылки относительно переменной х стати­стические свойства оценок параметров и зависимой переменной, а так­же, остатков, целиком определяются вероятностными свойствами случайной составляющей регрессионной модели. Относительно слу­чайной составляющей в классическом регрессионном анализе предпо­лагают выполнение следующих условий, которые называются условия­ми Гаусса-Маркова и играют ключевую роль при изучении свойств оце­нок, полученных по методу наименьших квадратов:

1. Первое условие заключается в том, что математическое ожидание случайной составляющей во всех наблюдениях должно быть равно нулю. Формально это записывается так

М{ εt } = 0, для всех t = 1,2,..., п.

Смысл этого условия заключается в том, что не должно быть систе­матического смещения случайной составляющей. В линейной регрес­сии систематическое смещение линии регрессии учитывается с помо­щью введения параметра смещения εi и поэтому данное условие можно считать всегда выполненным.

2. Дисперсия случайной составляющей постоянна для всех наблю­дений (т. е. не зависит от номера наблюдения). Это условие записыва­ется так:

 

D { εt }= M { εt 2 }= σ 2,

 

где дисперсия σ 2 — величина постоянная.

Это свойство дисперсии ошибок называется гомоскедастичностью (однородностью).

Выполнение условия гомоскедастичности при построении конкрет­ных эконометрических моделей необходимо проверять с помощью спе­циальных статистических процедур. Поскольку истинные дисперсии ошибок неизвестны, их можно лишь приближенно оценить на основе наблюдаемых (точнее, вычисляемых) значений остатков модели в каж­дом наблюдении. Таким образом, и свойство гомоскедастичности на практике проверяется (диагностируется) на самом деле для остатков мо­дели, а не для истинных ошибок, и может выполняться лишь прибли­женно. Если условие гомоскедастичности не выполнено (т. е. дисперсия ошибок не постоянна), то говорят, что имеет место условие гетероскедастичности). Понятия «гомоскедастичность» и «гетероскедастичность» являются ключевыми в эконометрике.

Графическая иллюстрация понятий «гомоскедастичность» и «гетероскедастичность»

 

                      

      Рис. 2.6а

  Гомоскедастичность           Рис.2.6б                            Рис. 2.6в

                            Гетероскедастичность Гетероскедастичные остатки

 

3. Случайные составляющие модели для различных наблюдений некоррелированы. Это условие записывается таким образом:

 

М{ εi, εj }=0, для всех i ≠ j (i, j =1,2,…, n)

Выполнение данного условия означает отсутствие систематической (статистической) связи между значениями случайного члена в любых двух наблюдениях. Это свойство на практике также проверяется с по­мощью статистических процедур на основе анализа остатков модели.

Если оно нарушается, то процедура оценки параметров должна быть скорректирована.

 

4. Четвертое условие Гаусса-Маркова записывается так:

 

M { xI ,   εj }=0, для всех i и j,

и означает, что объясняющие переменные и случайные составляющие некоррелированы для всех наблюдений. Ранее мы предположили, что объясняющая переменная в модели не является стохастической. В этом случае четвертое условие выполняется автоматически.

Регрессионная модель с детерминированными регрессорами, удовлетво­ряющая предпосылкам Гаусса-Маркова, называется классической регрес­сионной моделью.

Дополнительное предположение о нормальном распределении ошибок

При выполнении условий Гаусса-Маркова, оценки наименьших квадратов обладают такими свойствами, как несмещенность, состоя­тельность и оптимальность (эффективность). Однако, для построения доверительных интервалов и проверки гипотез относительно истинных значений параметров, необходимо дополнительное предположение о распределении случайной составляющей εi. В классическом регресси­онном анализе допускается, что эта составляющая распределена по нормальному закону и тогда модель называют классической нормальной линейной регрессией.

Первых четырех условий достаточно, а пятое - необходимо для оценки точности уравнения регрессии.

Данное предположение является, пожалуй, наиболее спорным. Дело в том, что предположение о нормальности можно считать правдо­подобным, если значения случайной величины порождаются в резуль­тате воздействия большого количества независимых случайных факто­ров, каждый из которых не обязательно имеет нормальное распределе­ние. Примером такого воздействия является так называемое броуновское движение (хаотичное движение малых частиц в жидкости как результат совокупного воздействия на частицу — ударов, соударе­ния — большого количества молекул жидкости).

В экономических процессах распределения случайных величин, как правило, отличаются от нормального, поскольку механизм их более сложный. Тем не менее, чаще всего именно нормаль­ное распределение используется в эконометрических исследованиях (как, впрочем, и в статистике). Это обусловлено следующими причинами. Во-первых, нормальный закон действительно часто достаточно хорошо (с приемлемой для практики точностью) аппроксимирует (приближенно описывает) распределение случайной составляющей. Во-вторых, что очень важно, на основе нормального распределения можно получить процедуры проверки гипотез и построения доверительных интервалов, удобные для расчетов и применения на практи­ке. В любом случае, не изучив базовые результаты (процедуры), осно­ванные на предположении нормальности, нельзя продвигаться на бо­лее высокий уровень изучения и применения более реалистичных моделей, не использующих эту предпосылку и позволяющих получать более точные результаты.

Замечание. Если случайные величины в модели распределены по нормальному закону, то из свойств некоррелированности в третьем и четвертом условиях Гаусса-Маркова следует и независимость соответ­ствующих случайных величин.

Оценкой модели является уравнение:

   

а - оценка   они определяются МНК

b - оценка                                                  

Несмещенная оценка остаточной дисперсии учитывает воздействие факторов и ошибок неучтенных в модели, определяется с помощью дисперсии возмущения (ошибок) или остаточной дисперсии σ2, - это выборочная остаточная дисперсия.

Являются ли оценки a, b и s2 наилучшими выясняется по условиям Гаусса-Маркова: если регрессионная модель удовлетворяет предпосылкам 1-4, то оценки a и b имеют наименьшую дисперсию в классе линейных несмещенных оценок.

Свойства выборочных вариаций (дисперсий) и ковариаций.

Для дальнейшего изложения нам понадобится установить ряд пра­вил, которые можно использовать при преобразовании выражений, со­держащих выборочные вариации и ковариации.

Пусть а — некоторая постоянная, а х, у, z — переменные, прини­мающие в i-м наблюдении значения xi,yi,zi,i=1,..., п (n — количество наблюдений). Тогда а можно рассматривать как переменную, значение которой в i-м наблюдении равно а, и

Со v (х, а) =

                                

откуда следует свойство:

1. Cov (x, a) = 0.

Далее, нетрудно видеть, что имеют место равенства:

2. Cov (x, у) = Cov (y, х);

3. Cov (x, x) = Var (x).

  Кроме того,

Cov (ax, y) = =

откуда следует свойство:

4. Cov (ax. у) = aCov (x, у).

Далее, имеем

Cov (xy, z) = =

 

так что можно сформулировать еще одно свойство:

5.   Cov (x,у + z) = Cov (x,у) + Cov (x, z).

На основе вышеназванных свойств находим, что

6. Var (a)=0,       

т. е. постоянная не обладает изменчивостью и

7. Var (ax)= a 2 Var (x).           

Таким образом, при изменении единицы измерения переменной в раз, во столько же раз преобразуется и величина стандартного отклоне­ния этой переменной (напомним, что стандартное отклонение равно квадратному корню из дисперсии).

8. Var (x + a)= Var (x)           

т. е. сдвиг начала отсчета не влияет на вариацию переменной.

Далее, имеем:

Var(x+y)=Cov(x+y,x+y)= Cov(x, х) + Cov(x, у) + Cov(y,x) + Cov(x, у).

Таким образом, доказано свойство

9. Var (x + y)= Var (x)+ Var (y)+2 Cov (x, y),              

означающее, что вариация суммы двух переменных отличается от сум­мы вариаций этих переменных на величину, которая равна удвоенному значению ковариации между названными переменными.

Свойства остатков. Теперь установим почти очевидные соотношения, которые следуют из условии минимума критерия наименьших квадратов. Определим величину

ŷ i = a + bx,

оценку переменной у при оптимальных значениях коэффициентов регрессии и фиксированном значении х в i-ом наблюдении. Такую оценку называют прогнозом зависимой переменной. Тогда, очевидно, ошибка модели в i-ом наблюдении будет равна εi = yi - ŷ i и из условия следует, что

т. е сумма квадратов ошибок оценок переменной у (остатков модели) при оптимальных параметрах регрессии а и b равна нулю.

  Далее, вытекает, что

 

т. е., при оптимальных параметрах регрессии ошибки ортогональны на­блюдениям независимой переменной.

Несмещенность МНК-оценок.Статистическая оценка некоторого параметра называется несме­щенной, если ее математическое ожидание равно истинному значению этого параметра.

Для случая парной линейной регрессии это означает, что опенки а и b будут несмещенными, если

М{а} = α, M { b }= β.

Докажем это свойство. Используя правила преобразования выбо­рочных ковариаций, можно записать:

Cov (x, у) = Cov (x [ a + βx + и]) =

= Cov (x, а) + Cov (x, β х) + Cov (x, и) = βVar (x) + Cov (x, и).

 

Применив формулу для коэффициента,а также полученное выше соотношение, составим выражение:

Далее, поскольку х — неслучайная величина, будем иметь:

и, таким образом, оценка b является несмещенной.

Несмещенность оценки а следует из цепочки равенств:

М{а}=

Замечание. Свойство несмещенности оценок можно доказать и при более слабой форме 4-го условия Гаусса-Маркова, когда х—случайная, но некоррелированная со случайной переменной ε, величина.

Состоятельность оценок. Свойство состоятельности оценок заключается в том, что при неог­раниченном возрастании объема выборки, значение оценки должно стремиться (по вероятности) к истинному значению параметра, а дис­персии оценок должны уменьшаться и в пределе стремиться к нулю. Дисперсии оценок коэффициентов регрессии определяются выраже­ниями:

Или, используя равенство , можно записать в виде:

Вывод: чем больше число наблюдений n, тем меньше будет дисперсия. Эффективность (оптимальность) оценок.

 До сих пор мы говорили об оптимальности оценок в смысле мини­мума квадратичного критерия. Оказывается, что при выполнении условий Гаусса-Маркова они являются также оптимальными в смысле минимума дисперсии.

Оценка называется эффективной, если она имеет минимальную дис­персию по сравнению с другими оценками заданного класса.

Таким образом, оценки наименьших квадратов являются эффек­тивными, т. е. наилучшими в смысле минимума дисперсии, в классе всех линейных несмещенных оценок параметров.

Вычтем из уравнения(1) зависимость (2):

, то есть оценка теоретической дисперсии  зависит от (и только от) числа случайной составляющей наблюдений х в выборке. Поскольку эти составляющие меняются от выборки к выборке, так от выборки к выборке меняется и величина оценки .

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...