Главная | Обратная связь
МегаЛекции

Линейная одномерная регрессия.





 

Пусть предполагается линейная связь между наблюдениями т.е. . При построении линейной одномерной регрессии чаще других проверяется гипотеза о том, что: . Это равносильно проверке гипотезы о том, что нет никакой связи между , а наблюдаемые изменения у суть проявление случайности.

Значим ли коэффициент в модели ?

Проверим гипотезу ; , ; ;

В решаемой задаче матрица плана есть:

, , ; ;

и МНК-оценки параметров равны:

3.10

3.11

Вычисляем

При ,

;

Сравнивая F с критической границей, принимаем решение о степени согласия гипотезы H с наблюдениями.

Запишем еще одно выражение для вычисления F.

Введем выборочный коэффициент корреляции r переменных y и x .

; ( ; из неравенства Коши)

Из (3.11) ; ;

из (3.10):

; (3.12)

Вычислим, используя (3.11): ;

Записывая в явном виде квадрат разности величин , найдем:

отсюда: ;

; ;

При гипотезе ; модель данных ; ; отсюда:

Теперь запишем, используя (3.11 , 3.12):

Получено еще одно выражение для статистики F. Сравнением его с границей принимаем решение о справедливости гипотезы H. Чем r ближе к единице , тем больше F и тем с большей вероятностью отклоняется гипотеза H.

 

Замечание.

1. 3.13

2. Свойство МНК - оценок моделей , содержащих постоянный регрессор 1 или ):( - коэффициент при постоянном регрессоре ):

; ; 3.14

- сумма уклонений значений регрессии от наблюдений равна нулю; сумма остатков при МНК аппроксимации таблицы наблюдений равна нулю в моделях, содержащих постоянный регрессор;

;

;

Множественная регрессия.

Множественная регрессия предполагает связь отклика y и многих регрессоров (больше двух).

; ; 3.15

( здесь число регрессоров равно p ; ).

Наибольший интерес представляет гипотеза об отсутствии какой-либо связи отклика и регрессоров:

; 3.16

В (3.16) (p-1) ограничений, следовательно, матрица содержит (p-1) строку и p столбцов.

, ; .

Проверим справедливость гипотезы H (3.16) , используя статистику F:

- сумма квадратов отклонений при учете всех коэффициентов мо­дели (3.15)



- сумма квадратов отклонений в задаче МНК-оценки параметров модели (3.15.) с учетом ограничений гипотезы H (3.16); модель данных в этом случае и .

Если выполняется условие , то все регрессоры модели (3.15.), кроме , не оказы­вают значимого влияния на y.

Если H отвергается, то остается не ясным какие именно коэффициенты значимы , а какие нет и следует продолжить прове­рку значимости коэффициентов по отдельности или по группам, используя все ту же статистику F. В качестве одного из рабочих правил Дрейпер и Смит предлагают мо­дифи­цированный критерий значимости всехкоэффициентов модели (3.15), а именно, если вы­полняется условие , то всекоэффициенты значимы.

Полезной мерой степени соответствия аппроксимирующей кривой имеющимся данным яв­ляется выборочный множественный коэффициент корреляции переменных ; он определяется как:

; ;

Величину называют коэффициентом детерминации и чем больше , тем лучше построенная аппроксимация соответствует наблюдениям.

Замечание 1. для моделей данных (3.15), содержащих постоянную составляющую ( ):

1. 3.17

из (3.14) ; и из (3.13) отсюда следует что смешанное произведение в сумме квадратов равно нулю:

;

 

2. из (3.14) , и затем из (3.17):

= ;

3.18

Из (3.17,3.18)

С учетом полученных соотношений статистика F для проверки гипотезы (3.16) есть:

т.е. чем ближе к единице, тем лучше аппроксимация (3.15) соответствует наблюдениям, а гипотеза (3.16) отклоняется с большей вероятностью.

есть обобщение коэффициента ; если модель данных ,

то .

Замечание 2. Критерий проверки произвольной гипотезы вида , не затрагивающий значения (большинство критериев такие) рассматривают как критерий значимости уменьшения величины при введении ограничений, до величины . Всегда .

Пусть - регрессия, подогнанная к данным с учетом ограничений, не затрагивающих значения параметра и

,

тогда F- статистика для проверки гипотезы - имеет вид:

Критерий в такой форме обычно применяют для проверки гипотез о не значимости параметра ; при выполнении этой гипотезы различаются незначительно.

 

Каноническая форма модели

Каноническая форма модели при гипотезе .

Пусть наша задача состоит в проверке гипотезы

,

для модели полного ранга ; матрица размера ; ; , а - матрица размера ранга ; .

Поскольку матрица имеет линейно независимых столбцов, можно без потери общности считать, что такими столбцами являются последние столбцов, т.е. , где - невырожденная матрица. Разбивая соответствующим образом вектор , получим:

.

Умножив обе части последнего равенства слева на ,

получим: . 3.19

С учетом (3.19) регрессия может быть записана в каноническом виде:

, 3.20

где

- матрица размера с линейно независимыми столбцами;

матрица - полного ранга.

 

Предположим обратное: матрица - имеет ранг меньше чем ; тогда найдется ненулевой вектор такой что:

из (3.20) ( т.к. матрица полного ранга ) - ;

из ; возникшее противоречие означает, что равенство выполняется только при векторе и - имеет линейно независимые столбцы.

 

При решении МНК задачи о подборе зависимости при наличии линейных ограничений - параметров выражают через оставшиеся и сводят исходную задачу к задаче подбора модели с меньшим числом параметров . Эту приведенную модель наблюдений называют канонической.

Задача о принадлежности двух выборок одной модели.

Пусть у нас имеются наблюдений величин : ,

представимых моделью ; где матрица размера ранга .

Пусть получено еще дополнительных данных, которые представимы

моделью: , где матрица размера ранга .

Требуется найти статистику для проверки гипотезы о том, что вторая выборка описывается той же моделью, что и первая, т.е.

. 3.21

 

; ;

Объединим обе группы наблюдений и запишем МНК-задачу определения оценок вектора ;

; 3.22

Поскольку в каждой из матриц столбцы линейно независимы, матрица также имеет линейно независимые столбцы, т.е. имеет полный ранг - .

Гипотеза (3.21) о том, что обе группы данных описываются одной и той же моделью в задаче (3.22) , есть:

; , 3.23

а F- статистика для проверки гипотезы Н :

, 3.24

Где - остаточная сумма квадратов МНК-задачи с учетом ограничений (3.21) , а - без всяких ограничений. Для вычисления критерия (3.24) решим задачу МНК оценки параметров дважды: с учетом ограничений (3.21) и без них.

Решение задачи без ограничений (3.22) дает: .

 

При наличии ограничений (3.23) приведем общую модель (3.23) к канонической форме: 3.25

и найдем

Из (3.22) ;

и ;

Обозначим решение задачи (3.25) - , тогда:

 

В результате сравнения числа c критической границей при заданном уровне значимости принимается или отвергается гипотеза Н о том, что обе выборки описываются одной и той же моделью. Если , то гипотеза о том, что обе выборки принадлежат одной и той же модели отклоняется.

Замечание. Квантиль уровня ( ) распределения Фишера с 1 и k степенями свободы равен квадрату квантиля уровня ( ) распределения Стьюдента с k степенями свободы: .

 

Критерий Стьюдента.

 

Если гипотеза где - матрица, отклонена, следует выяснить причину такого отклонения. С этой целью можно поочередно проверять каждую из гипотез и выявить те из них, которые приводят к отклонению гипотезы Н; условия гипотезы проверяем отдельно по каждой строке (здесь и далее – строка матрицы ). Возможный подход к решению этой задачи - продолжать применять

- критерий для проверки каждой гипотезы. Однако задача имеет и более простое решение при использовании и критериев.

Вариант 1. Априорно известно значение ; . При этом случайная величина имеет нормальное распределение . Величину стандартизуют (центрируют и нормируют ).

Если гипотеза справедлива, стандартизованная величина:

3.26

распределена нормально с нулевым средним и дисперсией 1.

Критическая область значений , при которых гипотеза отвергается - область больших по модулю значений .

Критерий проверки гипотезы :

если . гипотеза отклоняется;

здесь - уровень значимости критерия (вероятность ошибки 1-го рода – вероятность отклонить гипотезу в случае, когда она верна);

- квантиль уровня или верхняя процентная точка нормального распределения.

Вариант 2. неизвестно и в критерии проверки гипотез вместо величины используют ее оценку .

Если гипотеза справедлива статистика:

3.27

имеет распределение Стьюдента с степенями свободы ( - количество наблюдений, - число оцениваемых параметров).

Критерий проверки гипотезы ;

если , то гипотеза отклоняется; где - уровень значимости, а верхняя процентная точка распределения Стьюдента с степенями свободы.

Приведенная процедура двухшаговой проверки гипотез (сначала применение F- критерия для выяснения справедливости гипотезы , а затем критерия (3.27) для проверки гипотез типа ) называется критерием минимальной значимости разности - LSD. Употребление в критерии слова "разность" связано с тем, что LSD -критерий обычно используют для сравнения параметров, например, для сравнения средних значений совокупностей методом парных сравнений. Достоинство метода в простоте и гибкости. Недостаток в том, что возможны случаи, когда гипотеза Н отвергается, а все гипотезы принимаются.

Замечание. В статистических пакетах (Statgrafic) в качестве результата проверки выдают величину уровня значимости, соответствующего вычисленному значению критерия - significal level и,

если , гипотеза отвергается, если - принимается.

 

 

3.4 Построение доверительных интервалов для линейных комбинаций параметров и значений регрессии.

Доверительный интервал для величины , где a - постоянный вектор (например, – строка матрицы ), а вектор параметров модели данных строится на основе оценок и оценок дисперсии наблюдений :

3.28

Интервал со случайными границами (3.28) с вероятностью , накрывает оцениваемую величину .

Здесь верхняя процентная точка распределения Стьюдента, а s - выборочное стандартное отклонение ошибок наблюдений.

Пользуясь (3.28) можно, например, построить доверительный интервал для значения регрессии в любой точке - . Для этого записывают вектор , компоненты которого равны значениям регрессоров в выбранной точке

или .

Доверительный интервал с вероятностью , накрывающий величину есть:

Построение совместных доверительных интервалов для величин ; .

Совместное интервальное оценивание - линейных комбинаций ; представляет собой довольно сложную статистическую проблему.

Если воспользоваться (3.28) и построить доверительных интервалов с границами

, 3.29

для величин с вероятностью каждый

,

то вероятность того, что эти утверждения будут выполняться одновременно для всех интервалов может отличаться от .

Действительно, пусть - событие, состоящее в том, что

-ое доверительное утверждение верно, и вероятность события - тогда, если - событие дополнительное к , то

3.30

Если все одинаковы ,

то ; ; 3.31

и вероятность того, что все доверительных утверждений верны, находится в диапазоне . Например, если , а , то , т.е. с вероятностью большей 0,5 все 10 утверждений о доверительных границах (3.29) справедливы. Равенство в (3.31) слева достигается при независимости событий .

Если каждому из доверительных интервалов задать уровень значимости равный и расширить их границы, то из (3.31) получаем:

и тем самым достигается желаемая вероятность выполнения всех доверительных ограничений. (Интервалы Бонферрони).





Рекомендуемые страницы:

Воспользуйтесь поиском по сайту:
©2015- 2020 megalektsii.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.