Линейная одномерная регрессия.
Пусть предполагается линейная связь между наблюдениями
т.е.
. При построении линейной одномерной регрессии чаще других проверяется гипотеза о том, что:
. Это равносильно проверке гипотезы о том, что нет никакой связи между
, а наблюдаемые изменения у суть проявление случайности.
Значим ли коэффициент
в модели
?
Проверим гипотезу
;
,
;
;
В решаемой задаче матрица плана есть:
,
,
;
; 
и МНК-оценки параметров
равны:
3.10
3.11
Вычисляем 
При
,
;


Сравнивая F с критической границей, принимаем решение о степени согласия гипотезы H с наблюдениями.
Запишем еще одно выражение для вычисления F.
Введем выборочный коэффициент корреляции r переменных y и x.
; (
; из неравенства Коши)
Из (3.11)
;
;
из (3.10):
; (3.12)
Вычислим, используя (3.11):
;
Записывая в явном виде квадрат разности величин
, найдем:

отсюда:
;
;
;
При гипотезе
; модель данных
;
; отсюда: 
Теперь запишем, используя (3.11, 3.12):

Получено еще одно выражение для статистики F. Сравнением его с границей принимаем решение о справедливости гипотезы H. Чем r ближе к единице
, тем больше F и тем с большей вероятностью отклоняется гипотеза H.
Замечание.
1.
3.13
2. Свойство МНК - оценок моделей
, содержащих постоянный регрессор 1 или
):(
- коэффициент при постоянном регрессоре):


;
; 3.14
- сумма уклонений значений регрессии от наблюдений равна нулю; сумма остатков при МНК аппроксимации таблицы наблюдений равна нулю в моделях, содержащих постоянный регрессор;
; 
;
Множественная регрессия.
Множественная регрессия предполагает связь отклика y и многих регрессоров
(больше двух).
;
; 3.15
(здесь число регрессоров равно p;
).
Наибольший интерес представляет гипотеза об отсутствии какой-либо связи отклика и регрессоров:
;
3.16
В (3.16) (p-1) ограничений, следовательно, матрица
содержит (p-1) строку и p столбцов.
,
;
.
Проверим справедливость гипотезы H (3.16), используя статистику F:

- сумма квадратов отклонений при учете всех коэффициентов модели (3.15)
- сумма квадратов отклонений в задаче МНК-оценки параметров модели (3.15.) с учетом ограничений гипотезы H (3.16); модель данных в этом случае
и
.
Если выполняется условие
, то все регрессоры модели (3.15.), кроме
, не оказывают значимого влияния на y.
Если H отвергается, то остается не ясным какие именно коэффициенты значимы, а какие нет и следует продолжить проверку значимости коэффициентов по отдельности или по группам, используя все ту же статистику F. В качестве одного из рабочих правил Дрейпер и Смит предлагают модифицированный критерий значимости всех коэффициентов модели (3.15), а именно, если выполняется условие
, то все коэффициенты значимы.
Полезной мерой степени соответствия аппроксимирующей кривой имеющимся данным является выборочный множественный коэффициент корреляции переменных
; он определяется как:
;
;
Величину
называют коэффициентом детерминации и чем больше
, тем лучше построенная аппроксимация соответствует наблюдениям.
Замечание 1. для моделей данных (3.15), содержащих постоянную составляющую (
):
1.
3.17
из (3.14)
; и из (3.13)
отсюда следует что смешанное произведение в сумме квадратов равно нулю:
;
2. из (3.14)
,
и затем из (3.17):
=
;
3.18
Из (3.17,3.18) 
С учетом полученных соотношений статистика F для проверки гипотезы (3.16) есть:
т.е. чем ближе
к единице, тем лучше аппроксимация (3.15) соответствует наблюдениям, а гипотеза (3.16) отклоняется с большей вероятностью.
есть обобщение коэффициента
; если модель данных
,
то
.
Замечание 2. Критерий проверки произвольной гипотезы вида
, не затрагивающий значения
(большинство критериев такие) рассматривают как критерий значимости уменьшения величины
при введении ограничений, до величины
. Всегда
.
Пусть
- регрессия, подогнанная к данным с учетом ограничений, не затрагивающих значения параметра
и
,
тогда F - статистика для проверки гипотезы
- имеет вид:

Критерий в такой форме обычно применяют для проверки гипотез
о не значимости параметра
; при выполнении этой гипотезы
различаются незначительно.
Каноническая форма модели
Каноническая форма модели
при гипотезе
.
Пусть наша задача состоит в проверке гипотезы
,
для модели полного ранга
; матрица
размера
;
;
, а
- матрица размера
ранга
;
.
Поскольку матрица
имеет
линейно независимых столбцов, можно без потери общности считать, что такими столбцами являются последние
столбцов, т.е.
, где
- невырожденная
матрица. Разбивая соответствующим образом вектор
, получим:
.
Умножив обе части последнего равенства слева на
,
получим:
. 3.19
С учетом (3.19) регрессия
может быть записана в каноническом виде:
, 3.20
где 
- матрица размера
с
линейно независимыми столбцами;
матрица
- полного ранга.
Предположим обратное: матрица
- имеет ранг меньше чем
; тогда найдется ненулевой вектор
такой что: 
из (3.20)
(т.к. матрица
полного ранга) -
;
из
; возникшее противоречие означает, что равенство
выполняется только при векторе
и
- имеет линейно независимые столбцы.
При решении МНК задачи о подборе зависимости
при наличии линейных ограничений
- параметров выражают через оставшиеся
и сводят исходную задачу к задаче подбора модели с меньшим числом параметров
. Эту приведенную модель наблюдений
называют канонической.
Задача о принадлежности двух выборок одной модели.
Пусть у нас имеются
наблюдений величин
:
,
представимых моделью
; где
матрица размера
ранга
.
Пусть получено еще
дополнительных данных, которые представимы
моделью:
, где
матрица размера
ранга
.
Требуется найти статистику для проверки гипотезы о том, что вторая выборка описывается той же моделью, что и первая, т.е.
. 3.21
;
;
Объединим обе группы наблюдений и запишем МНК-задачу определения оценок вектора
;
;
3.22
Поскольку в каждой из матриц
столбцы линейно независимы, матрица
также имеет линейно независимые столбцы, т.е. имеет полный ранг -
.
Гипотеза (3.21) о том, что обе группы данных описываются одной и той же моделью в задаче (3.22), есть:
;
, 3.23
а F - статистика для проверки гипотезы Н:
, 3.24
Где
- остаточная сумма квадратов МНК-задачи с учетом ограничений (3.21), а
- без всяких ограничений. Для вычисления критерия (3.24) решим задачу МНК оценки параметров
дважды: с учетом ограничений (3.21) и без них.
Решение задачи без ограничений (3.22) дает:
.
При наличии ограничений (3.23) приведем общую модель (3.23) к канонической форме:
3.25
и найдем 
Из (3.22)
;
и
;


Обозначим решение задачи (3.25) -
, тогда:

В результате сравнения числа
c критической границей
при заданном уровне значимости
принимается или отвергается гипотеза Н о том, что обе выборки описываются одной и той же моделью. Если
, то гипотеза о том, что обе выборки принадлежат одной и той же модели отклоняется.
Замечание. Квантиль уровня (
) распределения Фишера с 1 и k степенями свободы
равен квадрату квантиля уровня (
) распределения Стьюдента с k степенями свободы:
.
Критерий Стьюдента.
Если гипотеза
где
- матрица, отклонена, следует выяснить причину такого отклонения. С этой целью можно поочередно проверять каждую из гипотез
и выявить те из них, которые приводят к отклонению гипотезы Н; условия гипотезы
проверяем отдельно по каждой строке (здесь и далее
– строка матрицы
). Возможный подход к решению этой задачи - продолжать применять
- критерий для проверки каждой
гипотезы. Однако задача имеет и более простое решение при использовании
и
критериев.
Вариант 1. Априорно известно значение
;
. При этом случайная величина
имеет нормальное распределение
. Величину
стандартизуют (центрируют и нормируют).
Если гипотеза
справедлива, стандартизованная величина:
3.26
распределена нормально с нулевым средним и дисперсией 1.
Критическая область значений
, при которых гипотеза
отвергается - область больших по модулю значений
.
Критерий проверки гипотезы
:
если
. гипотеза
отклоняется;
здесь
- уровень значимости критерия (вероятность ошибки 1-го рода – вероятность отклонить гипотезу в случае, когда она верна);
- квантиль уровня
или верхняя
процентная точка нормального распределения.
Вариант 2.
неизвестно и в критерии проверки гипотез
вместо величины
используют ее оценку
.
Если гипотеза
справедлива статистика:
3.27
имеет распределение Стьюдента с
степенями свободы (
- количество наблюдений,
- число оцениваемых параметров).
Критерий проверки гипотезы
;
если
, то гипотеза
отклоняется; где
- уровень значимости, а
верхняя
процентная точка распределения Стьюдента с
степенями свободы.
Приведенная процедура двухшаговой проверки гипотез (сначала применение F- критерия для выяснения справедливости гипотезы
, а затем критерия (3.27) для проверки гипотез типа
) называется критерием минимальной значимости разности - LSD. Употребление в критерии слова "разность" связано с тем, что LSD -критерий обычно используют для сравнения параметров, например, для сравнения средних значений совокупностей методом парных сравнений. Достоинство метода в простоте и гибкости. Недостаток в том, что возможны случаи, когда гипотеза Н отвергается, а все гипотезы
принимаются.
Замечание. В статистических пакетах (Statgrafic) в качестве результата проверки выдают величину уровня значимости, соответствующего вычисленному значению критерия - significal level
и,
если
, гипотеза
отвергается, если
- принимается.
3.4 Построение доверительных интервалов для линейных комбинаций параметров и значений регрессии.
Доверительный интервал для величины
, где a - постоянный вектор (например,
– строка матрицы
), а
вектор параметров модели данных
строится на основе оценок
и оценок
дисперсии наблюдений
:
3.28
Интервал со случайными границами (3.28) с вероятностью
, накрывает оцениваемую величину
.
Здесь
верхняя
процентная точка распределения Стьюдента, а s - выборочное стандартное отклонение ошибок наблюдений.
Пользуясь (3.28) можно, например, построить доверительный интервал для значения регрессии
в любой точке -
. Для этого записывают вектор
, компоненты которого равны значениям регрессоров
в выбранной точке
–
или
.
Доверительный интервал с вероятностью
, накрывающий величину
есть:

Построение совместных доверительных интервалов для величин
;
.
Совместное интервальное оценивание
- линейных комбинаций
;
представляет собой довольно сложную статистическую проблему.
Если воспользоваться (3.28) и построить
доверительных интервалов с границами
,
3.29
для величин
с вероятностью
каждый
,
то вероятность того, что эти утверждения будут выполняться одновременно для всех
интервалов может отличаться от
.
Действительно, пусть
- событие, состоящее в том, что
-ое доверительное утверждение верно, и вероятность события
-
тогда, если
- событие дополнительное к
, то 

3.30
Если все
одинаковы
,
то
;
; 3.31
и вероятность того, что все
доверительных утверждений
верны, находится в диапазоне
. Например, если
, а
, то
, т.е. с вероятностью большей 0,5 все 10 утверждений о доверительных границах (3.29) справедливы. Равенство в (3.31) слева достигается при независимости событий
.
Если каждому из
доверительных интервалов задать уровень значимости равный
и расширить их границы, то из (3.31) получаем:
и тем самым достигается желаемая вероятность выполнения всех
доверительных ограничений. (Интервалы Бонферрони).
Воспользуйтесь поиском по сайту: