Статистические показатели модели простой линейной регрессии.
(заметки) Для линейного регрессионного анализа требуется линейность только по параметрам, поскольку нелинейность по переменным может быть устранена с помощью изменения определений. Стандартная ошибка коэффициента множественной регрессии является оценкой стандартного отклонения распределения коэффициента регрессии вокруг его истинного значения. Используют стандартизованные регрессионные коэффициенты, т.е. прежде, чем строить модель, все Х стандартизуются, следовательно, все коэффициенты становятся сравнимы между собой. Плюс – меряют силу влияния, минус – не решают задачу содержательного смысла. МНК работает даже в случае равномерного распределения точек. Проверка гипотез: нулевая – данная прямая не берет на себя нисколько дисперсии исходных точек (прямой регрессии нет, нет влияния Х на Y), общая – есть совокупное влияние Х на Y. Значимость: вероятность того, что коэффициенты регрессии равны нулю, вероятность принятия нулевой гипотезы. Рассмотрим реализацию линейной регрессии в SPSS. Статистика регрессионные коэффициенты (regression coefficients) · оценки (estimates) – включает регрессионные коэффициенты и связанные с ними меры. · доверительные интервалы (confidence intervals) – 95% доверительные интервалы для регрессионных коэффициентов. · ковариационная матрица (covariance matrix) – ковариационная и корреляционная матрицы. В ковариационной матрице на диагонали – дисперсия. остатки (residuals) · тест Дарбина-Уотсона (Durbin-Watson) - тест для последовательных корреляций остатков, а также суммарная статистика для остатков и предсказанных значений. Если значение статистики равно 2, то третье условие Гаусса-Маркова не нарушается. Если <2, то имеет место положительная автокорреляция – бич временных рядов, если >2 – то отрицательная автокорреляция.
· диагностика (casewise diagnostic) – «выбросы» за n стандартных отклонений. разное · качество модели (model fit) – коэффициент множественной корреляции R, коэффициент детерминации (ранее рассматривался в качестве основного индикатора успеха в спецификации модели, но признание того факта, что даже плохая модель может дать высокий коэффициент детерминации, привело к снижению значимости коэффициента), скорректированный R-квадрат (коэффициент детерминации при добавлении объясняющей переменной никогда не уменьшается, скорректированный коэффициент обеспечивает компенсацию для такого автоматического сдвига вверх путем наложения «штрафа» за увеличение числа независимых переменных, увеличение скорректированного коэффициента при добавлении новой переменной не обязательно означает, что ее коэффициент значимо отличается от нуля), стандартная ошибка, ANOVA – число степеней свободы, сумма квадратов, средний квадрат, F-значение, ожидаемая вероятность F. F-статистика используется для проверки нулевой гипотезы о том. что добавляемая переменная не дает значительного прироста R-квадрата. t-статистика проверяет гипотезу: нет линейной связи между зависимой и независимыми переменными, или что коэффициенты регрессии равны нулю. · изменение коэффициента детерминации (R squared change) – изменение в R квадрате при добавлении и извлечении из модели независимых переменных. Если изменение, связанное с переменной большое, то переменная хорошо вписывается в модель. · описательная статистика (descriptives) – средние, стандартное отклонение, корреляционная матрица. · частная и частичная корреляция (part and partial correlation) · диагностика коллинеарности (collinearity diagnostic) – стойкость отдельных переменных и статистики для определения проблем с коллинеарностью. Коллинеарность – нежелательная ситуация, когда одна независимая переменная в модели является линейной функцией других независимых переменных. Собственные числа (eigenvalues) – показывают, сколько существует независимых векторов в пространстве. Если существует собственное значение очень близкое к нулю, то имеет место зависимость. Поэтому небольшие изменения в данных могут привести к большим изменениям в оценках регрессионных коэффициентов. Индекс состояния (condition index) – квадратный корень из отношения большего собственного числа к последующему. Если больше 15, то возможны проблемы с коллинеарностью, если больше 30 – то очень большие проблемы с коллинеарностью. Пропорция дисперсии (variance proportion) – пропорция дисперсии оценки, объясненная каждой компонентой, связанной с каждым собственным значением. Коллинеарность – проблема, когда компонента, связанная с большим индексом состояния, вносит существенный вклад в дисперсию двух или более переменных.
Сохранение предсказанные значения (predicted values) · нестандартизованные (unstandardized) – значение, предсказанное моделью для зависимой переменной. · стандартизованные (standardized) – преобразование предсказанного значения в стандартную форму (минус математическое ожидание, поделить на стандартное отклонение). · скорректированные (adjusted) – предсказанное значение для данного случая, когда этот случай исключался из вычисления регрессионных коэффициентов. · стандартная ошибка средних предсказаний (S.E. of mean predictions) – оценка стандартного отклонения от среднего значения зависимой переменной для случаев, которые имеют одинаковое значение независимых переменных. расстояния (distances) · расстояние Махаланобиса (Mahalonobis) – мера отличия независимых переменных от среднего по всем случаям. Если значение очень большое, то имеет место случай с экстремальными значениями каких-то независимых переменных. · расстояние Кука (Cook’s) – мера того, как сильно остатки для всех случаев изменятся, если отдельный случай исключить из вычисления регрессионных коэффициентов. · (leverage value) – мера влияния точки на качество модели. Изменяется от нуля (нет влияния) до (N-1)/N. предсказанные интервалы (prediction intervals) · средние (mean) – верхняя и нижняя границы для предсказанного интервала среднего предсказания отклика.
· индивидуальные (individual) – верхняя и нижняя границы интервала зависимой переменной для отдельного случая. остатки (residuals) · нестандартизованные (unstandardized) · стандартизованные (standardized) · стьюдентизованные (studentized) – остатки, деленные на оценку стандартного отклонения, которая отличается от случая к случаю, в зависимости от расстояния значений независимых переменных от среднего по независимым переменным. · удаленные (deleted) – остатки, когда случай был удален при вычислении регрессионных коэффициентов. Разница между значением зависимой переменной и скорректированным предсказанным значением. · стьюдентизованные удаленные (studentized deleted) – удаленные остатки, деленные на стандартную ошибку. статистика влияния (influence statistics) · изменение значений бета (DfBeta(s)) – изменение в регрессионных коэффициентах из-за удаления отдельного случая при вычислении регрессионных коэффициентов. Считается для всех параметров, включая константу. · стандартизованное изменение значений бета (standardized DfBeta(s)) · изменение качества модели (DfFit) – изменение в качестве модели из-за удаления отдельного случая при вычислении регрессионных коэффициентов. · стандартизованное изменение качества модели (standardized DfFit) · ковариационное отношение (covariance ratio) – отношение определителя ковариационной матрицы, полученной при удалении отдельного случая при вычислении регрессионных коэффициентов, к определителю матрицы со всеми случаями. Если отношение близко к единице, то случай не сильно меняет ковариационную матрицу. Есть метки включения константы в уравнение, задание критических значений F-статистики, различные графики.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|