Техника расчета линейной регрессии
Лабораторная работа № 8 Регрессионный анализ Ещё немного теории Исследование сопряжённой (взаимозависимой) изменчивости признаков возможно сделать не только в рамках корреляционного анализа, рассмотренного на предыдущей лабораторной работе, но и в рамках регрессионного. При этом, во-первых, фактор, выраженный количественной величиной, имеет большее число значений, чем число градаций («доз фактора», которые использует, например, дисперсионный анализ, в результате чего утрачивается часть информации в исходных выборках); во-вторых, он учитывает тенденции изменения среднего уровня признака при изменении уровня фактора; в третьих, содержит показатель динамики зависимости признака от фактора. Другими словами, выведя уравнение регрессии и просчитав его коэффициенты легко можно давать прогноз изменения признака в зависимости от фактора. Способ представления отдельных наблюдений здесь схож с таковым в корреляционном анализе: каждая варианта рассматривается как носитель двух численных характеристик объекта измерения, двух зависимых значений случайной величины. Например, для любого животного можно определить массу (M) и длину (L) тела; отдельная варианта будет нести два значения (L, M). При этом множество вариант выборки можно отобразить графически как точки на плоскости осей двух признаков M и L (рис.1). Рисунок 1. Полигон распределения
Как видно, вся выборка предстаёт в виде множества точек на плоскости (двумерное рассеяние), при этом «облако вариант» вытянуто в направлении диагонали облака точек. Справа вверху находятся варианты с высокими значениями и размеров и массы тела, в левом нижнем углу – с наименьшими значениями. В центре находятся варианты со средними значениями. Помимо рассеяния на плоскости, в определение двумерного распределения входит и частота встречаемости (а) отдельных вариант. Имеется и обязательное условие - признаки x и y должны подчиняться нормальному закону: для каждого значения x признак y дает множество нормально распределенных значений. Если область, занятую вариантами, очертить по периферии плавной линией, мы получим вытянутую фигуру ограничивающий область рассеяния вариант - эллипс рассеяния - это область распространения вариант одной совокупности. Т.о., проявляются два эффекта: синхронное изменение двух признаков и размывание этой синхронности, т. е. действие факторов доминирующих и случайных: доминирующий фактор (фактор сопряжения признаков) действует вдоль оси эллипса, случайные факторы – поперек оси, размывая взаимозависимость y и x.
Далее уместно напомнить, что изучение зависимости признаков распадается на ряд частных задач (табл. 1). Таблица 1 – Двумерное распределение
Существует довольно трудоёмкий метод расчёта регрессии вручную, пошаговые инструкции которого содержатся в ряде руководств и интересны для понимания составления уравнения регрессии (например, Ивантер….), однако в виду ограниченности времени на лабораторной работе, столь сложный и механизм вычисления предлагается магистрантам для самостоятельного изучения. В теоретической части предлагаемой лабораторной работе излагается лишь суть самого регрессионного анализа и приводится несколько поэтапных вариантов получения коэффициента регрессии в пакете Excel.
Регрессионный анализ изучает эффект влияния одного признака на другой, зависимость признака от фактора, зависимость результативного признака от факториального, а также делает прогноз подобной зависимости. Его основные результаты таковы: 1. Таблица дисперсионного анализа, в которой показана сила и достоверность влияния на признак изучаемого фактора или другого признака (таблица разложения общего варьирования результативного признака на компоненты и соотнесение их друг с другом). 2. Уравнение регрессии, выражающее пропорциональность сопряженного изменения признаков, тенденции их взаимосвязанной изменчивости или динамики. 3. Оценки значимости параметров регрессионного уравнения.
Линейная регрессия Самая простая – это линейная зависимость. Судить о том, как меняется одна величина по мере изменения другой, позволяет коэффициент регрессии (b), показывающий, на какую величину в среднем изменяется один признак (y) при изменении другого (x) на единицу измерения (уравнение линейной регрессии), другими словами он выражает пропорцию изменения признака у при изменении признака х: y = bx + а. (уравнение линейной регрессии) Регрессионный анализ изучает характер рассеяния вариант в осях двух изучаемых признаков, сопряженную изменчивость признаков. Y = bx + а (заменив символ для обозначения зависимого признака с y на Y, мы подчеркиваем, что на базе признака x уравнение позволяет рассчитать теоретическое, среднее, значение признака Y, в общем не равное ни одному наблюдаемому значению y).
В итоге имеем показатель пропорции (b) изменения одного признака при изменении другого. Однако это не "чистая" пропорция, а искаженная случайными факторами (поэтому если мы возьмём несколько таких факторов, то для каждого из них коэффициент b будет свой). Важнее оценить значимость зависимости признаков, реальность их взаимодействия, т. е. установить, что признак x является существенным, "доминирующим" фактором, влияющим на изменчивость признака y. Если варианты отличаются друг от друга только по случайным причинам, то факториальный признак x не влияет на результативный признак y. На плоскости двух осей граница области случайного варьирования будет иметь форму окружности, случайный разлет вариант от средней возможен, естественно, во все стороны. По периферии будут располагаться варианты, отклонившиеся от "ядра" за счет действия доминирующего фактора, т. е. за счет взаимодействия признаков. Варианты, не случайно отклонившиеся от общей средней (т.е. от центра), будут накапливаться вверху справа и внизу слева от круглого "ядра". Таким образом область рассеяния вариант сформирует эллипс (рис. 2).
Рисунок 2 – Рассеяние вариант.
Оценка достоверности взаимодействия признаков и есть задача описания пропорций эллипса рассеяния: достаточно ли много вариант выходят за границы случайного рассеяния (за границы круга), чтобы с уверенностью говорить о реальности связи признаков x и y. Для этой цели используется общая идея статистического оценивания – соотнести отклонения под действием доминирующего фактора с отклонениями по случайным причинам. Лучшим показателем взаимосвязи является линия регрессии (динамика среднего уровня), которая пытается показать только взаимозависимое изменение признаков и вовсе не рассматривает независимое варьирование каждого из них. В свою очередь, характеристикой чисто случайного варьирования выступает отклонение отдельных вариант от линии регрессии. Эта идея позволяет построить базовую модель варианты в регрессионном анализе (рис. 3): Рисунок 3 – Модель регрессионной линии. Отклонение варианты от общей средней арифметической связано с действием факториального признака и с действием случайных причин:
(yi – My) = (yi – Yi) + (Yi – My), где (yi – My) – общее отклонение варианты от средней, yсл. = yi – Yi – отклонение варианты от линии регрессии, отклонение по случайным причинам, yx = Yi – My – отклонение линии регрессии (для точки xi) от средней, т. е. отклонение под действием факториального признака x. Представленная модель позволяет подойти к количественной оценке достоверности связи признаков в целом. Для этого нужно все рассмотренные отклонения объединить по всем вариантам выборки, причем, чтобы суммы отклонений не обратились в нуль, возвести их в квадрат. Таким образом мы получаем оценки факториальной и остаточной сумм квадратов, т. е. можем построить таблицу дисперсионного анализа (см. лабораторную № 6 - однофакторный дисперсионный анализ): изменчивость признака y складывается из варьирования, учтенного регрессионной моделью, и из варьирования по случайным причинам, т. е. остаточного. На этом этапе вводится ещё одна величина, эквивалентная показателю "силы влияния фактора" – это коэффициент детерминации – R2. Он принимает значения от 0 до 1: 0 ≤ R2 ≤ 1 Затем с помощью критерия Фишера (как при дисперсионном анализе) проверяют нулевую гипотезу Но: предсказания модели в целом неадекватно описывают исходные данные (т.е. теоретическая модель зависимости признаков не соответствует практической), зависимости между признаками нет. Конструкция критерия исследует вопрос, превышает ли варьирование, учтенное моделью, случайное (остаточное) варьирование? Критерий Фишера вычисляется как отношение модельной и остаточной дисперсии: F = S2мод./S2остат. ~ F(0.05,1,n–2). Если значение критерия окажется выше табличного, значит, дисперсия реального признака y приближается по величине к дисперсии модельного признака Y, т. е. существенно превышает (случайные) отличия между ними. Значение критерия ниже табличного свидетельствует о существенных отличиях между реальными и модельными данными, о плохом согласовании модели с реальностью, о неадекватности модели (и только! может случиться, что зависимость признаков не линейная). Помимо дисперсионного анализа и критерия Фишера существуют другие способы доказательства влияния признака x на y, например, критерий T Стьюдента, проверяющий нулевую гипотезу Но: b=0, т.е. коэффициент регрессии значимо от нуля не отличается. С этой целью рассчитывается ошибка коэффициента регрессии. Смысл такого вычисления в следующем: коэффициент регрессии b отвечает за то, что линия регрессии имеет некоторый угол относительно оси абсцисс (ОХ). Значение b=0 означает, что линия регрессии идет параллельно оси ОХ, что при изменении признака x признак y не меняется, что y не зависит от x. Значения b>0 или b<0 говорят о том, что взаимосвязь признаков имеет место. Поскольку значение коэффициента регрессии оценивается по выборке, может статься, что b будет отличаться от нуля в силу случайных причин, вследствие ошибок репрезентативности (в действительности связи нет, а в выборке сочетание вариант дало слабый эффект), поэтому, чтобы не проводить работу впустую, предварительно рекомендуется провести расчет коэффициента корреляции r и только в случает, если r≥0,7 вычислять показатели регрессии.
В свою очередь наклоненность линии регрессии обеспечена не случайными причинами. Поэтому отличие коэффициента регрессии от нуля (b–0), или просто величина b, оценивает силу связи между изучаемыми признаками. Если эта связь не случайна, то сопряженное варьирование двух признаков будет сильнее их свободного варьирования, тогда и отношение коэффициента регрессии к своей ошибке превысит критический уровень T статистики Стьюдента. Если же связи нет, то линия регрессии скроется в облаке возможных случайных траекторий, критерий даст значение ниже табличного. Наряду с первым коэффициентом линейной регрессии можно проверить значимость и второго коэффициента, a. В этом случае рассматривается другая гипотеза Но: а=0, т. е. проходит ли линия регрессии через начало осей координат, через нуль. Здесь возможны те же варианты: либо линия регрессии проходит через нуль, и тогда выборочные коэффициенты регрессии случайно варьируют около этого значения (рис. 4, А), либо линия регрессии не проходит через точку пересечения осей координат, и выборочные коэффициенты регрессии действительно отличны от нуля (рис. 4, Б).
Рисунок 4 – Линии регрессии.
Проверяется эта гипотеза также с помощью критерия Стьюдента.
Если свободный член, коэффициент а, значимо от нуля не отличается, т. е. линия регрессии проходит через начало осей координат, следует пересчитать первый коэффициент регрессии b. Регрессионная модель примет вид: Y = bx. Ошибки коэффициентов регрессии позволяет рассчитать для каждого из них доверительные интервалы, ограничивающих область возможного варьирования с принятым уровнем значимости (значение T(α, n–2) берется по таблице Стьюдента): a ±T∙ma, b ±T∙mb. Варьирование коэффициентов a и b означает, что выборочная линия регрессии может иметь иной угол наклона, нежели генеральная, проходить в окрестностях несколько выше или несколько ниже центра, образуя целый "букет" из возможных случайно наклоненных выборочных линий регрессии (рис. 5). В силу нормального распределения признаков их множество укладывается в область сложной конфигурации с "перетяжкой" в окрестностях центра распределения. Точнее всего выборочные линии регрессии "угадывают" положение центра распределения (точки, соответствующей средним My, Mx), поскольку в этой области концентрация вариант наиболее велика, значит, и средняя оценивается с наименьшей ошибкой. Обычно линия регрессии пересекает этот центр. Напротив, по краям двумерного распределения частоты уменьшаются, варианты разрежены. Поэтому на периферии эллипса рассеяния ошибки определения среднего уровня результативного признака увеличены и выборочные линии регрессии могут далеко отклоняться от генеральной линии регрессии. По этой причине доверительный интервал, или доверительная зона линии регрессии, имеет не простую, не линейную конфигурацию.
Рисунок 5 – Выборочные линии регрессии и доверительные интервалы генеральной линии регрессии.
Методы расчета значений изменяющихся ошибок репрезентативности линии регрессии (mY), а также доверительного интервала (в котором с той или иной вероятностью находится генеральная линия регрессии) производят согласно аналогичным вычислениям, приведённым в лабораторной № 3. Техника расчета линейной регрессии Определить уравнение регрессии и ход графика прямой линии можно в том случае, если учесть информацию по всем вариантам изучаемой совокупности. Для этой цели разработан метод наименьших квадратов, основная идея которого состоит в том, чтобы линия регрессии прошла на наименьшем удалении от каждой точки, т. е. чтобы сумма квадратов расстояний от всех точек до прямой линии была наименьшей. После установления присутствия корреляционной связи между изучаемыми явлениями или признаками, чему посвящена предыдущая лабораторная работа, можно попытаться установить закономерность количественного изменения одного из признаков при изменении другого. Такую закономерность далее можно использовать для прогноза изучаемого явления или выяснения его критических точек. Для этого изучаемую связь выражают в виде уравнения регрессии и его графического изображения. Так как зависимость может быть как прямолинейной, так и криволинейной, необходимо определить её тип с учётом достаточного числа использованных точек для построения (иными словами, нужно знать достаточный объём выборки, этот вопрос решается в самом начале планирования, когда определяется репрезентативность выборки; если объёмы обеих выборок достаточны для достоверного проведения вариационной (описательной) статистики, то они и достаточны для выявления тенденции взаимосвязи между ними).
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|