Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Лекция №8. Парный линейный и нелинейный корреляционный анализ. Коэффициент корреляции r. Корреляционное отношение h. Коэффициент детерминации




Лекция №8.

Парный линейный и нелинейный корреляционный анализ

Для описания связей между варьирующими признаками (переменными) применяют математическое понятие функции f, которая ставит в соответствие каждому определенному значению независимой переменной Х, называемой аргументом, вполне определенное значение зависимой переменной Y: y=f(x). Такого рода однозначные зависимости Y от Х называются функциональными зависимостями или связями.

Однако чаще встречаются корреляционные связи или просто корреляции, когда определенному значению независимой переменной Х соответствует не одно и то же числовое значение Y, а распределяющийся вариационный ряд числовых значений зависимой переменной, хотя связь и записывается в том же виде, что и функциональная y=f(x).

Задачи корреляционного анализа сводятся к установлению направления (положительная или отрицательная), формы связи (линейная, точнее прямолинейная) или нелинейная (криволинейная), измерению ее тесноты (величины) и оценке значимости связи.

Графическое различие функциональной и корреляционной связи (рис. 1).

                         ·

             ·· ·

         ·····

· · · · ·

·· · · ·

· ·· · ·

···

 

      а  б

Рис. 1. Функциональная (а) и корреляционная (б) положительная линейная связи

Не все корреляционные связи можно называть корреляционными зависимостями. Например, если измерить на каком-то участке леса высоту и диаметр дубов, между этими переменными будет обнаружена корреляционная связь. Но диаметр не зависит от высоты, как и высота от диаметра. Эти признаки корреляционно связаны потому, что они оба увеличиваются при росте деревьев. Связь есть – зависимости нет.

Корреляционные связи не обязательно свидетельствуют о причинно-следственных связях, но об этом подробнее поговорим позднее.

Коэффициент корреляции r

Показателем парной линейной связи является двумерная статистика коэффициент корреляции r.

rxy=

Коэффициент корреляции – отвлеченное число, лежащее в пределах от -1 до +1. При независимом варьировании признаков, когда связь между ними полностью отсутствует, r=0; при функциональной связи r=1 илиr=-1.

Знак перед r указывает на направление корреляции. Например, мы получили r=-0. 9. Это значит, что связь отрицательная, сильная (тесная).

Проще всего оценивать значимость коэффициента корреляции, пользуясь уже составленными таблицами критических значений коэффициента корреляции rxy. Такая таблица имеется и у Лакина (1990) (табл. 1), правда табулированная лишь для 2-х уровней значимости (р=0. 05 и р=0. 01). Допустим, для нахождения r использовали 7 пар значений признака. В этом случае (см. табл. 1) значимым считается r> =0. 75 (р=0. 05) и r> =0. 87 (р=0. 01). При вычислении на ПК обычно получают оценки не только значений r, но и его значимости.

Таблица 1

Критические значения коэффициента корреляции rxy

Степени свободы

k=n-2

Уровни значимости α, %

Степени свободы

k=n-2

Уровни значимости α, %

0. 75 0. 87 0. 37 0. 47
0. 71 0. 83 0. 36 0. 46
0. 67 0. 80 0. 36 0. 46
0. 63 0. 77 0. 35 0. 45
0. 60 0. 74 0. 33 0. 42
0. 58 0. 71 0. 30 0. 39
0. 55 0. 68 0. 29 0. 37
0. 53 0. 66 0. 27 0. 35
0. 51 0. 64 0. 25 0. 33
0. 50 0. 62 0. 23 0. 30
0. 48 0. 61 0. 22 0. 28
0. 47 0. 59 0. 21 0. 27
0. 46 0. 58 0. 20 0. 25
0. 44 0. 56 0. 17 0. 23
0. 43 0. 55 0. 16 0. 21
0. 42 0. 54 0. 14 0. 18
0. 41 0. 53 0. 11 0. 15
0. 40 0. 52 0. 10 0. 13
0. 40 0. 51 0. 09 0. 12
0. 39 0. 50 0. 07 0. 10
0. 38 0. 49 0. 06 0. 09
0. 37 0. 48 0. 06 0. 09
P 0. 05 0. 01 - 0. 05 0. 01

Коэффициент корреляции оценивает линейную связь, точнее линейный компонент связи. Довольно условно выделяют слабую (r< 0. 5), среднюю (0. 5< =r< 0. 7) и сильную r> =0. 7 связь (Лакин, 1990).

Корреляционное отношение h

Для измерения нелинейной связи между Х и Y используют корреляционное отношение. Формулы для вычисления коэффициентов корреляционного отношения hxyиhyx здесь не рассматриваются. Корреляционное отношение всегда является величиной положительной, значения от 0 (отсутствие связи) до 1 (функциональная связь). Оно позволяет характеризовать любую форму корреляции – и линейную, и нелинейную. Чем более различаются r и h, тем в большей степени нелинейной является связь. Если h=r, связь линейная.

Коэффициент детерминации

Коэффициент детерминации показывает, какая доля вариации одного признака зависит от варьирования другого признака.

При линейной связи коэффициент детерминации представляет собой .

При нелинейной связи он представляет собой .

В качестве примера парного корреляционного анализа приводим результаты изучения зависимости урожайности озимой пшеницы в Луганской области (y) от 48 переменных (x1-x48).

За независимые переменные принимали среднемесячные температуры года сбора урожая (x13-x24) и предшествующего ему года (х112), а также месячные суммы осадков за эти же годы (х25-х48). Заметим, что предшествующий году сбору урожая год для озимых культур является годом их посева.

В системеSTATISTICA создаем базу данных, а потом находим всю совокупность парных коэффициентов корреляции. Особый интерес для нас имеют коэффициенты корреляции урожайности (y) с 48 независимыми переменными (x1-x48). Они приведены в табл. 2 с указанием уровней значимости.

Корреляция урожайности с независимыми переменными слабая. Положительные коэффициенты корреляции урожайности и температуры воздуха установлены по январю, февралю и марту года сбора урожая, а также по декабрю предшествующего года. Это значит, что чем теплее зима и начало весны (во время перезимовки озимых культур), тем выше урожайность озимой пшеницы. Напротив, корреляции урожайности и температуры воздуха за май и летние месяцы года сбора урожая были отрицательными. Чем прохладнее май и последующее лето, тем выше урожайность озимой пшеницы и, наоборот, чем жарче май и лето, тем она ниже. Результат ожидаемый, поскольку зима у нас для озимой пшеницы иногда слишком морозная, а лето – излишне жаркое.

В расположенной в засушливой зоне Украины Луганской области озимая пшеница на втором году жизни обычно ощущает недостаток влаги, и потому почти во всех случаях положительно реагирует на увеличение осадков (табл. 1). Особенно большие положительные корреляции урожайности с осадками установлены по апрелю, маю, июню и июлю года сбора урожая (табл. 1).

Эти месяцы охватывают практически весь вегетационный период этой культуры на втором году жизни (в год сбора урожая). При этом максимально большой коэффициент корреляции найден по паре признаков: урожайность-сумма осадков за июнь (r=0. 37). Почти такая же по абсолютному (r=-0. 38), но иная по знаку корреляция была обнаружена при рассмотрении пар признаков: урожайность-средняя температура июня (табл. 1). Напомним в этой связи, что как уже отмечалось, июньская температура и осадки связаны значимой отрицательной корреляцией (r=-0. 43), то есть чем больше осадков в июне, тем этот месяц прохладнее. Аналогичная связь, хотя и менее тесная, характерна также для июля, августа и сентября.

Таблица 2

Коэффициенты парной корреляции (r1-r48)и множественной регрессии (а148)урожайности озимой пшеницы (у) с температурой воздуха и осадками (x1-x48)

Месяцы Незав. перем. r1-r48  а148 Месяцы Незав. перем. r1-r48  а148

Среднемесячная температура воздуха, оС

Месячная сумма осадков, мм

Год посева

январь х1 -0. 07 0. 20 январь х25 0. 12 -0. 03
февраль х2 -0. 00 0. 14 февраль х26 0. 11 -0. 27
март х3 0. 12 1. 15 март х27 -0. 12 -0. 27
апрель х4 0. 16 -0. 33 апрель х28 0. 23 -0. 05
май х5 -0. 07 1. 53 май х29 0. 09 -0. 08
июнь х6 -0. 11 -1. 83 июнь х30 0. 29* 0. 05
июль х7 -0. 13 0. 09 июль х31 0. 28* -0. 05
август х8 -0. 06 0. 26 август х32 -0. 01 0. 08
сентябрь х9 -0. 19 -1. 09 сентябрь х33 0. 31* 0. 20
октябрь х10 -0. 04 2. 32 октябрь х34 -0. 18 -0. 09
ноябрь х11 0. 08 -1. 60 ноябрь х35 0. 18 0. 17
декабрь х12 0. 15 0. 77 декабрь х36 0. 06 -0. 15

Год сбора урожая

январь х13 0. 26* 0. 06 январь х37 0. 09 0. 00
февраль х14 0. 32* -0. 31 февраль х38 0. 20 0. 04
март х15 0. 36** 1. 07 март х39 0. 09 -0. 10
апрель х16 0. 08 -0. 62 апрель х40 0. 28* -0. 00
май х17 -0. 28* 1. 09 май х41 0. 30* 0. 07
июнь х18 -0. 38** -1. 33 июнь х42 0. 37** 0. 06
июль х19 -0. 19 1. 20 июль х43 0. 26* 0. 03
август х20 -0. 38** -2. 19 август х44 -0. 05 0. 00
сентябрь х21 -0. 16 -0. 45 сентябрь х45 0. 32* 0. 01
октябрь х22 0. 18 0. 39 октябрь х46 -0. 25 -0. 20
ноябрь х23 0. 12 -0. 22 ноябрь х47 -0. 01 0. 07
декабрь х24 -0. 08 0. 70 декабрь х48 0. 30* 0. 10

Примечания * - параметр значим при 0. 95< P< 0. 99, ** - при 0. 99< P< 0. 999

 

Коэффициент детерминации изменчивости урожайности озимой пшеницы июньской температурой r2=0. 144 (14%).

На основании этих результатов можно сделать заключение: для получения высоких урожаев озимой пшеницы в Луганской области определяющее значение имеет июнь месяц года сбора урожая. Чем больше осадков в июне и чем он прохладнее, тем выше урожайность, и наоборот, чем меньше июньских осадков и чем жарче июнь, тем урожайность ниже. В меньшей степени это касается и мая года сбора урожая (табл. 1).

На первый взгляд кажется удивительным, что урожайность озимой пшеницы значимо коррелирует с декабрьской суммой осадков года сбора урожая (табл. 1). Эти осадки выпадают уже после сбора урожая, и поэтому не могут прямо влиять на урожайность. Понять наличие такой связи можно, рассмотрев корреляцию декабрьских осадков с другими переменными. Сумма осадков декабря месяца положительно и значимо связана с осадками апреля (r=0. 26) и июня (r=0. 28), а те, как уже отмечалось выше, положительно влияют на урожайность (табл. 1).

Сказанное в предыдущем абзаце – хороший пример того, что корреляционная связь не обязательно должна быть причинно-следственной.

В общем, на урожайность озимой пшеницы в целом влияет комплекс природных экологических факторов – среднемесячные температуры и месячные суммы осадков (48 переменных). Степень влияния на урожайность этих переменных неодинаковая, и они в той или иной степени коррелируют друг с другом.

Поскольку количество влияющих на интересующий нас признак факторов или независимых переменных велико, трудно точно оценить силу (степень) влияния отдельных факторов, индивидуализировать их влияние, нередко и доказать значимость отдельных влияний. Однако в подобной ситуации в этом и нет особой необходимости. Важнее оценить влияние всех факторов вместе, для чего и предназначен множественный корреляционно-регрессионный анализ, рассматриваемый в следующей лекции.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...