Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Лекция 3. Корреляционный анализ

В реальном мире многие явления природы происходят в обстановке действия многочисленных факторов, влияние каждого из них ничтожно, а число их велико. В этом случае возникает статистическая связь между случайными величинами, т.е. случайная переменная реагирует на изменение другой переменной изменением своего ряда распределения. В результате, она. переходит не в определенное состояние, а в одно из возможных своих состояний. Для изучения статистической зависимости нужно знать аналитический вид двумерного распределения. Нахождение аналитического вида двумерного распределения по выборке ограниченного объема громоздко и может привести к значительным ошибкам. Поэтому на практике при исследовании зависимостей между случайными переменными  и  ограничиваются изучением зависимости между одной из них и условным математическим ожиданием другой. Знание статистической зависимости позволяет прогнозировать, что значение зависимой случайной переменной будет находиться в некотором интервале, если независимая переменная примет определенное значение. С помощью вероятностных методов можно вычислить вероятность того, что ошибка прогноза не выйдет за определенные границы.

При изучении статистических зависимостей форму связи можно характеризовать функцией регрессии (линейной, квадратной, показательной и т.д.)

Кривой регрессии  на   называется условное среднее значение случайной переменной  как функция  и некоторого числа параметров, которые находятся методом наименьших квадратов по наблюденным значениям двумерной случайной величины . Эта кривая называется также эмпирическим уравнением регрессии или просто уравнением регрессии.

Статистические связи между переменными можно изучать методом корреляционного и регрессионного анализа. Основная задача корреляционного анализа – выявление связи между случайными переменными путем точечной и интервальной оценки парных коэффициентов корреляции, вычисления функции регрессии одной случайной величины на другую. Корреляционный анализ статистических данных включает следующие этапы: 1) построение корреляционного поля и составление корреляционной таблицы; 2) вычисление выборочных коэффициентов корреляции и корреляционных отношений; 3) проверка статистической гипотезы значимости связи.

Поле корреляции. Корреляционная таблица

Рассмотрим простейший случай корреляционного анализа – двумерную модель. Пусть  и  случайные переменные, Пару случайных чисел

 можно изобразить графически в виде точки с координатами . Аналогично можно изобразить всю выборку.

Декартова плоскость с нанесенными на нее точками с координатами , являющимися значениями случайного вектора, называется корреляционным полем.

По виду корреляционного поля иногда можно судить о виде зависимости между случайными величинами  и , если она существует.

В данном случае представлено корреляционное поле для дискретного случайного вектора. При большом объеме выборки построение поля корреляции становится очень громоздкой задачей. Задача упрощается, если выборку упорядочить, т.е. переменные сгруппировать. В результате получится сгруппированный статистический ряд. Сгруппированный ряд может быть дискретным или интервальным. Сгруппированному ряду соответствует корреляционная таблица. Пусть, например  - объем выполненных работ,  – накладные расходы. Для случайного вектора () получена выборка, которую можно представить с помощью корреляционной таблицы

 

1-2 1.5 2-3 2.5 3-4 3.5 4-5 4.5 5-6 5.5 6-7 6.5 7-8 7.5 8-9 8.5
10-20 15 4 5             9
20-30 25 1 3 1           5
30-40 35 2 3 6 5 3 1     20
40-50 45   5 9 19 8 7 2 1 51
50-60 55   1 2 7 16 9 4 2 41
60-70 65     1 5 6 4 2 2 20
70-80 75             1 3 4
7 17 19 36 33 21 9 8 150

 

Эта таблица построена на основе интервального ряда. В первой строке и первом столбце таблицы помещают интервалы изменения  и  и значения середин интервалов. В ячейки, образованные пересечением строк и столбцов помещают частоты  попадания пар значений  в соответствующие интервалы. В последней строке и последнем столбце находятся значения  и  - суммы   по соответствующим столбцу и строке, где  – суммарная частота наблюдаемого значения признака  при всех значениях ,  – суммарная частота наблюдаемого значения признака при всех значениях , –частота появления пары значений признаков .При этом выполняются равенства

,                                (3.1)

 где - объем выборки.

Вычислим статистические оценки параметров распределения случайного вектора. Статистической оценкой математического ожидания является среднее арифметическое, а статистической оценкой дисперсии является статистическая дисперсия. Вычисление этих величин в данном случае проводится по формулам

, ,                              (3.2)

, .             (3.3)

Оценкой коэффициента корреляции является выборочный коэффициент корреляции, который определяется равенством

 

                           (3.4)

В данном примере

,

,

.

 

Величина выборочного коэффициента корреляции не зависит от порядка следования переменных, т.е. , поэтому выборочный коэффициент корреляции обозначают просто .

Если генеральная совокупность имеет нормальное распределение, т. е. совместная функция распределения  и подчиняется нормальному закону, 

то функция регрессии линейны. Функция регрессии  на  имеет вид

,                        (3.5)

а функция регрессии  на  имеет вид

.                          (3.6)

Выражения  и   называются коэффициентами регрессии.

Уравнения регрессии  на  и  на  имеют вид

 ,                             (3.7)

В данном примере уравнение регрессии  на

,

уравнение регрессии  на

.

Полученные уравнения регрессии показывают, как в среднем изменяется

(или ) в зависимости от изменения аргумента (или ).

Проверка гипотезы о значимости коэффициента корреляции.

Выборочный коэффициент корреляции является точечной оценкой коэффициента корреляции. Он служит для оценки силы линейной связи между  и . Равенство нулю выборочного коэффициента корреляции еще не свидетельствует о равенстве нулю самого коэффициента корреляции, а, следовательно, о некоррелированности случайных величин  и . Чтобы выяснить, находятся ли случайные величины в корреляционной зависимости, нужно проверить значимость выборочного коэффициента корреляции , т.е. установить, достаточна ли его величина для обоснованного вывода о наличии корреляционной связи. Для этого проверяют нулевую гипотезу , т.е. случайные величины в генеральной совокупности не коррелированы. Альтернативная гипотеза . Предполагая, что имеется двумерное нормальное распределение случайных переменных, вычисляют статистику

,                                                  (3.8)

которая имеет распределение Стьюдента с  степенями свободы. Для проверки нулевой гипотезы по уровню значимости  и числу степеней свободы  находят по таблицам распределения Стьюдента критическое значение , удовлетворяющее условию . Если , то нулевую гипотезу об отсутствии корреляционной связи между переменными  и  следует отвергнуть. В этом случае переменные являются зависимыми. Если , то нет оснований отвергать нулевую гипотезу.

В нашем примере зададим . По формуле (3.8) найдем статистику . Из таблиц распределения критических точек Стьюдента по заданному уровню значимости   и числу степеней свободы  найдем критическую точку . Так как , то нулевая гипотеза отвергается. Рассматриваемые случайные величины являются коррелированными и, следовательно, зависимыми.

В случае значимого выборочного коэффициента корреляции можно построить доверительный интервал для коэффициента корреляции.

Плотность вероятности выборочного коэффициента корреляции имеет сложный вид. Поэтому прибегают к специально подобранным функциям от выборочного коэффициента корреляции, которые сводятся хорошо изученным распределениям, например, к нормальному или Стьюдента.

Чаще всего используют преобразование Фишера.

По выборочному коэффициенту корреляции вычисляют статистику . Отсюда .

Распределение статистики  хорошо аппроксимируется нормальным распределением с параметрами   и .

В этом случае доверительный интервал для  имеет вид . Величины  и  находят по таблицам

где – нормированная функция Лапласа для % доверительного интервала.

Если коэффициент корреляции значим, то коэффициенты регрессии значимо отличаются от нуля. Интервальные оценки для них имеют вид

где  имеет распределение Стьюдента с  степенями свободы. Регрессионный анализ

Основная задача регрессионного анализа– изучение зависимости между результативным признаком  и наблюдавшимся признаком , оценка функции регрессии. Рассмотрим линейный регрессионный анализ в котором условное математическое ожидание можно представить в виде линейной функции от оцениваемых параметров

.                                (3.9)

Это выражение называется функцией регрессии или модельным уравнением регрессии. Параметры  называются  коэффициентами регрессии. Оценки этих параметров обозначим  и . Подставляя эти оценки в формулу (9) вместо параметров, получим линейное уравнение регрессии

,                                            (3.10)

коэффициенты которого найдем методом наименьших квадратов из условия минимума суммы квадратов отклонений измеренных значений результативного признака  от вычисленных по уравнению регрессии , т. е. условия минимума величины

                            (3.11)

Подставляя в (3.11) выражение (3.10), получим

                                      (3.12)

В соответствии с необходимым условием минимума функции приравняем нулю частные производные функции  по переменным  и . В результате получим систему нормальных уравнений

 

                             (3.13)

             

После упрощения система уравнений (3.13) приводится к виду

                               (14)

Оценки, полученные по методу наименьших квадратов, обладают наименьшей дисперсией в классе линейных оценок. В случае, когда наблюдавшиеся данные представлены корреляционной таблицей, нужно произвести следующие замены в уравнениях (3.14)

, , ,

                              (3.15)

где , ,  соответствующие частоты:

                    (3.16)

Систему уравнений (3.16) можно переписать в виде

Решая эту систему, найдем значения параметров  и  

и уравнение регрессии

.

В примере 1 , . Уравнение регрессии имеет вид

.

Нелинейная регрессия

Линейная регрессия часто оказывается неудовлетворительной. Тогда используют криволинейную регрессию, график которой есть некоторая подходящим образом выбранная кривая, вид которой определяют по корреляционному полю. Если зависимость между  признаками  и нелинейная, то условное математическое ожидание является нелинейной функцией. Пусть, например, . Оценки параметров  обозначим , , . В этом случае система нормальных уравнений имеет вид

               (3.17)

Если наблюдавшиеся данные представлены корреляционной таблицей, нужно произвести замену (3.15) в уравнениях (3.17)

                (3.18)

Решая эту систему, найдем значения коэффициентов и уравнение регрессии.

Корреляционное отношение

Корреляционное отношение определяется равенством

,

где , которое в случае линейной регрессии имеет вид , а в случае квадратичной регрессии имеет вид .

Корреляционное отношение можно представить формулой

.

При вычислении корреляционного отношения по выборочным данным получается выборочное корреляционное отношение . В этом случае вместо дисперсий используются их статистические оценки. Тогда

                                         (3.19)

где

, .

Напомним, что  (  в случае линейной регрессии,  в случае квадратичной регрессии)

.

Выборочное значение  вычисляется по данным корреляционной таблицы с помощью формулы

,

где числитель характеризует рассеяние условных средних значений  относительно безусловного среднего арифметического .

Проверка значимости корреляционного отношения основана на том, что критерий  имеет распределение Фишера с ,  степенями свободы. Здесь  - число интервалов группировки значений случайной величины . В качестве основной гипотезы обычно принимают отсутствие корреляционной связи :  при альтернативной : .

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...