Главная | Обратная связь | Поможем написать вашу работу!

Лекция 3. Корреляционный анализ

В реальном мире многие явления природы происходят в обстановке действия многочисленных факторов, влияние каждого из них ничтожно, а число их велико. В этом случае возникает статистическая связь между случайными величинами, т.е. случайная переменная реагирует на изменение другой переменной изменением своего ряда распределения. В результате, она. переходит не в определенное состояние, а в одно из возможных своих состояний. Для изучения статистической зависимости нужно знать аналитический вид двумерного распределения. Нахождение аналитического вида двумерного распределения по выборке ограниченного объема громоздко и может привести к значительным ошибкам. Поэтому на практике при исследовании зависимостей между случайными переменными и ограничиваются изучением зависимости между одной из них и условным математическим ожиданием другой. Знание статистической зависимости позволяет прогнозировать, что значение зависимой случайной переменной будет находиться в некотором интервале, если независимая переменная примет определенное значение. С помощью вероятностных методов можно вычислить вероятность того, что ошибка прогноза не выйдет за определенные границы.

При изучении статистических зависимостей форму связи можно характеризовать функцией регрессии (линейной, квадратной, показательной и т.д.)

Кривой регрессии на называется условное среднее значение случайной переменной как функция и некоторого числа параметров, которые находятся методом наименьших квадратов по наблюденным значениям двумерной случайной величины . Эта кривая называется также эмпирическим уравнением регрессии или просто уравнением регрессии.

Статистические связи между переменными можно изучать методом корреляционного и регрессионного анализа. Основная задача корреляционного анализа – выявление связи между случайными переменными путем точечной и интервальной оценки парных коэффициентов корреляции, вычисления функции регрессии одной случайной величины на другую. Корреляционный анализ статистических данных включает следующие этапы: 1) построение корреляционного поля и составление корреляционной таблицы; 2) вычисление выборочных коэффициентов корреляции и корреляционных отношений; 3) проверка статистической гипотезы значимости связи.

Поле корреляции. Корреляционная таблица

Рассмотрим простейший случай корреляционного анализа – двумерную модель. Пусть и случайные переменные, Пару случайных чисел

можно изобразить графически в виде точки с координатами . Аналогично можно изобразить всю выборку.

Декартова плоскость с нанесенными на нее точками с координатами , являющимися значениями случайного вектора, называется корреляционным полем.

По виду корреляционного поля иногда можно судить о виде зависимости между случайными величинами и , если она существует.

В данном случае представлено корреляционное поле для дискретного случайного вектора. При большом объеме выборки построение поля корреляции становится очень громоздкой задачей. Задача упрощается, если выборку упорядочить, т.е. переменные сгруппировать. В результате получится сгруппированный статистический ряд. Сгруппированный ряд может быть дискретным или интервальным. Сгруппированному ряду соответствует корреляционная таблица. Пусть, например - объем выполненных работ, – накладные расходы. Для случайного вектора () получена выборка, которую можно представить с помощью корреляционной таблицы

	1-2 1.5	2-3 2.5	3-4 3.5	4-5 4.5	5-6 5.5	6-7 6.5	7-8 7.5	8-9 8.5
10-20 15	4	5							9
20-30 25	1	3	1						5
30-40 35	2	3	6	5	3	1			20
40-50 45		5	9	19	8	7	2	1	51
50-60 55		1	2	7	16	9	4	2	41
60-70 65			1	5	6	4	2	2	20
70-80 75							1	3	4
	7	17	19	36	33	21	9	8	150

Эта таблица построена на основе интервального ряда. В первой строке и первом столбце таблицы помещают интервалы изменения и и значения середин интервалов. В ячейки, образованные пересечением строк и столбцов помещают частоты попадания пар значений в соответствующие интервалы. В последней строке и последнем столбце находятся значения и - суммы по соответствующим столбцу и строке, где – суммарная частота наблюдаемого значения признака при всех значениях , – суммарная частота наблюдаемого значения признака при всех значениях , –частота появления пары значений признаков .При этом выполняются равенства

, (3.1)

где - объем выборки.

Вычислим статистические оценки параметров распределения случайного вектора. Статистической оценкой математического ожидания является среднее арифметическое, а статистической оценкой дисперсии является статистическая дисперсия. Вычисление этих величин в данном случае проводится по формулам

, , (3.2)

, . (3.3)

Оценкой коэффициента корреляции является выборочный коэффициент корреляции, который определяется равенством

(3.4)

В данном примере

Величина выборочного коэффициента корреляции не зависит от порядка следования переменных, т.е. , поэтому выборочный коэффициент корреляции обозначают просто .

Если генеральная совокупность имеет нормальное распределение, т. е. совместная функция распределения и подчиняется нормальному закону,

то функция регрессии линейны. Функция регрессии на имеет вид

, (3.5)

а функция регрессии на имеет вид

. (3.6)

Выражения и называются коэффициентами регрессии.

Уравнения регрессии на и на имеют вид

, (3.7)

В данном примере уравнение регрессии на

уравнение регрессии на

Полученные уравнения регрессии показывают, как в среднем изменяется

(или ) в зависимости от изменения аргумента (или ).

Проверка гипотезы о значимости коэффициента корреляции.

Выборочный коэффициент корреляции является точечной оценкой коэффициента корреляции. Он служит для оценки силы линейной связи между и . Равенство нулю выборочного коэффициента корреляции еще не свидетельствует о равенстве нулю самого коэффициента корреляции, а, следовательно, о некоррелированности случайных величин и . Чтобы выяснить, находятся ли случайные величины в корреляционной зависимости, нужно проверить значимость выборочного коэффициента корреляции , т.е. установить, достаточна ли его величина для обоснованного вывода о наличии корреляционной связи. Для этого проверяют нулевую гипотезу , т.е. случайные величины в генеральной совокупности не коррелированы. Альтернативная гипотеза . Предполагая, что имеется двумерное нормальное распределение случайных переменных, вычисляют статистику

, (3.8)

которая имеет распределение Стьюдента с степенями свободы. Для проверки нулевой гипотезы по уровню значимости и числу степеней свободы находят по таблицам распределения Стьюдента критическое значение , удовлетворяющее условию . Если , то нулевую гипотезу об отсутствии корреляционной связи между переменными и следует отвергнуть. В этом случае переменные являются зависимыми. Если , то нет оснований отвергать нулевую гипотезу.

В нашем примере зададим . По формуле (3.8) найдем статистику . Из таблиц распределения критических точек Стьюдента по заданному уровню значимости и числу степеней свободы найдем критическую точку . Так как , то нулевая гипотеза отвергается. Рассматриваемые случайные величины являются коррелированными и, следовательно, зависимыми.

В случае значимого выборочного коэффициента корреляции можно построить доверительный интервал для коэффициента корреляции.

Плотность вероятности выборочного коэффициента корреляции имеет сложный вид. Поэтому прибегают к специально подобранным функциям от выборочного коэффициента корреляции, которые сводятся хорошо изученным распределениям, например, к нормальному или Стьюдента.

Чаще всего используют преобразование Фишера.

По выборочному коэффициенту корреляции вычисляют статистику . Отсюда .

Распределение статистики хорошо аппроксимируется нормальным распределением с параметрами и .

В этом случае доверительный интервал для имеет вид . Величины и находят по таблицам

где – нормированная функция Лапласа для % доверительного интервала.

Если коэффициент корреляции значим, то коэффициенты регрессии значимо отличаются от нуля. Интервальные оценки для них имеют вид

где имеет распределение Стьюдента с степенями свободы. Регрессионный анализ

Основная задача регрессионного анализа– изучение зависимости между результативным признаком и наблюдавшимся признаком , оценка функции регрессии. Рассмотрим линейный регрессионный анализ в котором условное математическое ожидание можно представить в виде линейной функции от оцениваемых параметров

. (3.9)

Это выражение называется функцией регрессии или модельным уравнением регрессии. Параметры называются коэффициентами регрессии. Оценки этих параметров обозначим и . Подставляя эти оценки в формулу (9) вместо параметров, получим линейное уравнение регрессии

, (3.10)

коэффициенты которого найдем методом наименьших квадратов из условия минимума суммы квадратов отклонений измеренных значений результативного признака от вычисленных по уравнению регрессии , т. е. условия минимума величины

(3.11)

Подставляя в (3.11) выражение (3.10), получим

(3.12)

В соответствии с необходимым условием минимума функции приравняем нулю частные производные функции по переменным и . В результате получим систему нормальных уравнений

(3.13)

После упрощения система уравнений (3.13) приводится к виду

(14)

Оценки, полученные по методу наименьших квадратов, обладают наименьшей дисперсией в классе линейных оценок. В случае, когда наблюдавшиеся данные представлены корреляционной таблицей, нужно произвести следующие замены в уравнениях (3.14)

, , ,

(3.15)

где , , соответствующие частоты:

(3.16)

Систему уравнений (3.16) можно переписать в виде

Решая эту систему, найдем значения параметров и

и уравнение регрессии

В примере 1 , . Уравнение регрессии имеет вид

Нелинейная регрессия

Линейная регрессия часто оказывается неудовлетворительной. Тогда используют криволинейную регрессию, график которой есть некоторая подходящим образом выбранная кривая, вид которой определяют по корреляционному полю. Если зависимость между признаками и нелинейная, то условное математическое ожидание является нелинейной функцией. Пусть, например, . Оценки параметров обозначим , , . В этом случае система нормальных уравнений имеет вид

(3.17)

Если наблюдавшиеся данные представлены корреляционной таблицей, нужно произвести замену (3.15) в уравнениях (3.17)

(3.18)

Решая эту систему, найдем значения коэффициентов и уравнение регрессии.

Корреляционное отношение

Корреляционное отношение определяется равенством

где , которое в случае линейной регрессии имеет вид , а в случае квадратичной регрессии имеет вид .

Корреляционное отношение можно представить формулой

При вычислении корреляционного отношения по выборочным данным получается выборочное корреляционное отношение . В этом случае вместо дисперсий используются их статистические оценки. Тогда

(3.19)

где

, .

Напомним, что ( в случае линейной регрессии, в случае квадратичной регрессии)

Выборочное значение вычисляется по данным корреляционной таблицы с помощью формулы

где числитель характеризует рассеяние условных средних значений относительно безусловного среднего арифметического .

Проверка значимости корреляционного отношения основана на том, что критерий имеет распределение Фишера с , степенями свободы. Здесь - число интервалов группировки значений случайной величины . В качестве основной гипотезы обычно принимают отсутствие корреляционной связи : при альтернативной : .

Воспользуйтесь поиском по сайту: