Лекция 3. Корреляционный анализ
В реальном мире многие явления природы происходят в обстановке действия многочисленных факторов, влияние каждого из них ничтожно, а число их велико. В этом случае возникает статистическая связь между случайными величинами, т.е. случайная переменная реагирует на изменение другой переменной изменением своего ряда распределения. В результате, она. переходит не в определенное состояние, а в одно из возможных своих состояний. Для изучения статистической зависимости нужно знать аналитический вид двумерного распределения. Нахождение аналитического вида двумерного распределения по выборке ограниченного объема громоздко и может привести к значительным ошибкам. Поэтому на практике при исследовании зависимостей между случайными переменными и ограничиваются изучением зависимости между одной из них и условным математическим ожиданием другой. Знание статистической зависимости позволяет прогнозировать, что значение зависимой случайной переменной будет находиться в некотором интервале, если независимая переменная примет определенное значение. С помощью вероятностных методов можно вычислить вероятность того, что ошибка прогноза не выйдет за определенные границы. При изучении статистических зависимостей форму связи можно характеризовать функцией регрессии (линейной, квадратной, показательной и т.д.) Кривой регрессии на называется условное среднее значение случайной переменной как функция и некоторого числа параметров, которые находятся методом наименьших квадратов по наблюденным значениям двумерной случайной величины . Эта кривая называется также эмпирическим уравнением регрессии или просто уравнением регрессии.
Статистические связи между переменными можно изучать методом корреляционного и регрессионного анализа. Основная задача корреляционного анализа – выявление связи между случайными переменными путем точечной и интервальной оценки парных коэффициентов корреляции, вычисления функции регрессии одной случайной величины на другую. Корреляционный анализ статистических данных включает следующие этапы: 1) построение корреляционного поля и составление корреляционной таблицы; 2) вычисление выборочных коэффициентов корреляции и корреляционных отношений; 3) проверка статистической гипотезы значимости связи. Поле корреляции. Корреляционная таблица Рассмотрим простейший случай корреляционного анализа – двумерную модель. Пусть и случайные переменные, Пару случайных чисел можно изобразить графически в виде точки с координатами . Аналогично можно изобразить всю выборку. Декартова плоскость с нанесенными на нее точками с координатами , являющимися значениями случайного вектора, называется корреляционным полем. По виду корреляционного поля иногда можно судить о виде зависимости между случайными величинами и , если она существует. В данном случае представлено корреляционное поле для дискретного случайного вектора. При большом объеме выборки построение поля корреляции становится очень громоздкой задачей. Задача упрощается, если выборку упорядочить, т.е. переменные сгруппировать. В результате получится сгруппированный статистический ряд. Сгруппированный ряд может быть дискретным или интервальным. Сгруппированному ряду соответствует корреляционная таблица. Пусть, например - объем выполненных работ, – накладные расходы. Для случайного вектора () получена выборка, которую можно представить с помощью корреляционной таблицы
Эта таблица построена на основе интервального ряда. В первой строке и первом столбце таблицы помещают интервалы изменения и и значения середин интервалов. В ячейки, образованные пересечением строк и столбцов помещают частоты попадания пар значений в соответствующие интервалы. В последней строке и последнем столбце находятся значения и - суммы по соответствующим столбцу и строке, где – суммарная частота наблюдаемого значения признака при всех значениях , – суммарная частота наблюдаемого значения признака при всех значениях , –частота появления пары значений признаков .При этом выполняются равенства , (3.1) где - объем выборки. Вычислим статистические оценки параметров распределения случайного вектора. Статистической оценкой математического ожидания является среднее арифметическое, а статистической оценкой дисперсии является статистическая дисперсия. Вычисление этих величин в данном случае проводится по формулам , , (3.2) , . (3.3) Оценкой коэффициента корреляции является выборочный коэффициент корреляции, который определяется равенством
(3.4) В данном примере , , .
Величина выборочного коэффициента корреляции не зависит от порядка следования переменных, т.е. , поэтому выборочный коэффициент корреляции обозначают просто . Если генеральная совокупность имеет нормальное распределение, т. е. совместная функция распределения и подчиняется нормальному закону, то функция регрессии линейны. Функция регрессии на имеет вид , (3.5) а функция регрессии на имеет вид . (3.6) Выражения и называются коэффициентами регрессии. Уравнения регрессии на и на имеют вид , (3.7) В данном примере уравнение регрессии на
, уравнение регрессии на . Полученные уравнения регрессии показывают, как в среднем изменяется (или ) в зависимости от изменения аргумента (или ). Проверка гипотезы о значимости коэффициента корреляции. Выборочный коэффициент корреляции является точечной оценкой коэффициента корреляции. Он служит для оценки силы линейной связи между и . Равенство нулю выборочного коэффициента корреляции еще не свидетельствует о равенстве нулю самого коэффициента корреляции, а, следовательно, о некоррелированности случайных величин и . Чтобы выяснить, находятся ли случайные величины в корреляционной зависимости, нужно проверить значимость выборочного коэффициента корреляции , т.е. установить, достаточна ли его величина для обоснованного вывода о наличии корреляционной связи. Для этого проверяют нулевую гипотезу , т.е. случайные величины в генеральной совокупности не коррелированы. Альтернативная гипотеза . Предполагая, что имеется двумерное нормальное распределение случайных переменных, вычисляют статистику , (3.8) которая имеет распределение Стьюдента с степенями свободы. Для проверки нулевой гипотезы по уровню значимости и числу степеней свободы находят по таблицам распределения Стьюдента критическое значение , удовлетворяющее условию . Если , то нулевую гипотезу об отсутствии корреляционной связи между переменными и следует отвергнуть. В этом случае переменные являются зависимыми. Если , то нет оснований отвергать нулевую гипотезу. В нашем примере зададим . По формуле (3.8) найдем статистику . Из таблиц распределения критических точек Стьюдента по заданному уровню значимости и числу степеней свободы найдем критическую точку . Так как , то нулевая гипотеза отвергается. Рассматриваемые случайные величины являются коррелированными и, следовательно, зависимыми. В случае значимого выборочного коэффициента корреляции можно построить доверительный интервал для коэффициента корреляции.
Плотность вероятности выборочного коэффициента корреляции имеет сложный вид. Поэтому прибегают к специально подобранным функциям от выборочного коэффициента корреляции, которые сводятся хорошо изученным распределениям, например, к нормальному или Стьюдента. Чаще всего используют преобразование Фишера. По выборочному коэффициенту корреляции вычисляют статистику . Отсюда . Распределение статистики хорошо аппроксимируется нормальным распределением с параметрами и . В этом случае доверительный интервал для имеет вид . Величины и находят по таблицам
где – нормированная функция Лапласа для % доверительного интервала. Если коэффициент корреляции значим, то коэффициенты регрессии значимо отличаются от нуля. Интервальные оценки для них имеют вид где имеет распределение Стьюдента с степенями свободы. Регрессионный анализ Основная задача регрессионного анализа– изучение зависимости между результативным признаком и наблюдавшимся признаком , оценка функции регрессии. Рассмотрим линейный регрессионный анализ в котором условное математическое ожидание можно представить в виде линейной функции от оцениваемых параметров . (3.9) Это выражение называется функцией регрессии или модельным уравнением регрессии. Параметры называются коэффициентами регрессии. Оценки этих параметров обозначим и . Подставляя эти оценки в формулу (9) вместо параметров, получим линейное уравнение регрессии , (3.10) коэффициенты которого найдем методом наименьших квадратов из условия минимума суммы квадратов отклонений измеренных значений результативного признака от вычисленных по уравнению регрессии , т. е. условия минимума величины (3.11) Подставляя в (3.11) выражение (3.10), получим (3.12) В соответствии с необходимым условием минимума функции приравняем нулю частные производные функции по переменным и . В результате получим систему нормальных уравнений
(3.13)
После упрощения система уравнений (3.13) приводится к виду (14) Оценки, полученные по методу наименьших квадратов, обладают наименьшей дисперсией в классе линейных оценок. В случае, когда наблюдавшиеся данные представлены корреляционной таблицей, нужно произвести следующие замены в уравнениях (3.14) , , , (3.15) где , , соответствующие частоты: (3.16)
Систему уравнений (3.16) можно переписать в виде Решая эту систему, найдем значения параметров и , и уравнение регрессии . В примере 1 , . Уравнение регрессии имеет вид . Нелинейная регрессия Линейная регрессия часто оказывается неудовлетворительной. Тогда используют криволинейную регрессию, график которой есть некоторая подходящим образом выбранная кривая, вид которой определяют по корреляционному полю. Если зависимость между признаками и нелинейная, то условное математическое ожидание является нелинейной функцией. Пусть, например, . Оценки параметров обозначим , , . В этом случае система нормальных уравнений имеет вид (3.17) Если наблюдавшиеся данные представлены корреляционной таблицей, нужно произвести замену (3.15) в уравнениях (3.17) (3.18) Решая эту систему, найдем значения коэффициентов и уравнение регрессии. Корреляционное отношение Корреляционное отношение определяется равенством , где , которое в случае линейной регрессии имеет вид , а в случае квадратичной регрессии имеет вид . Корреляционное отношение можно представить формулой . При вычислении корреляционного отношения по выборочным данным получается выборочное корреляционное отношение . В этом случае вместо дисперсий используются их статистические оценки. Тогда (3.19) где , . Напомним, что ( в случае линейной регрессии, в случае квадратичной регрессии) . Выборочное значение вычисляется по данным корреляционной таблицы с помощью формулы , где числитель характеризует рассеяние условных средних значений относительно безусловного среднего арифметического . Проверка значимости корреляционного отношения основана на том, что критерий имеет распределение Фишера с , степенями свободы. Здесь - число интервалов группировки значений случайной величины . В качестве основной гипотезы обычно принимают отсутствие корреляционной связи : при альтернативной : .
Воспользуйтесь поиском по сайту: ©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|