Лекция 3. Корреляционный анализ
В реальном мире многие явления природы происходят в обстановке действия многочисленных факторов, влияние каждого из них ничтожно, а число их велико. В этом случае возникает статистическая связь между случайными величинами, т.е. случайная переменная реагирует на изменение другой переменной изменением своего ряда распределения. В результате, она. переходит не в определенное состояние, а в одно из возможных своих состояний. Для изучения статистической зависимости нужно знать аналитический вид двумерного распределения. Нахождение аналитического вида двумерного распределения по выборке ограниченного объема громоздко и может привести к значительным ошибкам. Поэтому на практике при исследовании зависимостей между случайными переменными При изучении статистических зависимостей форму связи можно характеризовать функцией регрессии (линейной, квадратной, показательной и т.д.) Кривой регрессии
Статистические связи между переменными можно изучать методом корреляционного и регрессионного анализа. Основная задача корреляционного анализа – выявление связи между случайными переменными путем точечной и интервальной оценки парных коэффициентов корреляции, вычисления функции регрессии одной случайной величины на другую. Корреляционный анализ статистических данных включает следующие этапы: 1) построение корреляционного поля и составление корреляционной таблицы; 2) вычисление выборочных коэффициентов корреляции и корреляционных отношений; 3) проверка статистической гипотезы значимости связи. Поле корреляции. Корреляционная таблица Рассмотрим простейший случай корреляционного анализа – двумерную модель. Пусть
Декартова плоскость с нанесенными на нее точками с координатами
По виду корреляционного поля иногда можно судить о виде зависимости между случайными величинами В данном случае представлено корреляционное поле для дискретного случайного вектора. При большом объеме выборки построение поля корреляции становится очень громоздкой задачей. Задача упрощается, если выборку упорядочить, т.е. переменные сгруппировать. В результате получится сгруппированный статистический ряд. Сгруппированный ряд может быть дискретным или интервальным. Сгруппированному ряду соответствует корреляционная таблица. Пусть, например
Эта таблица построена на основе интервального ряда. В первой строке и первом столбце таблицы помещают интервалы изменения
где Вычислим статистические оценки параметров распределения случайного вектора. Статистической оценкой математического ожидания является среднее арифметическое, а статистической оценкой дисперсии является статистическая дисперсия. Вычисление этих величин в данном случае проводится по формулам
Оценкой коэффициента корреляции является выборочный коэффициент корреляции, который определяется равенством
В данном примере
Величина выборочного коэффициента корреляции не зависит от порядка следования переменных, т.е. Если генеральная совокупность имеет нормальное распределение, т. е. совместная функция распределения то функция регрессии линейны. Функция регрессии
а функция регрессии
Выражения Уравнения регрессии
В данном примере уравнение регрессии
уравнение регрессии
Полученные уравнения регрессии показывают, как в среднем изменяется (или Проверка гипотезы о значимости коэффициента корреляции. Выборочный коэффициент корреляции является точечной оценкой коэффициента корреляции. Он служит для оценки силы линейной связи между
которая имеет распределение Стьюдента с В нашем примере зададим В случае значимого выборочного коэффициента корреляции можно построить доверительный интервал для коэффициента корреляции.
Плотность вероятности выборочного коэффициента корреляции имеет сложный вид. Поэтому прибегают к специально подобранным функциям от выборочного коэффициента корреляции, которые сводятся хорошо изученным распределениям, например, к нормальному или Стьюдента. Чаще всего используют преобразование Фишера. По выборочному коэффициенту корреляции вычисляют статистику Распределение статистики В этом случае доверительный интервал для
где Если коэффициент корреляции значим, то коэффициенты регрессии значимо отличаются от нуля. Интервальные оценки для них имеют вид
где Основная задача регрессионного анализа– изучение зависимости между результативным признаком
Это выражение называется функцией регрессии или модельным уравнением регрессии. Параметры
коэффициенты которого найдем методом наименьших квадратов из условия минимума суммы квадратов отклонений измеренных значений результативного признака
Подставляя в (3.11) выражение (3.10), получим
В соответствии с необходимым условием минимума функции приравняем нулю частные производные функции
После упрощения система уравнений (3.13) приводится к виду
Оценки, полученные по методу наименьших квадратов, обладают наименьшей дисперсией в классе линейных оценок. В случае, когда наблюдавшиеся данные представлены корреляционной таблицей, нужно произвести следующие замены в уравнениях (3.14)
где
Систему уравнений (3.16) можно переписать в виде
Решая эту систему, найдем значения параметров
и уравнение регрессии
В примере 1
Нелинейная регрессия Линейная регрессия часто оказывается неудовлетворительной. Тогда используют криволинейную регрессию, график которой есть некоторая подходящим образом выбранная кривая, вид которой определяют по корреляционному полю. Если зависимость между признаками
Если наблюдавшиеся данные представлены корреляционной таблицей, нужно произвести замену (3.15) в уравнениях (3.17)
Решая эту систему, найдем значения коэффициентов и уравнение регрессии. Корреляционное отношение Корреляционное отношение определяется равенством
где Корреляционное отношение можно представить формулой
При вычислении корреляционного отношения по выборочным данным получается выборочное корреляционное отношение
где
Напомним, что
Выборочное значение
где числитель характеризует рассеяние условных средних значений Проверка значимости корреляционного отношения основана на том, что критерий
Воспользуйтесь поиском по сайту: ![]() ©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|