Занятие 8. Парная корреляция и парная линейная регрессия.
Практически для количественной оценки тесноты связи широко используют линейный коэффициент корреляции. Иногда его называют просто коэффициентом корреляции. Если заданы значения переменных Х и У, то он вычисляется по формуле Коэффициент корреляции принимает значения в интервале от -1 до + 1. Принято считать, что если |r|< 0,30, то связь слабая; при |r|= (0,3÷0,7) – средняя; при |r|> 0,70 – сильная, или тесная. Когда |r|= 1 – связь функциональная. Если же r принимает значение около 0, то это дает основание говорить об отсутствии линейной связи между У и X. Однако в этом случае возможно нелинейное взаимодействие. что требует дополнительной проверки и других измерителей. Для характеристики влияния изменений Х на вариацию У служат методы регрессионного анализа. В случае парной линейной зависимости строится регрессионная модель где n – число наблюдений; Уравнение регрессии записывается как где Уiтеор – рассчитанное выравненное значение результативного признака после подстановки в уравнение X. Параметры а0 и а1 оцениваются с помощью процедур, наибольшее распространение из которых получил метод наименьших квадратов. Можно воспользоваться формулами, вытекающими из метода наименьших квадратов, например: Получив оценки корреляции и регрессии, необходимо проверить их на соответствие истинным параметрам взаимосвязи. Существующие программы для ЭВМ включают, как правило, несколько наиболее распространенных критериев. Для оценки значимости коэффициента парной корреляции рассчитывают стандартную ошибку коэффициента корреляции: В первом приближении нужно, чтобы . Значимость rxy проверяется его сопоставлением с , при этом получают
где tрасч – так называемое расчетное значение t-критерия. Если tрасч больше теоретического (табличного) значения критерия Стьюдента (tтабл) для заданного уровня вероятности и (n-2) степеней свободы, то можно утверждать, что rxy значимо. Подобным же образом на основе соответствующих формул рассчитывают стандартные ошибки параметров уравнения регрессии, а затем и t-критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие tрасч > tтабл. В противном случае доверять полученной оценке параметра нет оснований. Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, вычисляя его расчетное значение: где n – число наблюдений; Fрасч также должно быть больше Fтеор при v1 = (m-1) и v2 = (n-m) степенях свободы. В противном случае следует пересмотреть форму уравнения, перечень переменных и т.д. Так как регрессия была построена не по генеральной, а по выборочной совокупности, это означает, что полученные значения коэффициентов регрессии не детерминированы, а являются всего лишь оценками истинных коэффициентов и при другой выборке они могут получиться другими. Представление о том, каким же в принципе может быть истинное значение коэффициентов, дает доверительный интервал, который определяется через t-тест: Пусть - истинное значение коэффициента регрессии а, т.е. найденное нами а является оценкой . Тогда доверительный интервал ищется по формуле: Здесь - соответствующее значение t-теста, взятое из статистической таблицы распределения Стьюдента. - оценка стандартного отклонения функции плотности вероятности (стандартная ошибка) коэффициента а. Для коэффициента при х парной линейной регрессии стандартная ошибка определяется формулой:
Для коэффициентов множественной линейной регрессии при наличии двух факторов формула примет вид: Если полученный интервал включает в себя ноль, это означает, что нельзя исключить отсутствие зависимости.
Рассмотрим пример. В течение 6 недель менеджер предприятия меняет цену на товар и отслеживает изменение спроса:
Данные необходимо задать в виде двух столбцов:
Сначала необходимо сделать предварительный вывод о наличии связи между показателями, используя надстройку Анализ данных:
Получили коэффициент линейной корреляции -0,99844, что говорит о тесной обратно пропорциональной связи:
Используем приложение Регрессия:
Получим:
Таким образом, получили уравнение зависимости спроса от цены:
Это означает, что при увеличении цены на 1 у.е. спрос будет падать на 11,5 штук. Коэффициент детерминации очень близок к 1 (0,996890606), что говорит о высоком качестве полученной регрессии, его значимость подтверждает очень высокое значение теста Фишера (1282,424242). Отсутствие нулей в доверительных интервалах для параметров регрессии даже при 99% уровне значимости (от 188,5 до 214, 5 для свободного члена и от -12,98 до -10, 02 для коэффициента при х) также подтверждает статистическую значимость полученного уравнения регрессии.
Решить задачи:
Задача 8.1. За отчетный период работа предприятий торговли района характеризуется данными:
Определить тесноту связи с помощью коэффициента корреляции, сделать вывод о наличии зависимости, выполнить регрессионный анализ данных. При выполнении данного задания воспользоваться программным пакетом «Microsoft Excel». Задача 8.2. В табл. 1 приведены результаты обследования 20 предприятий по следующим показателям:
Y1 – производительность труда; Y2 - рентабельность; X1 –среднегодовая численность ППП; X2 - среднегодовая стоимость ОПФ; X3 - фондоотдача; X4 – оборачиваемость нормируемых оборотных средств. Рассчитать среднее арифметическое значение, дисперсию и среднее квадратическое отклонение для каждого показателя по индивидуальным значениям. Таблица 1
Провести регрессионный анализ зависимости производительности труда Y1 от среднегодовой численности ППП X1. Проверить значимость уравнения и коэффициентов регрессии. При выполнении данного задания воспользоваться программным пакетом «Microsoft Excel».
Читайте также: III этап, 30-е занятие Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|