Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Занятие 8. Парная корреляция и парная линейная регрессия.




Практически для количественной оценки тесноты связи широко используют линейный коэффициент корреляции. Иногда его называют просто коэффициентом корреляции. Если заданы значения переменных Х и У, то он вычисляется по формуле

Коэффициент корреляции принимает значения в интервале от -1 до + 1. Принято считать, что если |r|< 0,30, то связь слабая; при |r|= (0,3÷0,7) – средняя; при |r|> 0,70 – сильная, или тесная. Когда |r|= 1 – связь функциональная. Если же r принимает значение около 0, то это дает основание говорить об отсутствии линейной связи между У и X. Однако в этом случае возможно нелинейное взаимодействие. что требует дополнительной проверки и других измерителей.

Для характеристики влияния изменений Х на вариацию У служат методы регрессионного анализа. В случае парной линейной зависимости строится регрессионная модель

где n число наблюдений;
а0, а1 – неизвестные параметры уравнения;
ei – ошибка случайной переменной У.

Уравнение регрессии записывается как

где Уiтеор – рассчитанное выравненное значение результативного признака после подстановки в уравнение X.

Параметры а0 и а1 оцениваются с помощью процедур, наибольшее распространение из которых получил метод наименьших квадратов.

Можно воспользоваться формулами, вытекающими из метода наименьших квадратов, например:

Получив оценки корреляции и регрессии, необходимо проверить их на соответствие истинным параметрам взаимосвязи.

Существующие программы для ЭВМ включают, как правило, несколько наиболее распространенных критериев. Для оценки значимости коэффициента парной корреляции рассчитывают стандартную ошибку коэффициента корреляции:

В первом приближении нужно, чтобы . Значимость rxy проверяется его сопоставлением с , при этом получают

где tрасч – так называемое расчетное значение t-критерия.

Если tрасч больше теоретического (табличного) значения критерия Стьюдента (tтабл) для заданного уровня вероятности и (n-2) степеней свободы, то можно утверждать, что rxy значимо.

Подобным же образом на основе соответствующих формул рассчитывают стандартные ошибки параметров уравнения регрессии, а затем и t-критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие tрасч > tтабл. В противном случае доверять полученной оценке параметра нет оснований.

Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, вычисляя его расчетное значение:

где n – число наблюдений;
m – число параметров уравнения регрессии.

Fрасч также должно быть больше Fтеор при v1 = (m-1) и v2 = (n-m) степенях свободы. В противном случае следует пересмотреть форму уравнения, перечень переменных и т.д.

Так как регрессия была построена не по генеральной, а по выборочной совокупности, это означает, что полученные значения коэффициентов регрессии не детерминированы, а являются всего лишь оценками истинных коэффициентов и при другой выборке они могут получиться другими. Представление о том, каким же в принципе может быть истинное значение коэффициентов, дает доверительный интервал, который определяется через t-тест:

Пусть - истинное значение коэффициента регрессии а, т.е. найденное нами а является оценкой . Тогда доверительный интервал ищется по формуле:

Здесь - соответствующее значение t-теста, взятое из статистической таблицы распределения Стьюдента.

- оценка стандартного отклонения функции плотности вероятности (стандартная ошибка) коэффициента а.

Для коэффициента при х парной линейной регрессии стандартная ошибка определяется формулой:

Для коэффициентов множественной линейной регрессии при наличии двух факторов формула примет вид:

Если полученный интервал включает в себя ноль, это означает, что нельзя исключить отсутствие зависимости.

 

Рассмотрим пример.

В течение 6 недель менеджер предприятия меняет цену на товар и отслеживает изменение спроса:

Неделя            
Цена, у.е.            
Объем продаж, шт.            

 

Данные необходимо задать в виде двух столбцов:

 

Сначала необходимо сделать предварительный вывод о наличии связи между показателями, используя надстройку Анализ данных:

 

Получили коэффициент линейной корреляции -0,99844, что говорит о тесной обратно пропорциональной связи:

 

Используем приложение Регрессия:

 

Получим:

Таким образом, получили уравнение зависимости спроса от цены:

Это означает, что при увеличении цены на 1 у.е. спрос будет падать на 11,5 штук.

Коэффициент детерминации очень близок к 1 (0,996890606), что говорит о высоком качестве полученной регрессии, его значимость подтверждает очень высокое значение теста Фишера (1282,424242).

Отсутствие нулей в доверительных интервалах для параметров регрессии даже при 99% уровне значимости (от 188,5 до 214, 5 для свободного члена и от -12,98 до -10, 02 для коэффициента при х) также подтверждает статистическую значимость полученного уравнения регрессии.

 

Решить задачи:

 

Задача 8.1. За отчетный период работа предприятий торговли района характеризуется данными:

 

Предприятия Розничный товарооборот, тыс. руб. Издержки обращения, тыс. руб.
    30,0
    34,0
    46,0
    30,9
    15,9
    25,2
    42,0
    27,0
    16,4
    34,8
    37,0
    28,6
    18,7
    39,0
    36,0
    36,0
    25,0
    38,5
    44,0
    37,0
    27,0
    35,0

Определить тесноту связи с помощью коэффициента корреляции, сделать вывод о наличии зависимости, выполнить регрессионный анализ данных. При выполнении данного задания воспользоваться программным пакетом «Microsoft Excel».

Задача 8.2. В табл. 1 приведены результаты обследования 20 предприятий по следующим показателям:

Y1 – производительность труда;

Y2 - рентабельность;

X1 –среднегодовая численность ППП;

X2 - среднегодовая стоимость ОПФ;

X3 - фондоотдача;

X4 – оборачиваемость нормируемых оборотных средств.

Рассчитать среднее арифметическое значение, дисперсию и среднее квадратическое отклонение для каждого показателя по индивидуальным значениям.

Таблица 1

Y1 Y2 X1 X2 X3 X4
9,26 13,26   167,69 1,45 166,32
9,38 10,16   186,10 1,30 92,88
12,11 13,72   220,45 1,37 158,04
10,81 12,85   169,30 1,65 93,96
9,35 10,63   39,53 1,91 173,88
9,87 9,12   40,41 1,68 162,30
8,17 25,83   102,96 1,94 88,56
9,12 23,39   37,02 1,89 101,16
5,88 14,68   45,74 1,94 166,32
6,30 10,05   40,07 2,06 140,76
6,22 13,99   45,44 1,96 128,52
5,49 9,68   41,08 1,02 177,84
6,50 10,03   136,14 1,85 114,48
6,61 9,13   42,39 0,88 93,24
4,32 5,37   37,39 0,62 126,72
7,37 9,86   101,78 1,09 91,80
7,02 12,62   47,55 1,60 69,12
8,25 5,02   32,61 1,53 66,24
8,15 21,18   103,25 1,40 67,68
8,72 25,17   38,95 2,22 50,40

Провести регрессионный анализ зависимости производительности труда Y1 от среднегодовой численности ППП X1. Проверить значимость уравнения и коэффициентов регрессии. При выполнении данного задания воспользоваться программным пакетом «Microsoft Excel».

Поделиться:





Читайте также:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...