Главная | Обратная связь | Поможем написать вашу работу!

Исключение из массива первичной информации всех резко

выделяющихся (аномальных) единиц по уровню признаков-факторов.

Исключаются все единицы, у которых уровень признака-фактора не попадает в интервал

и формируется новый массив для последующего анализа.

4. Установление факта наличия и направления корреляционной
зависимости между результативным (y) и факторным (x) признаками.

Для установления наличия корреляционной связи используется ряд специфических методов: параллельное сопоставление рядов результативного и факторного признака, графическое изображение фактических данных с помощью поля корреляции, построения корреляционной таблицы.

Основным методом выявления наличия корреляционной связи является метод аналитической группировки и определения групповых средних. Он заключается в том, что все единицы совокупности разбиваются на группы по величине признака-фактора и для каждой группы определяется средняя величина результативного признака. На основе данных аналитической группировки строится график эмпирической линии связи (линии регрессии), вид которой не только позволяет судить о возможном наличии связи, но и дает некоторое представление о форме корреляционной связи. Если эмпирическая линия связи по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи; если эмпирическая линия приближается к какой-либо кривой, то это связано с наличием криволинейной связи.

5. После установления факта наличия связи и ее формы измеряется степень тесноты связи и проводится оценка ее существенности.

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции при любой форме зависимости (линейной и криволинейной) — эмпирическое корреляционное отношение (rj).

Для расчета линейного коэффициента корреляции по несгруппированным данным могут быть использованы следующие формулы:

где (x-x)— отклонения вариантов значений признака-фактора от их сред-

ней величины;

(y-y)— отклонения вариантов значений результативного признака от

их средней величины;

n - число единиц в совокупности;

, - среднее квадратическое отклонение соответственно признака-
фактора и результативного признака.

Линейный коэффициент корреляции может принимать значения в пределах от —1 до +1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак при нем указывает направление связи: знак «+» соответствует прямой зависимости, знак «-» — обратной

Если коэффициент корреляции равен нулю, то связи между признаками нет; если он равен единице (с любым знаком), то между признаками существует функциональная связь.

Оценка существенности линейного коэффициента корреляции при большом объеме выборки (свыше 500) проводится с использованием отношения коэффициента корреляции (r) к его средней квадратической ошибке()

Если это отношение окажется больше значения t-критерия Стьюдента, определяемого по приложению 6 при числе степеней свободы к = п — 2 и с вероятностью (1 - ), то следует говорить о существенности коэффициента корреляции ( - уровень значимости 0,01 или 0,05).

При недостаточно большом объеме выборки величину средней квадратической ошибки коэффициента корреляции определяют по формуле:

В этом cлучае

Полученная величина t_расч сравнивается с табличным значением t -критерия Стьюдента.

В тех случаях, когда г получен по данным малой выборки, для проверки его существенности целесообразно использовать метод преобразованной корреляции, предложенный Р. Фишером.

Средняя квадратическая ошибка Z-распределения зависиттолько от объема выборки и определяется по формуле:

По таблице соотношений между у и Z находят значение Z, соответствующее рассчитанному коэффициенту корреляции.

Если соотношение Z к средней квадратической ошибке (Z: ) окажется больше табличного значения критерия Стьюдента при определенном уровне значимости, то можно говорить о наличии связи между признаками в генеральной совокупности.

Корреляционное отношение определяется по формулам:

— межгрупповая дисперсия результативного признака, вызванная влиянием признака-фактора;

- общая дисперсия результативного признака; — средняя внутригрупповая дисперсия результативного признака.

где — среднее значение результативного признака в соответствующих

группах, выделенных по величине признака-фактора;

— общая средняя для всей совокупности;

— число единиц в соответствующих группах

— внутригрупповая дисперсия.

Вычисление корреляционного отношения требует достаточно большого объема информации, которая должна быть представлена в форме групповой таблицы или в форме корреляционной таблицы, т. е. обязательным условием является группировка данных по признаку-фактору (изменяется от 0 до 1).

При недостаточном количестве данных в выделенных группам к рассчитанной величине корреляционного отношения вносится поправка

где т — число выделенных групп.

Корреляционное отношение в квадрате () называют коэффициентом детерминации (причинности), он отражает долю факторной дисперсии в общей дисперсии.

В практике могут быть использованы и другие показатели для определения степени тесноты связи. Элементарной характеристикой степени тесноты связи являет ся

коэффициент Фехнера:

где — количество совпадений знаков отклонений индивидуальных величин факторного признака х и результативного признака у от их средней арифметической величины (например, «плюс» и «плюс», «минус» и «минус», «отсутствие отклонения» и «отсутствие отклонения»);

— количество несовпадений знаков отклонений индивидуальных значений изучаемых признаков от значения их средней арифметической.

Коэффициент Фехнера целесообразно использовать для установления факта наличия связи при небольшом объеме исходной информации. Он изменяется в пределах

- 1,0 К_ф + 1,0.

Для определения тесноты связи как между количественными, так и между качественными признаками, при условии, что значения этих признаков могут быть проранжированы по степени убывания или возрастания, используется коэффициент корреляции рангов Спирмэна:

где di — разность между величинами рангов признака-фактора и результативного признака;

п — число показателей (рангов) изучаемого ряда.

Он варьирует в пределах от -1,0 до +1,0.

Ранговый коэффициент обычно исчисляется на основе небольшого объема исходной информации, поэтому необходимо выполнить проверку его существенности. В приложении 7 приводится таблица предельных значений коэффициента корреляции рангов Спирмэна при условии верности нулевой гипотезы об отсутствии корреляционной связи при заданном уровне значимости и определенном объеме выборочных данных.

Если полученное значение p превышает критическую величину при данном уровне значимости, то нулевая гипотеза может быть отвергнута, т. е. величина p не является результатом случайных совпадений рангов.

Для исследования степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативных признаков, может быть использован коэффициент ассоциации Д. Юла или коэффициент контингенции К. Пирсона.

Расчетная таблица в этом случае состоит из четырех ячеек (таблица «четырех полей»), статистическое сказуемое которой схематически может быть представлено в следующем виде (табл. 5.2).

Таблица 5.2

В расчетной таблице:

а, Ь, с, d — частоты взаимного сочетания (комбинации) двух альтернативных признаков

n — общая сумма частот.

Коэффициент ассоциации исчисляется по формуле:

Коэффициент контингенции:

где a, b,c,d— числа в четырехклеточной таблице.

Коэффициент контингенции также изменяется от —1 до +1, но всегда его величина для тех же данных меньше коэффициента ассоциации.

Для оценки тесноты связи между альтернативными признаками, принимающими любое число вариантов значений, применяется коэффициент взаимной сопряженности К. Пирсона и коэффициент взаимной сопряженности А. А.Чупрова.

Первичная статистическая информация для исследования этой связи располагается в форме таблицы (табл. 5.3).

В табл. 5.3:

F i j — частоты взаимного сочетания двух атрибутивных признаков;

n - число пар наблюдений.

Коэффициент взаимной сопряженности К. Пирсона определяется по формуле

еде - показатель средней квадратической сопряженности

Показатель определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки за минусом единицы.

где f_tj — частоты каждой клетки;

i — номер строки;

Ai — итоговые частоты по строкам;

Aj— итоговые частоты по графам.

Коэффициент взаимной сопряженности А. А. Чупрова исчисляется по формуле:

где — имеет одинаковое значение с показателем Пирсона и является показателем взаимной сопряженности;

К_{ — число групп по столбцам таблицы;

К₂ — число групп по строкам таблицы.

Коэффициент взаимной сопряженности Чупрова (К) является более гибким, поскольку он учитывает число образуемых по каждому признаку групп , поэтому результат является более точным по сравнению с коэффициентом взаимной сопряженности по формуле Пирсона.

Коэффициент взаимной сопряженности изменяется от 0 до 1.

6. После установления достаточной степени тесноты связи выполняется построение модели связи (уравнения регрессии).

Тип модели выбирается на основе сочетания теоретического анализа и исследования эмпирических данных посредством построения эмпирической линии регрессии. Чаще всего используются следующие типы функций:

в) параболическая —y _х = а + Ьх + сх²;

г) показательная —y_х = ab*.

Для определения численных значений параметров уравнения связи (линии регрессии) используется метод наименьших квадратов и решается система нормальных уравнений.

Для определения параметров а и b уравнения прямолинейной корреляционной связи система нормальных уравнений (для несгруппированных данных) следующая:

Параметры а и b можно определить по следующим формулам:

Для проверки возможности использования линейной функции определяется разность ( — г²); если она менее 0,1, то считается возможным применение линейной функции. Для решения этой же задачи можно использовать величину, определяемую по формуле

где т — число групп, на которое разделен диапазон значений факторного признака.

Если значение окажется меньше табличного значения F-критерия, то нулевая гипотеза о возможности использования в качестве уравнения регрессии линейной функции не опровергается. Значение F-критерия определяется по таблице в зависимости от уровня значимости а = 0,05 (вероятность Р = 0,95) и числа степеней свободы числителя (к₁ = т — 2) и знаменателя (к₂ = п — т) (см. приложение 5).

Для определения параметров гиперболической функции система нормальных уравнений следующая:

В качестве меры достоверности уравнения корреляционной зависимости используется процентное отношение средней квадратической ошибки уравнения (S_e) к среднему уровню результативного признака ():

где y — фактические значения результативного признака;

y— значения результативного признака, рассчитанные по уравнению регрессии;

l — число параметров в уравнении регрессии.

Если это отношение не превышает 10 — 15%, то следует считать, что уравнение регрессии достаточно хорошо отображает изучаемую взаимосвязь.

Полученное уравнение регрессии используется для экстраполяции. Однако ее можно применять лишь тогда, когда существенно не изменились условия формирования уровней признаков.

Для результативного признака определяются доверительные границы, в пределах которых с заданной доверительной вероятностью будет находиться теоретическое значение у. Доверительные границы результативного признака у при значении факторного признака х₀ определяются следующим образом:

где ta — определяется в соответствии с уровнем значимости, по f-распределению Стьюдента с (n- l) степенями свободы.

7. Изучение множественной корреляционной зависимости начинается с анализа матрицы парных коэффициентов корреляции, что

позволяет произвести отбор факторов, включаемых в модель множественной зависимости.

Матрица имеет следующий вид (табл.5.4)

Анализ первой строки матрицы позволяет выявить факторы, у которых степень тесноты связи с результативным показателем значительна, а поэтому они могут быть включены в модель. Однако при построении многофакторных моделей должно соблюдаться требование возможно меньшей коррелировности включенных в модель признаков-факторов (отсутствие мультиколлинеарности). В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:

Если приведенные неравенства (или хотя бы одно из них) не выполняются, то исключается тот фактор или , связь которого с результативным признаком y будет менее тесной.

8. Отобранные факторы включаются в модель множественной зависимости. При этом следует учитывать, что число факторов, включаемых в модель, должно быть в 5 — 6 раз меньше, чем число единиц, входящих в совокупность.

Линейное уравнение множественной зависимости имеет следующий вид:

Параметры уравнения определяются из системы нормальных уравнений, отвечающей требованиям способа наименьших квадратов.

Если зависимость выражена уравнением

yx1x2=a+b1x1+b2x2, то система нормальных уравнений следующая:

Мерой достоверности уравнения является процентное отношение средней квадратической ошибки уравнения к среднему уровню результативного показателя, так же как в случае парной корреляции.

9. Для измерения степени тесноты связи между изменениями величины результативного признака (у) и изменениями значений факторных признаков определяется коэффициент множественной (совокупной) корреляции (R).

Для случая зависимости результативного признака от двух факторных признаков формула совокупного коэффициента корреляции имеет вид:

Если число факторов-признаков более двух, то совокупный коэффициент корреляции определяется следующим образом:

где - матрица парных коэффициентов корреляции;

— соответствует матрице парных коэффициентов корреляции () без верхней строки и первого столбца.

Величина R² называется коэффициентом детерминации; она показывает, в какой мере вариация результативного признака обусловлена влиянием признаков-факторов, включенных в уравнение множественной зависимости.

Величина совокупного коэффициента корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе он к единице, тем меньше роль неучтенных в модели факторов и тем более оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов.

Для оценки существенности (значимости) совокупного коэффициента корреляции используется критерий F- Фишера.

Для этого определяется F-расчетное по следующей формуле:

По таблице F-распределения следует отыскать табличное значение F_T_абл при числе степеней свободы к₁ = I— 1, к_г = п — 1и уровне значимости а = 0,05 (Р = 1 — 0,05).

Если F_расч < F_табл, то с вероятностью 0,95 можно утверждать, что связь между результативным и факторными признаками существенна.

Кроме совокупного коэффициента корреляции познавательное значение имеют частные коэффициенты корреляции, позволяющие установить степень тесноты связи между результативным признаком у и каждым из факторных признаков при исключении искажающего влияния других факторных признаков. Следовательно, коэффициенты частной корреляции отражают степень «чистого» влияния факторного признака на результативный признак. Для их расчета могут быть использованы парные коэффициенты корреляции.

Для случая зависимости результативного признака у от двух признаков-факторов

(х 1, и х₂) определяются два коэффициента частной корреляции:

• частный коэффициент корреляции между результативным признаком у и фактором х1, при элиминировании фактора х₂:

• частный коэффициент корреляции между результативным признаком у и фактором х₂ при элиминировании факторах,:

Для общего случая частные коэффициенты корреляции определяются по формуле

Величина частного коэффициента корреляции лежит в пределах от 0 до 1, а знак определяется

знаком соответствующих параметров регрессии.

Рассчитывая величины частных коэффициентов корреляции, следует иметь в виду, что каждый из них по своей абсолютной величине не может быть больше величины коэффициента множественной (совокупной) корреляции Ryx1,x2,…,xk

10. Для сравнения роли различных факторов в формировании моделируемого показателя определяется коэффициент эластичности (Эj) или β-коэффициент ().

Частный коэффициент эластичности показывает, на сколько процентов в среднем изменяется результативный признак у с изменением признака-фактора х на 1%, и определяется по формуле

β -коэффициент показывает, на какую часть среднего квадратического отклонения изменится результативный показатель при изменении соответствующего фактора х на величину его среднего квадратического

Глава 6

Ряды динамики

Социально-экономические явления общественной жизни находятся в непрерывном развитии. Их изменение во времени статистика изучает при помощи построения и анализа рядов динамики.

Ряд динамики — числовые значения статистического показателя, представленные во временной последовательности. Он состоит из двух граф: в первой указываются периоды (или даты), во второй — показатели, характеризующие изучаемый объект за эти периоды (или на эти даты).

Показатели второй графы носят название уровней ряда: первый показатель называется начальным уровнем, последний - конечным. Уровни ряда могут быть выражены абсолютными, средними или относительными величинами. Ряды динамики относительных и средних величин строятся на основе рядов абсолютных величин. Для наглядного представления ряда динамики широко используются графические изображения, чаще всего линейные диаграммы.

Ряды динамики могут быть двух видов: интервальные и моментные.

В интервальном ряду приводятся данные, характеризующие величину показателя за определенные периоды (сутки, месяц, квартал, год и т. д.). Особенностью интервальных рядов из абсолютных величин является то, что их уровни можно суммировать, получая новые численные значения объема явления, относящиеся к более длительным периодам.

В моментном ряду динамики приводятся данные, характеризующие размеры явления на определенные моменты (даты) времени. Уровни моментных динамических рядов суммировать нельзя; сумма не имеет смысла, так как каждый последующий уровень полностью или частично включает в себя предыдущий уровень. Однако разность уровней имеет смысл, характеризуя увеличение или уменьшение уровня ряда между датами учета.

Важнейшим условием правильного формирования рядов динамики является сопоставимость уровней, образующих ряд. Основным требованием сопоставимости уровней является одинаковая методология их исчисления для всех периодов или дат. При этом все уровни должны быть даны не только в одинаковых, но и в равноценных единицах измерения. Условием сопоставимости данных является также одинаковая полнота охвата различных частей явления, представленного рядом динамики. Уровни показателей в интервальных динамических рядах должны относиться к периодам с одинаковой продолжительностью. Для моментных рядов должна соблюдаться неизменность даты учета (например, наличие материалов на складе предприятия на первое число каждого месяца или квартала).

Вопрос о том, следует ли считать условием сопоставимости данных динамического ряда одинаковость границ территории, к которой относятся данные, решается по-разному. Если ставится задача изучения изменения явления в связи с изменением территории, то в этом случае сопоставляются данные, относящиеся к различной территории. Если же ставится задача изучения темпов развития явления, то сравниваемые показатели должны относиться к неизменной территории.

Следовательно, прежде чем анализировать ряд динамики, надо, исходя из цели исследования, обеспечить сопоставимость уровней ряда дополнительными расчетами, т. е. произвести так называемое смыкание рядов динамики.

Специальным условием сопоставимости абсолютных величин интервального динамического ряда является равенство периодов, за которые приводятся данные; если это условие нарушено, то ряд подвергают дополнительной обработке - рассчитывают величины явления в среднем на единицу времени.

Например, объем капитальных вложений (инвестиций) по фирме характеризуется следующими

данными (табл. 6.1).

Таблица 6.1

	Период
1993-1998 гг.	1999-2002 гг.	2003-2005 гг.	2006 г.
Объем капитальных вложений (в сопоставимых ценах), млн руб.	840,7	420,8	540,3	200,5

Приведенный ряд дает неправильное представление о динамике капитальных вложений, так как показатели относятся к периодам с различной продолжительностью. Чтобы выявить изменение объема капитальных вложений во времени, следует определить величину капитальных вложений на одну и ту же единицу каждого периода — один год.

Объем капитальных вложений за один год составляет (млн руб.):

1993 - 1998 гг. - 140,1 (840,7: 6);

1999 - 2002 гг. - 105,2 (420,8: 4);

2003-2005 гг.-180,1(540,3:3);

2006 г. - 200,5.

Как видно из этих данных, объем капитальных вложений по фирме снижался до 2003 г., и лишь начиная с 2003г. наметилось некоторое его повышение.

Если несопоставимость в рядах динамики вызвана административно-территориальными изменениями, то для изучения развития явления необходимо построить ряд сопоставимых уровней в новых территориальных границах.

Например, имеются данные об объеме транспортной работы (грузообороте) автотранспортных предприятий, обслуживающих регион грузовыми перевозками

(млн ткм) (табл. 6.2).

	2003 г.	2004 г.	2005 г.	2006 г.
В старых границах региона				-
В новых границах региона	-	-

Для приведения этой информации к сопоставимому виду определяется коэффициент пересчета (коэффициент соотношения двух уровней):

Умножая на этот коэффициент уровни объема грузооборота 2003 и 2004 гг., можно построить ряд динамики сопоставимых уровней в новых территориальных границах региона (табл. 6.3).

Таблица 6.3

	2003 г.	2004 г.	2005 г.	2006 г.
Грузооборот, млн ткм.		285,6

При изучении рядов динамики перед статистикой стоят следующие задачи: охарактеризовать интенсивность развития явления от периода к периоду (от даты к дате), а также среднюю интенсивность развития за исследуемый период, выявить основную тенденцию в развитии явления, осуществить прогноз развития на будущее, а также изучить сезонные колебания.

⇐ Предыдущая 12 13 14 15 161718 19 20 21 Следующая ⇒