Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Исключение из массива первичной информации всех резко




вы­деляющихся (аномальных) единиц по уровню признаков-факторов.

Исключаются все единицы, у которых уровень признака-фак­тора не попадает в интервал

и формируется новый массив для последующего анализа.

4. Установление факта наличия и направления корреляционной
зависимости между результативным (y) и факторным (x) признаками.

Для установления наличия корреляционной связи использу­ется ряд специфических методов: параллельное сопоставление рядов результативного и факторного признака, графическое изо­бражение фактических данных с помощью поля корреляции, по­строения корреляционной таблицы.

Основным методом выявления наличия корреляционной свя­зи является метод аналитической группировки и определения групповых средних. Он заключается в том, что все единицы сово­купности разбиваются на группы по величине признака-фактора и для каждой группы определяется средняя величина результа­тивного признака. На основе данных аналитической группировки строится график эмпирической линии связи (линии регрес­сии), вид которой не только позволяет судить о возможном нали­чии связи, но и дает некоторое представление о форме корреля­ционной связи. Если эмпирическая линия связи по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи; если эмпирическая ли­ния приближается к какой-либо кривой, то это связано с наличи­ем криволинейной связи.

5. После установления факта наличия связи и ее формы измеря­ется степень тесноты связи и проводится оценка ее существенности.

Для определения степени тесноты парной линейной зависи­мости служит линейный коэффициент корреляции при любой форме зависимости (линейной и криволинейной) — эмпирическое корреляционное отношение (rj).

Для расчета линейного коэффициента корреляции по несгруппированным данным могут быть использованы следующие фор­мулы:

где (x-x)— отклонения вариантов значений признака-фактора от их сред-

ней величины;

(y-y)— отклонения вариантов значений результативного признака от

их средней величины;

n - число единиц в совокупности;

, - среднее квадратическое отклонение соответственно признака-
фактора и результативного признака.

Линейный коэффициент корреляции может принимать зна­чения в пределах от —1 до +1. Чем ближе он по абсолютной вели­чине к 1, тем теснее связь. Знак при нем указывает направление связи: знак «+» соответствует прямой зависимости, знак «-» — обратной

Если коэффициент корреляции равен нулю, то связи между признаками нет; если он равен единице (с любым знаком), то между признаками существует функциональная связь.

Оценка существенности линейного коэффициента корреляции при большом объеме выборки (свыше 500) проводится с использованием отношения коэффициента корреляции (r) к его средней квадратической ошибке()

 

 

Если это отношение окажется больше значения t-критерия Стьюдента, определяемого по приложению 6 при числе степеней свободы к = п2 и с вероятностью (1 - ), то следует говорить о существенности коэффициента корреляции ( - уровень значи­мости 0,01 или 0,05).

 

При недостаточно большом объеме выборки величину сред­ней квадратической ошибки коэффициента корреляции опреде­ляют по формуле:


 

В этом cлучае

Полученная величина tрасч сравнивается с табличным значе­нием t -критерия Стьюдента.

В тех случаях, когда г получен по данным малой выборки, для проверки его существенности целесообразно использовать метод преобразованной корреляции, предложенный Р. Фишером.

Средняя квадратическая ошибка Z-распределения зависит только от объема выборки и определяется по формуле:

 

По таблице соотношений между у и Z находят значение Z, соответствующее рассчитанному коэффициенту кор­реляции.

Если соотношение Z к средней квадратической ошибке (Z: ) окажется больше табличного значения критерия Стью­дента при определенном уровне значимости, то можно гово­рить о наличии связи между признаками в генеральной сово­купности.

Корреляционное отношение определяется по формулам:

— межгрупповая дисперсия результативного признака, вызванная влиянием признака-фактора;
- общая дисперсия результативного признака; — средняя внутригрупповая дисперсия результативного признака.

где — среднее значение результативного признака в соответствующих

группах, выделенных по величине признака-фактора;

общая средняя для всей совокупности;

— число единиц в соответствующих группах

— внутригрупповая дисперсия.

Вычисление корреляционного отношения требует достаточно большого объема информации, которая должна быть представле­на в форме групповой таблицы или в форме корреляционной таб­лицы, т. е. обязательным условием является группировка данных по признаку-фактору (изменяется от 0 до 1).

 

 

При недостаточном количестве данных в выделенных группам к рассчитанной величине корреляционного отношения вносится поправка

 

 

 

где т — число выделенных групп.

Корреляционное отношение в квадрате () называют коэффициентом детерминации (причинности), он отражает долю факторной дисперсии в общей дисперсии.

В практике могут быть использованы и другие показатели для определения степени тесноты связи. Элементарной характеристикой степени тесноты связи явля­ет ся

коэффициент Фехнера:

где — количество совпадений знаков отклонений индивидуальных вели­чин факторного признака х и результативного признака у от их средней арифметической величины (например, «плюс» и «плюс», «минус» и «минус», «отсутствие отклонения» и «отсутствие откло­нения»);

— количество несовпадений знаков отклонений индивидуальных значений изучаемых признаков от значения их средней арифмети­ческой.

Коэффициент Фехнера целесообразно использовать для уста­новления факта наличия связи при небольшом объеме исходной информации. Он изменяется в пределах

- 1,0 Кф + 1,0.

Для определения тесноты связи как между количественными, так и между качественными признаками, при условии, что значе­ния этих признаков могут быть проранжированы по степени убы­вания или возрастания, используется коэффициент корреляции рангов Спирмэна:

 

где di — разность между величинами рангов признака-фактора и результа­тивного признака;

п — число показателей (рангов) изучаемого ряда.

Он варьирует в пределах от -1,0 до +1,0.

Ранговый коэффициент обычно исчисляется на основе не­большого объема исходной информации, поэтому необходимо выполнить проверку его существенности. В приложении 7 приво­дится таблица предельных значений коэффициента корреляции рангов Спирмэна при условии верности нулевой гипотезы об от­сутствии корреляционной связи при заданном уровне значимос­ти и определенном объеме выборочных данных.

Если полученное значение p превышает критическую величи­ну при данном уровне значимости, то нулевая гипотеза может быть отвергнута, т. е. величина p не является результатом случай­ных совпадений рангов.

Для исследования степени тесноты связи между качественны­ми признаками, каждый из которых представлен в виде альтерна­тивных признаков, может быть использован коэффициент ассоци­ации Д. Юла или коэффициент контингенции К. Пирсона.

Расчетная таблица в этом случае состоит из четырех ячеек (таблица «четырех полей»), статистическое сказуемое которой схематически может быть представлено в следующем виде (табл. 5.2).

 

Таблица 5.2

В расчетной таблице:

а, Ь, с, d — частоты взаимного сочетания (комбинации) двух альтернатив­ных признаков

n — общая сумма частот.

 

Коэффициент ассоциации исчисляется по формуле:

Коэффициент контингенции:

 

где a, b,c,d— числа в четырехклеточной таблице.

Коэффициент контингенции также изменяется от —1 до +1, но всегда его величина для тех же данных меньше коэффициента ассоциации.

Для оценки тесноты связи между альтернативными признака­ми, принимающими любое число вариантов значений, применя­ется коэффициент взаимной сопряженности К. Пирсона и коэффи­циент взаимной сопряженности А. А.Чупрова.

Первичная статистическая информация для исследования этой связи располагается в форме таблицы (табл. 5.3).

 

В табл. 5.3:

F i j — частоты взаимного сочетания двух атрибутивных признаков;

n - число пар наблюдений.

Коэффициент взаимной сопряженности К. Пирсона опреде­ляется по формуле

еде - показатель средней квадратической сопряженности

Показатель определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки за минусом единицы.

где ftj — частоты каждой клетки;

i — номер строки;

Ai — итоговые частоты по строкам;

Aj— итоговые частоты по графам.

Коэффициент взаимной сопряженности А. А. Чупрова исчис­ляется по формуле:

где — имеет одинаковое значение с показателем Пирсона и является показателем взаимной сопряженности;

К{ число групп по столбцам таблицы;

К2 число групп по строкам таблицы.

 

 

Коэффициент взаимной сопряженности Чупрова (К) являет­ся более гибким, поскольку он учитывает число образуемых по каждому признаку групп , поэтому результат является более точным по сравнению с коэффициентом взаимной сопряжен­ности по формуле Пирсона.

Коэффициент взаимной сопряженности изменяется от 0 до 1.

6. После установления достаточной степени тесноты связи вы­полняется построение модели связи (уравнения регрессии).

Тип модели выбирается на основе сочетания теоретического анализа и исследования эмпирических данных посредством пост­роения эмпирической линии регрессии. Чаще всего используют­ся следующие типы функций:


в) параболическая —y х = а + Ьх + сх2;

г) показательная —yх = ab*.

Для определения численных значений параметров уравнения связи (линии регрессии) используется метод наименьших квадра­тов и решается система нормальных уравнений.

Для определения параметров а и b уравнения прямолинейной корреляционной связи система нормальных уравнений (для несгруппированных данных) следующая:

Параметры а и b можно определить по следующим формулам:

Для проверки возможности использования линейной функ­ции определяется разность ( — г2); если она менее 0,1, то счита­ется возможным применение линейной функции. Для решения этой же задачи можно использовать величину, определяемую по формуле

где т — число групп, на которое разделен диапазон значений факторного признака.

Если значение окажется меньше табличного значения F-критерия, то нулевая гипотеза о возможности использования в качестве уравнения регрессии линейной функции не опровергается. Зна­чение F-критерия определяется по таблице в зависимости от уровня значимости а = 0,05 (вероятность Р = 0,95) и числа степе­ней свободы числителя 1 = т — 2) и знаменателя 2 = п — т) (см. приложение 5).

Для определения параметров гиперболической функции сис­тема нормальных уравнений следующая:

 

В качестве меры достоверности уравнения корреляционной зависимости используется процентное отношение средней квадратической ошибки уравнения (Se) к среднему уровню результа­тивного признака ():

где y — фактические значения результативного признака;

y— значения результативного признака, рассчитанные по уравне­нию регрессии;

l — число параметров в уравнении регрессии.

 

Если это отношение не превышает 10 — 15%, то следует счи­тать, что уравнение регрессии достаточно хорошо отображает изучаемую взаимосвязь.

Полученное уравнение регрессии используется для экстрапо­ляции. Однако ее можно применять лишь тогда, когда существен­но не изменились условия формирования уровней признаков.

Для результативного признака определяются доверительные границы, в пределах которых с заданной доверительной вероят­ностью будет находиться теоретическое значение у. Доверитель­ные границы результативного признака у при значении фактор­ного признака х0 определяются следующим образом:

где ta — определяется в соответствии с уровнем значимости, по f-распределению Стьюдента с (n- l) степенями свободы.

7. Изучение множественной корреляционной зависимости начи­нается с анализа матрицы парных коэффициентов корреляции, что

позволяет произвести отбор факторов, включаемых в модель множественной зависимости.

Матрица имеет следующий вид (табл.5.4)

 

Анализ первой строки матрицы позволяет выявить факторы, у которых степень тесноты связи с результативным показателем значительна, а поэтому они могут быть включены в модель. Одна­ко при построении многофакторных моделей должно соблюдать­ся требование возможно меньшей коррелировности включен­ных в модель признаков-факторов (отсутствие мультиколлинеарности). В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:

Если приведенные неравенства (или хотя бы одно из них) не выполняются, то исключается тот фактор или , связь которого с результативным признаком y будет менее тесной.

8. Отобранные факторы включаются в модель множественной зависимости. При этом следует учитывать, что число факторов, включаемых в модель, должно быть в 5 — 6 раз меньше, чем чис­ло единиц, входящих в совокупность.

Линейное уравнение множественной зависимости имеет сле­дующий вид:

Параметры уравнения определяются из системы нормальных уравнений, отвечающей требованиям способа наименьших квад­ратов.

Если зависимость выражена уравнением

yx1x2=a+b1x1+b2x2, то система нормальных уравнений следующая:

Мерой достоверности уравнения является процентное отно­шение средней квадратической ошибки уравнения к среднему уровню результативного показателя, так же как в случае парной корреляции.

9. Для измерения степени тесноты связи между изменениями ве­личины результативного признака (у) и изменениями значений фак­торных признаков определяется коэффициент множественной (со­вокупной) корреляции (R).

Для случая зависимости результативного признака от двух факторных признаков формула совокупного коэффициента кор­реляции имеет вид:

Если число факторов-признаков более двух, то совокупный коэффициент корреляции определяется следующим образом:

где - матрица парных коэффициентов корреляции;

— соответствует матрице парных коэффициентов корреляции () без верхней строки и первого столбца.

Величина R2 называется коэффициентом детерминации; она показывает, в какой мере вариация результативного признака обусловлена влиянием признаков-факторов, включенных в урав­нение множественной зависимости.

Величина совокупного коэффициента корреляции изменяет­ся в пределах от 0 до 1 и численно не может быть меньше, чем лю­бой из образующих его парных коэффициентов корреляции. Чем ближе он к единице, тем меньше роль неучтенных в модели фак­торов и тем более оснований считать, что параметры регрессион­ной модели отражают степень эффективности включенных в нее факторов.

Для оценки существенности (значимости) совокупного коэф­фициента корреляции используется критерий F- Фишера.

 

Для этого определяется F-расчетное по следующей формуле:

По таблице F-распределения следует оты­скать табличное значение FTабл при числе степеней свободы к1 = I— 1, кг = п — 1и уровне значимости а = 0,05 = 1 — 0,05).

Если Fрасч < Fтабл, то с вероятностью 0,95 можно утверждать, что связь между результативным и факторными признаками сущест­венна.

Кроме совокупного коэффициента корреляции познаватель­ное значение имеют частные коэффициенты корреляции, позво­ляющие установить степень тесноты связи между результативным признаком у и каждым из факторных признаков при исключении искажающего влияния других факторных признаков. Следова­тельно, коэффициенты частной корреляции отражают степень «чистого» влияния факторного признака на результативный при­знак. Для их расчета могут быть использованы парные коэффи­циенты корреляции.

Для случая зависимости результативного признака у от двух признаков-факторов

1, и х2) определяются два коэффициента частной корреляции:

• частный коэффициент корреляции между результативным признаком у и фактором х1, при элиминировании фактора х2:

• частный коэффициент корреляции между результативным признаком у и фактором х2 при элиминировании факторах,:

Для общего случая частные коэффициенты корреляции опре­деляются по формуле

Величина частного коэффициента корреляции лежит в преде­лах от 0 до 1, а знак определяется

знаком соответствующих параметров регрессии.

Рассчитывая величины частных коэффициентов корреляции, следует иметь в виду, что каждый из них по своей абсолютной ве­личине не может быть больше величины коэффициента множест­венной (совокупной) корреляции Ryx1,x2,…,xk

10. Для сравнения роли различных факторов в формировании моделируемого показателя определяется коэффициент эластич­ности (Эj) или β-коэффициент ().

Частный коэффициент эластичности показывает, на сколь­ко процентов в среднем изменяется результативный признак у с изменением признака-фактора х на 1%, и определяется по формуле

β -коэффициент показывает, на какую часть среднего квадратического отклонения изменится результативный показатель при изменении соответствующего фактора х на величину его средне­го квадратического

Глава 6

Ряды динамики

Социально-экономические явления общественной жизни на­ходятся в непрерывном развитии. Их изменение во времени ста­тистика изучает при помощи построения и анализа рядов дина­мики.

Ряд динамики — числовые значения статистического показате­ля, представленные во временной последовательности. Он состо­ит из двух граф: в первой указываются периоды (или даты), во второй — показатели, характеризующие изучаемый объект за эти периоды (или на эти даты).

Показатели второй графы носят название уровней ряда: пер­вый показатель называется начальным уровнем, последний - ко­нечным. Уровни ряда могут быть выражены абсолютными, сред­ними или относительными величинами. Ряды динамики относи­тельных и средних величин строятся на основе рядов абсолютных величин. Для наглядного представления ряда динамики широко используются графические изображения, чаще всего линейные диаграммы.

Ряды динамики могут быть двух видов: интервальные и моментные.

В интервальном ряду приводятся данные, характеризующие величину показателя за определенные периоды (сутки, месяц, квартал, год и т. д.). Особенностью интервальных рядов из абсо­лютных величин является то, что их уровни можно суммировать, получая новые численные значения объема явления, относящиеся к более длительным периодам.

В моментном ряду динамики приводятся данные, характеризу­ющие размеры явления на определенные моменты (даты) време­ни. Уровни моментных динамических рядов суммировать нельзя; сумма не имеет смысла, так как каждый последующий уровень полностью или частично включает в себя предыдущий уровень. Однако разность уровней имеет смысл, характеризуя увеличение или уменьшение уровня ряда между датами учета.

Важнейшим условием правильного формирования рядов ди­намики является сопоставимость уровней, образующих ряд. Основ­ным требованием сопоставимости уровней является одинаковая методология их исчисления для всех периодов или дат. При этом все уровни должны быть даны не только в одинаковых, но и в рав­ноценных единицах измерения. Условием сопоставимости дан­ных является также одинаковая полнота охвата различных частей явления, представленного рядом динамики. Уровни показателей в интервальных динамических рядах должны относиться к пери­одам с одинаковой продолжительностью. Для моментных рядов должна соблюдаться неизменность даты учета (например, нали­чие материалов на складе предприятия на первое число каждого месяца или квартала).

Вопрос о том, следует ли считать условием сопоставимости данных динамического ряда одинаковость границ территории, к которой относятся данные, решается по-разному. Если ставится задача изучения изменения явления в связи с изменением терри­тории, то в этом случае сопоставляются данные, относящиеся к различной территории. Если же ставится задача изучения темпов развития явления, то сравниваемые показатели должны отно­ситься к неизменной территории.

Следовательно, прежде чем анализировать ряд динамики, на­до, исходя из цели исследования, обеспечить сопоставимость уровней ряда дополнительными расчетами, т. е. произвести так называемое смыкание рядов динамики.

Специальным условием сопоставимости абсолютных величин интервального динамического ряда является равенство периодов, за которые приводятся данные; если это условие нарушено, то ряд подвергают дополнительной обработке - рассчитывают величи­ны явления в среднем на единицу времени.

Например, объем капитальных вложений (инвестиций) по фирме характеризуется следующими

данными (табл. 6.1).

Таблица 6.1

  Период
1993-1998 гг. 1999-2002 гг. 2003-2005 гг. 2006 г.
Объем капитальных вложений (в сопоставимых ценах), млн руб. 840,7 420,8 540,3 200,5

 

Приведенный ряд дает неправильное представление о дина­мике капитальных вложений, так как показатели относятся к пе­риодам с различной продолжительностью. Чтобы выявить изме­нение объема капитальных вложений во времени, следует опреде­лить величину капитальных вложений на одну и ту же единицу каждого периода — один год.

Объем капитальных вложений за один год составляет (млн руб.):

1993 - 1998 гг. - 140,1 (840,7: 6);

1999 - 2002 гг. - 105,2 (420,8: 4);

2003-2005 гг.-180,1(540,3:3);

2006 г. - 200,5.

 

Как видно из этих данных, объем капитальных вложений по фирме снижался до 2003 г., и лишь начиная с 2003г. наметилось некоторое его повышение.

Если несопоставимость в рядах динамики вызвана админист­ративно-территориальными изменениями, то для изучения раз­вития явления необходимо построить ряд сопоставимых уровней в новых территориальных границах.

Например, имеются данные об объеме транспортной работы (грузообороте) автотранспортных предприятий, обслуживающих регион грузовыми перевозками

(млн ткм) (табл. 6.2).

  2003 г. 2004 г. 2005 г. 2006 г.
В старых границах региона       -
В новых границах региона - -    

 

Для приведения этой информации к сопоставимому виду оп­ределяется коэффициент пересчета (коэффициент соотношения двух уровней):

Умножая на этот коэффициент уровни объема грузооборота 2003 и 2004 гг., можно построить ряд динамики сопоставимых уровней в новых территориальных границах региона (табл. 6.3).

Таблица 6.3

  2003 г. 2004 г. 2005 г. 2006 г.
Грузооборот, млн ткм.   285,6    

При изучении рядов динамики перед статистикой стоят следую­щие задачи: охарактеризовать интенсивность развития явления от периода к периоду (от даты к дате), а также среднюю интенсив­ность развития за исследуемый период, выявить основную тен­денцию в развитии явления, осуществить прогноз развития на бу­дущее, а также изучить сезонные колебания.

Поделиться:





Читайте также:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...