Шкала атрибутивных оценок тесноты корреляционной зависимости
Решение типовых задач. Примечание к решению типовых задач. При решении типовых задач в табличном процессоре EXCEL и вручную, на калькуляторе из-за особенностей программы при округления цифр промежуточных расчётов некоторые из итоговых результатов могут отличаться. Это не является ошибкой, а лишь особенностью пакетного и ручного решения. Задача 1. Приводятся данные за 2000 год по территориям Северо-Западного федерального округа Таблица № 1.
1) Предварительный анализ исходных данных выявил наличие одной территории (г.Санкт-Петербург) с аномальными значениями признаков. Эта территория исключена из дальнейшего анализа. Значения показателей в итоговых строках приведены без учёта указанной аномальной единицы. Задание: 1. Расположите территории по возрастанию фактора X. Сформулируйте рабочую гипотезу о возможной связи Y и X. 2. Постройте поле корреляции и сформулируйте гипотезу о возможной форме и направлении связи. 3. Рассчитайте параметры а1 и а0 парной линейной функции , степенной , линейно-логарифмической функции и параболы второго порядка . 4. Оцените тесноту связи с помощью показателей корреляции (r и ρ) и детерминации (r2 и ρ2), проанализируйте их значения.
5. Надёжность уравнений в целом оцените через F-критерий Фишера для уровня значимости a=0,05. 6. На основе оценочных характеристик выберите лучшее уравнение регрессии. 7. По лучшему уравнению регрессии рассчитайте теоретические значения результата (), по ним постройте теоретическую линию регрессии и определите скорректированную среднюю ошибку аппроксимации - ε'ср ., оцените её величину. 8. Рассчитайте прогнозное значение результата , если прогнозное значение фактора () составит 1,062 от среднего уровня (). 9. Рассчитайте интегральную и предельную ошибки прогноза (для a=0,05), определите доверительный интервал прогноза (; ), а также диапазон верхней и нижней границ доверительного интервала (), оценивая точность выполненного прогноза. Решение: 1.Для построения графика расположим территории по возрастанию значений фактора . См. табл.2. Если график строится в табличном процессоре EXCEL, то в исходной таблице фактор должен находиться на первом месте, а результат – на втором. Из графика может быть сделан вывод о возможной форме связи оборота розничной торговли (Y) с общей суммой доходов населения (X). В этом случае для описания зависимости следует построить несколько моделей разного вида и на основе оценочных характеристик выбрать оптимальную форму модели. Таблица № 2.
2.Обычно моделирование начинается в построения уравнения прямой: , отражающей линейную форму зависимости результата Y от фактора X.
3.Расчёт неизвестных параметров уравнения выполним методом наименьших квадратов (МНК), построив систему нормальных уравнений и решая её, относительно неизвестных а0 и а1. Для расчёта используем значения определителей второго порядка Δ, Δа0 и Δа1. Расчётные процедуры представим в разработочной таблице, в которую, кроме значений Y и X, войдут X2, X*Y, а также их итоговые значения, средние, сигмы и дисперсии для Y и X. См. табл.3.
Расчётная таблица № 3
3.Расчёт определителя системы выполним по формуле: 9*6373,6 – 225,0*225,0 = 6737,76; Расчёт определителя свободного члена уравнения выполним по формуле: 121,2*6373,6 – 3331,0*225,0 = 23012,4. Расчёт определителя коэффициента регрессии выполним по формуле: 9*3331,0 – 121,2*225,0 = 2708,91. 4.Расчёт параметров уравнения регрессии даёт следующие результаты: ; . В конечном счёте, получаем теоретическое уравнение регрессии следующего вида: В уравнении коэффициент регрессии а1 = 0,402 означает, что при увеличении доходов населения на 1 тыс. руб. (от своей средней) объём розничного товарооборота возрастёт на 0,402 млрд. руб. (от своей средней). Свободный член уравнения а0 = 3,415 оценивает влияние прочих факторов, оказывающих воздействие на объём розничного товарооборота. 5.Относительную оценку силы связи даёт общий (средний) коэффициент эластичности: В нашем случае, когда рассматривается линейная зависимость, расчётная формула преобразуется к виду: Это означает, что при изменении общей суммы доходов населения на 1% от своей средней оборот розничной торговли увеличивается на 0,744 процента от своей средней.
6.Для оценки тесноты связи рассчитаем линейный коэффициент парной корреляции:
Коэффициент корреляции, равный 0,9075, показывает, что выявлена весьма тесная зависимость между общей суммой доходов населения за год и оборотом розничной торговли за год. Коэффициент детерминации, равный 0,824, устанавливает, что вариация оборота розничной торговли на 82,4% из 100% предопределена вариацией общей суммы доходов населения; роль прочих факторов, влияющих на розничный товарооборот, определяется в 17,6%, что является сравнительно небольшой величиной. 7.Для оценки статистической надёжности выявленной зависимости дохода от доли занятых рассчитаем фактическое значение F -критерия Фишера – Fфактич . и сравним его с табличным значением – Fтабл. По результатам сравнения примем решения по нулевой гипотезе , то есть, либо примем, либо отклоним её с вероятностью допустить ошибку, которая не превысит 5% (или с уровнем значимости α=0,05). В нашем случае, ; где -число факторов в уравнении; - число изучаемых объектов. Фактическое значение критерия показывает, что факторная вариация результата почти в 33 раза больше остаточной вариации, сформировавшейся под влиянием случайных причин. Очевидно, что подобные различия не могут быть случайными, а являются результатом систематического взаимодействия оборота розничной торговли и общей суммы доходов населения. Для обоснованного вывода сравним полученный результат с табличным значением критерия: при степенях свободы d.f.1=k=1 и d.f.2=n-k-1=9-1-1=7 и уровне значимости α=0,05. Значения представлены в таблице «Значения F -критерия Фишера для уровня значимости 0,05 (или 0,01)». См. приложение 1 данных «Методических указаний…». В силу того, что , нулевую гипотезу о статистической незначимости выявленной зависимости оборота розничной торговли от общей суммы доходов населения и её параметрах можно отклонить с фактической вероятностью допустить ошибку значительно меньшей, чем традиционные 5%.
8.Определим теоретические значения результата Yтеор. Для этого в полученное уравнение последовательно подставим фактические значения фактора X и выполним расчёт. Например, . См. гр. 5 расчётной таблицы. По парам значений Yтеор. и Xфакт. строится теоретическая линия регрессии, которая пересечётся с эмпирической регрессией в нескольких точках. См. график 1. График 1 9.Оценку качества модели дадим с помощью скорректированной средней ошибки аппроксимации: . В нашем случае, скорректированная ошибка аппроксимации составляет 10,2%. Она указывает на невысокое качество построенной линейной модели и ограничивает её использование для выполнения точных прогнозных расчётов даже при условии сравнительно небольшого изменения фактора X (относительно его среднего значения ). 10.Построение логарифмической функции предполагает предварительное выполнение процедуры линеаризации исходных переменных. В данном случае, для преобразования нелинейной функции в линейную введём новую переменную , которая линейно связана с результатом. Следовательно, для определения параметров модели будут использованы традиционные расчётные приёмы, основанные на значениях определителей второго порядка. См. расчётную таблицу №4. Расчётная таблица № 4
Расчёт определителей второго порядка даёт следующие результаты: ; ; . Отсюда получаем параметры уравнения:
Полученное уравнение имеет вид: . Оценочные показатели позволяют сделать вывод, что линейно-логарифмическая функция описывает изучаемую связь хуже, чем линейная модель: оценка тесноты выявленной связи ρ=0,9066 (сравните с 0,9075), скорректированная средняя ошибка аппроксимации здесь выше и составляет 10,4%, то есть возможности использования для прогноза данной модели более ограничены. Таким образом, можно придти к выводу, что по сравнению с линейной моделью данное уравнение менее пригодно для описания изучаемой связи. 11.Выполним расчёт параметров уравнения параболы второго порядка. В этом случае используются определители третьего порядка,расчёт которых выполняется по стандартным формулам и требует особого внимания и точности. См. расчётную таблицу 5.
По материалам табл. 5 выполним расчёт четырёх определителей третьего порядка по следующим формулам: Δ = n*Σx2*Σx4 + Σx*Σx3*Σx2 + Σx*Σx3*Σx2 – Σx2*Σx2*Σx2 – Σx*Σx*Σx4 – Σx3*Σx3*n = = 331.854.860,7; Δa0 = Σy*Σx2*Σx4 + Σx*Σx3*Σ(y*x2)+ Σ(y*x)*Σx3*Σx2 – Σ(y*x2)*Σx2*Σx2 – — Σ(y*x)*Σx*Σx4 – Σx3*Σx3*Σy = 751.979.368,8 Δa1 = n*Σ(y*x)*Σx4 + Σy*Σx3*Σx2 + Σx*Σ(y*x2)*Σx2 – Σx2*Σ(y*x)* Σx2 – Σx*Σy* Σx4 - — Σ(y*x2)*Σx3*n = 167.288.933,1
Δa2 = n*Σx2*Σ(y*x2) + Σx*Σyx*Σx2 + Σx*Σx3*Σy – Σx2*Σx2*Σy – Σx*Σx*Σ(y*x2) – - Σx3*Σ(y*x)*n = - 656.926,8 В результате получаем следующие значения параметров уравнения параболы: ; ; Уравнение имеет следующий вид: . Для него показатель детерминации составляет 82,7%, Fфактич. = 14,3, а ошибка аппроксимации 10,6%. Как видим, по сравнению с линейной функцией построить уравнения параболы гораздо сложнее, а изучаемую зависимость она описывает почти с той же точностью, хотя надёжность уравнения параболы значительно ниже (для линейной модели Fфактич. = 32,8,а для параболы Fфактич.= 14,3). Поэтому в дальнейшем анализе парабола второго порядка использоваться не будет. Расчётная таблица № 5
12.Проведём расчёт параметров степенной функции, которому также предшествует процедура линеаризации исходных переменных. В данном случае, выполняется логарифмирование обеих частей уравнения, в результате которого получаем уравнение, в котором линейно связаны значения логарифмов фактора и результата. Исходное уравнение после логарифмирования приобретает следующий вид: . Порядок расчёта приведён в табл.6. Расчётная таблица № 6
В результате расчёта получены следующие значения определителей второго порядка: 12,4075; 2,5371; 9,25642. Параметры степенной функции составляют: ; .
Уравнение имеет вид: lnY=ln a0 + a1*ln X = 0,2045 + 0,7460*X, а после процедуры потенцирования уравнение приобретает окончательный вид: или .
Полученное уравнение несколько лучше описывает изучаемую зависимость и более надёжно по сравнению с линейной моделью. Степенная модель имеет детерминацию на уровне 84,0% (против 82,4% по линейной модели), Fфакт. =36,6 (против 33,1 для линейной модели) и ошибку аппроксимации на уровне 10,6% (сравните с 10,9% для уравнения прямой). Очевидно, что преимущества степенной модели по сравнению с линейной не столь значительны, но её построение заметно сложнее и требует значительно больших усилий. Поэтому окончательный выбор, в данном конкретном случае, сделаем в пользу модели, которая является более простой при построении, анализе и использовании, то есть в пользу линейной модели: Заключительным этапом решения данной задачи является выполнение прогноза и его оценка. Если предположить, что прогнозное значение общей суммы доходов населения, например, Новгородской области, (см. табл.2 строка 2) возрастёт с 14,8 млрд. руб.на 5,7% и составит 15,6 млрд. руб., то есть Xпрогнозн.= 14,8*1,057=15,6, тогда прогнозное значение результата сформируется на уровне: Yпрогнозн. =3,415+0,402*15,6=9,7 (млрд. руб.). То есть, прирост фактора на 5,7% приводит к приросту результата на 4,2 процента (. Рассчитаем интегральную ошибку прогноза - , которая формируется как сумма двух ошибок: из ошибки прогноза как результата отклонения прогноза от уравнения регрессии- и ошибки прогноза положения регрессии - . То есть, . В нашем случае , где k- число факторов в уравнении, которое в данной задаче равно 1. Тогда (млрд. руб.). Ошибка положения регрессии составит: = = = = 0,914 (млрд. руб.). Интегральная ошибка прогноза составит: = = 2,1 (млрд. руб.). Предельная ошибка прогноза, которая не будет превышена в 95% возможных реализаций прогноза, составит: = 2,365*2,1 = 5,011 ≈ 5,0 (млрд. руб.). Табличное значение t -критерия для уровня значимости α=0,05 и для степеней свободы n-k-1 = 9-1-1=7 составит 2,365. (См. табл. приложения 2). Следовательно, ошибка большинства реализаций прогноза не превысит млрд. руб. Это означает, что фактическая реализация прогноза будет находиться в доверительном интервале . Верхняя граница доверительного интервала составит = 9,7 + 5,0 = 14,7(млрд. руб.). Нижняя граница доверительного интервала составит: = 9,7 - 5,0 = 4,7(млрд. руб.). Относительная величина различий значений верхней и нижней границ составит: = раза. Это означает, что верхняя граница в 3,12 раза больше нижней границы, то есть точность выполненного прогноза весьма невелика, но его надёжность на уровне 95% оценивается как высокая. Причиной небольшой точности прогноза является повышенная ошибка аппроксимации. Здесь её значение выходит за границу 5-7% из-за недостаточно высокой типичности линейной регрессии, которая проявляется в присутствии единиц с высокой индивидуальной ошибкой. Если удалить территории с предельно высокой ошибкой (например, Калининградскую область с ), тогда качество линейной модели и точность прогноза по ней заметно повысятся. Задача № 2. Выполняется изучение социально-экономических процессов в регионах Южного федерального округа РФ по статистическим показателям за 2000 год. – Оборот розничной торговли, млрд. руб.; – Инвестиции 2000 года в основной капитал, млрд. руб.; – Средний возраст занятых в экономике, лет; – Среднегодовая численность населения, млн. чел. Требуется изучить влияние указанных факторов на оборот розничной торговли. Предварительный анализ исходных данных по 12 территориям выявил наличие двух территорию (Краснодарский край и Ростовская обл.) с аномальными значениями признаков. Эти территории должны быть исключены из дальнейшего анализа. Значения приводимых показателей рассчитаны без учёта указанных аномальных единиц. При обработке исходных данных получены следующие значения: а) - линейных коэффициентов парной корреляции, средних и средних квадратических отклонений -σ:
N=10.
б) - коэффициентов частной корреляции
Задание: 1. По значениям линейных коэффициентов парной и частной корреляции выберите неколлинеарные факторы и рассчитайте для них коэффициенты частной корреляции. Произведите окончательный отбор информативных факторов во множественную регрессионную модель. 2. Выполните расчёт бета коэффициентов (b) и постройте с их помощью уравнение множественной регрессии в стандартизованном масштабе. Проанализируйте с помощью бета коэффициентов (b) силу связи каждого фактора с результатом и выявите сильно и слабо влияющие факторы. 3. По значениям b -коэффициентов рассчитайте параметры уравнения в естественной форме (то есть a1, a2, и a0). Проанализируйте их значения. Сравнительную оценку силы связи факторов дайте с помощью общих (средних) коэффициентов эластичности - . 4. Оцените тесноту множественной связи с помощью R и R 2, а статистическую значимость уравнения и тесноту выявленной связи - через F -критерий Фишера (для уровня значимости a =0,05). 5. Рассчитайте прогнозное значение результата , предполагая, что прогнозные значения факторов ()составят 101,3 процента от их среднего уровня. 6. Основные выводы оформите аналитической запиской. Решение. 1. Представленные в условии задачи значения линейных коэффициентов парной корреляции позволяют установить, что оборот розничной торговли -Y более тесно связан со среднегодовой численностью населения- () и с инвестициями 2000 года в основной капитал – (); наименее тесно результат Y связан со средним возрастом занятых в экономике – . Поэтому, в силу небольшой информативности фактора ,, предполагаем, что его можно исключить из дальнейшего анализа. Проверим наши предположения с помощью анализа матрицы коэффициентов частной корреляции. Очевидно, что наиболее тесная связь результата Y со среднегодовой численностью населения () и примерно одинаково тесно связан результат с инвестициями () и со средним возрастом занятых (). Поэтому для уточнения окончательного вывода выполним расчёт серии коэффициентов частной корреляции Y с двумя возможными комбинациями факторных признаков: для Y с и с , а также для Y c и . Расчёты частных коэффициентов корреляции выполним по следующим формулам:
Как видим, факторы и , действительно, тесно связаны с результатом, а между собой практически не взаимодействуют. Расчёт аналогичных показателей по следующей паре факторов приводит к иным результатам:
В данном случае, межфакторное взаимодействие оценивается как заметное () и по абсолютной величине сравнимо с теснотой связи розничного товарооборота со средним возрастом. Таким образом, первая из рассмотренных пар факторных признаков (X1 и X3 ) в большей мере отвечает требованиям, предъявляемым МНК к исходным
Воспользуйтесь поиском по сайту: ©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|