Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

3. Корреляционно-регрессионный и дисперсионный анализ




Особенность статистических связей заключается в том, что они проявляются во всей совокупности, а не в каждом его элементе. Проявление статистических связей подвержено действию закона больших чисел: лишь в достаточно большом числе единиц индивидуальные особенности сгладятся, случайности взаимно погасятся, и зависимость, если она имеет существенную силу, проявится достаточно отчётливо. Общественные науки, в том числе политическая, оперируют исключительно статистическими связями: изучаемые процессы слишком сложны, число влияющих на политическое поведение факторов слишком велико, чтобы построить жестко детерминированные модели. Далее мы будем рассматривать только статистические, вероятностные зависимости.

Применительно к задачам анализа электоральных данных особое значение имеет рассмотрение частной, хотя и очень важной разновидности статистических связей, – корреляционных связей, или просто корреляций. Корреляцию можно определить как вид статистической связи, обладающей направлением. Как следует из вышеприведенной таблицы, корреляции актуальны для признаков, измеренных на порядковом и интервальном уровне. Методом анализа корреляционных связей является корреляционный анализ, к рассмотрению которого в контексте задач анализа электоральной статистики мы и обратимся.

Корреляционный анализ является одним из наиболее распространенных, широко используемых статистических техник анализа данных в электоральных исследованиях. В самых общих чертах данный метод измеряет статистические связи между переменными, устанавливая направление и интенсивность такой связи.

Цель корреляционного анализа состоит в том, чтобы оценить сходства (различия) вариаций переменных, отражающих электоральную поддержку различных партий. Фактически, каждой паре переменных сопоставляется определенная функция, значение которой показывает, насколько близки (различны) их вариации. Мы рассмотрим наиболее распространенный метод осуществления такого сопоставления, а именно корреляционный анализ по методу К. Пирсона, являющийся «классическим» инструментом решения подобного рода задач. Фактически же коэффициент Спирмана равен коэффициенту Пирсона, если расчету последнего предшествует ранговое преобразование данных.

Использование непараметрических коэффициентов корреляции позволяет снять все проблемы, связанные с «кренами» в двухмерных распределениях (выбросами, расслоением совокупности, смещением центров тяжести). В то же время, «платой» за это преимущество является потеряв точности оценки связи, прежде всего, с точки зрения ее плотности. Параметрический коэффициент Пирсона при соблюдениях всех условий его вычисления в среднем на 5-10% точнее, нежели коэффициент Спирмана.

Кроме собственно коэффициента корреляции, обязательной составляющей итоговой статистики является оценка значимости полученного коэффициента. Статистическая значимость результата – p - значение – представляет собой меру уверенности в том, что результат не является случайным (иначе говоря, что результат репрезентативен для более широкой выборки). Традиционно в статистике выделяется три основных уровня значимости (α -уровня), – 0. 05, 0. 01 и 0. 001. Если выявленная статистическая связь надежна на уровне 0. 05, имеется не более чем 5%-ная вероятность того, что найденная связь носит случайный характер и не проявится в генеральной совокупности. На α -уровне 0. 01 вероятность случайности результата снижается до 1% и т. д. P-значение представляет собой точную интервальную оценку вероятности ошибки. Так, если коэффициент корреляции 0, 76 имеет p-значение 0, 003, это означает, что существует не более чем три шанса из тысячи, что в действительности связи не существует. Такой показатель, конечно, отражает высокий уровень статистического доверия к полученному показателю связи.

Вновь подчеркнем: коэффициент корреляции между переменными, отражающими электоральную поддержку политических партий (кандидатов), следует рассматривать не как меру «статистической связи», а как составляющую векторной структуры данных. При этом такую структуру данных необходимо рассматривать в целом, комплексно, не «вырывая» из нее отдельные коэффициенты. В противном случае неизбежны ошибки в политологической интерпретации результатов корреляционного анализа.

Рассматривая корреляции между различными электоральными показателями, мы мыслили участвующие в анализе переменные как «равноправные», не подразделяя их на зависимые и независимые. По своему характеру рассмотренная выше задача носит скорее структурно-описательный, нежели объяснительный характер. Ясно, что объяснить электоральное поведение исходя из него самого довольно трудно. Необходимо вовлечение в анализ данных, отражающих некоторые социальные (в самом широком смысле слова) характеристики территорий, которые выступят в качестве независимых переменных, влияющих на электоральные показатели.

       Здесь важно еще раз обратить внимание читателя на одну ключевую предпосылку статистического анализа электоральных данных. Колебания уровня электоральной поддержки от одной территории к другой вызваны, по преимуществу, не случайными факторами, а объективными различиями между регионами, влияющими на электоральное поведение. Мы говорим «по преимуществу», так как в объяснении столь сложного процесса, как электоральное поведение, выявляются лишь статистические связи и закономерности. Как будет показано ниже, не все представители политической науки разделяют данный тезис, и он требует отдельного обоснования.

Мы подошли к проблеме содержательной интерпретации интенсивности связи на основе значения коэффициента корреляции. Определенного жесткого правила тут не существует; скорее речь идет о совокупности опыта, накопленного в процессе статистических исследований.

Поэтому применительно к политическим исследованиям Ахременко А. С. предлагает «смягченную схему» интерпретации:

• 0, 4 > r > 0, 3 – слабая корреляция;

• 0, 6 > r > 0, 4 – средняя корреляция;

r > 0, 7 – сильная корреляция.

Существует еще одна полезная процедура, позволяющая оценить значимость коэффициента корреляции. Она состоит в вычислении коэффициента детерминации, который представляет собой r, возведенный в квадрат (r2). Смысл процедуры состоит в том, что при возведении в квадрат низкие коэффициенты потеряют «в весе» гораздо сильнее, чем высокие. Так, 092 = 0, 81 (значение снижается всего на 0, 09); 0, 52 = 0, 25(здесь мы «теряем» уже половину значения); 0, 32 = 0, 09 (более чем трехкратная«потеря веса»). Когда речь идет о переменных, которые мы можем содержательно интерпретировать как «определяющие» и «определяемые», значение r2 будет показывать нам долю случаев, которые объясняет определяющая переменная.

Но что делать в том случае, если мы хотим оценить влияние нескольких независимых переменных на электоральные показатели? Это было бы вполне логично в свете наших рассуждений об электоральном поведении как чрезвычайно сложном феномене. И нет ли метода, который позволяет изначально, на математическом уровне сформулировать гипотезу в терминах зависимых и независимых переменных, в терминах влияния?

Такой метод существует, он называется регрессионный анализ, в значительной мере представляющий собой развитие многих идей корреляционного анализа. Иногда эти методы даже объединяют под общим названием «корреляционно-регрессионный анализ».

Целью регрессионного анализа является измерение влияния одной (парный регрессионный анализ) или нескольких (множественных) независимых переменных на зависимую переменную. Независимые переменные также называют факторными, объясняющими, определяющими, регрессорами и предикторами. Зависимую переменную иногда называют определяемой, объясняемой, «откликом». Чрезвычайно широкое распространение регрессионного анализа в эмпирических исследованиях связано не только с тем, что это удобный инструмент тестирования гипотез. Регрессия, особенно множественная, является эффективным методом моделирования и прогнозирования. Закономерности, свободы от случайных воздействий.

Ключевым показателем дисперсионной статистики является уже знакомое нам p-значение – показатель уровня статистической значимости F-отношения. В рассматриваемом случае p-значение 54, 3 значимо на уровне 0. 0000000001 – то есть существует менее чем один шанс на миллион, что в действительности обнаруженная связь носит случайный характер. Соответственно, мы можем с уверенностью принять гипотезу о наличии связи. Более обстоятельно вычислительные аспекты дисперсионного анализа будут рассмотрены в следующем разделе. Аналогичную функцию выполняет критерий t (т. н. критерий Стьюдента), но уже в отношении регрессионных коэффициентов (углового и y-пересечения). С помощью критерия t мы проверяем гипотезу о том, что в генеральной совокупности регрессионные коэффициенты равны нулю.

При анализе связей между суммарными электоральными показателями и социальными характеристиками территорий следует иметь в виду проблему, получившую в западной политической науке название «проблемы экологического вывода» (ecological inference problem). Под «экологическим выводом» понимается процесс использования суммарных показателей для получения информации об индивидуальных предпочтениях; она актуальная для тех ситуаций, когда информация об отдельных индивидах недоступна (как в электоральной статистике, чем она принципиально отличается от социологических опросов).

4. Факторный и кластерный виды анализа

Существует целый комплекс методов решения такой задачи, большинство из них относятся к т. н. многомерным статистическим методам, которые иногда называют также пространственно-статистическими. Ключевая идея пространственной статистики уже была нами рассмотрена в контексте корреляционного анализа; это идея геометрического представления. В соответствии с ней переменная или случай могут быть представлены как точки (векторы) с координатами (компонентами), которые определяются значениями переменной для набора случаев или значениями набора переменных для случая. Применительно к электоральной статистике в качестве точек (векторов) могут быть представлены либо территории, либо показатели электоральной поддержки партий или кандидатов.

Одним из наиболее активно используемых методов многомерной статистики является кластер-анализ. Кластеризация – это процедура упорядочения в наглядные структуры или группы сходства/различия объектов, обладающих множеством характеристик. Собственно кластер– группа объектов в многомерном пространстве, близких друг другу(или отделенных друг от друга небольшими расстояниями). Кластер-анализ– одно из наиболее мощных статистических средств компактного описания пространственных отношений в больших массивах данных. К примеру, в парламентских выборах 17 декабря 1995 г. приняли участие 43 избирательных объединения, выборы проводились во всех 89 регионах России. Наша задача – разбить субъекты федерации на несколько групп по признаку близости политических предпочтений избирателей, выявленных в ходе голосования за избирательные объединения и блоки. Наши исходные данные в этом случае составят таблицу с 89столбцами и 43 строками, всего 3287 (43 89) числовых данных. Даже если мы проведем предварительное «сжатие» данных с помощью группировки или типологизации, – к примеру, объединим блоки в несколько идеологически близких групп 29, – все равно решить поставленную задачу будет крайне проблематично. Если, конечно, не применять кластер-анализ, который как раз и предназначен для решения подобного рода проблем.

       Одним из наиболее мощных статистических техник из арсенала современной многомерной статистики является метод главных компонент. Одна из его центральных задач – снижение размерности данных, переход к компактному описанию случаев (одной – тремя переменными)от многомерной ситуации исходной электорально-статистической таблицы.

В рамках метода главных компонент существует комплекс статистических техник, позволяющих обосновать переход от большего числа измерений к меньшему. Это критерий Кайзера, критерий осыпи и матрицы воспроизведенных / остаточных корреляций.

Наиболее простым является критерий Кайзера: в модели остаются те главные компоненты, чье собственное значение больше или равно единице. В нашем случае это единственный фактор F1. Однако полезно проверить корректность удаления четырех факторов с помощью других критериев. Одним из наиболее широко используемых методов является анализ «графика осыпи» (scree plot).

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...