Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Коэффициент ранговой корреляции Спирмена.




Коэф-т Спирмена можно применить к порядковой шкале и к переменным, которые не подчиняются нормальному распределению. Это непараметрический метод, который используется с целью статистического изучения связи между явлениями. В этом случае определяется фактическая степень параллельности между 2-мя кол-ми рядами изучаемых признаков и дается оценка тесноты установленной связи.

Расчет коэф-та ранговой корреляции Спирмена включает в себя несколько этапов:

1. сопоставить каждому из признаков свой порядковый номер;

2. определить разность рангов каждой пары сопоставления значений

3. возвести в квадрат каждую разность и суммировать результаты

4. вычислить коэффициент кор. рангов по формуле

– сумма квадр. разностей рангов

n- кол-во выборки (число парных наблюдений)

При использовании коэф ранговой корреляции учитывается, что коэффициент изменяется от 0 до 1. (0,7 и выше высокая тесная связь, от 0,4 до 0,7 умеренная тесная связь, до 0,4 слабая).

Мощность коэф корреляции спирмена уступает мощности параметрических коэф-в, возможно применение при порядковых шкалах.

коэф-т ранговой корреляции целесообразно применять при относительно небольшом количестве респондентов.

 

Двумерное распределение

Для того, чтобы выстраивать правильное двумерное распределение необходимо иметь разработанную гипотезу исследования. Если гипотеза не подтверждается то это не означает, что она была неверной. Причина – погрешность сбора данных, неадекватность инструментария. Если гипотеза подтверждается, то наш статистический инструментарий позволяет установить вероятность правильного выбора, мы можем сказать – важным инструментом содержательного анализа явл-ся аналитические возможности самого исследователя. Статистический анализ позволяет лишь подтвердить выделенные гипотезы эмпирическим материалом. Никакой статистический анализ не поможет объяснить факты, если они не заложены в инструментарий исследования.

Основной анализ связи между 2-мя переменными явл-ся подготовка двумерных таблиц. Представляет собой данная таблица взаимное пересечение двух рядов распределений. Переменные для рядов опред-ся гипотезой исследования. Одна переменная рассматривается как фактор (причина), которая влияет на явление, другая как показатель этого явления.

Один и тот же признак в процессе анализа может выступать как фактор и как показатель. (напр. Уровень образования влияет на удовлетворенность работой; чем выше уровень образования, тем выше уровень удовлетворенности работы.. Уровень удовлетворенности работы (независимая переменная, фактор) влияет на общую удовлетворенность человека жизнью (показатель). Чем выше удовлетворенность работой, тем выше удовлетворенность жизнью.

В первом случае удовлетворенность работы выступает в качестве показателя, во втором – фактор.

Когда признак в статистической проверке гипотезы рассматривается как фактор его называют независимой переменной

Когда признак рассматривается как показатель- его наз-т зависимая переменная.

Содержательный смысл таблицы построенный на основе двумерного распределения позволяет рассмотреть некоторую зависимость признака и выглядит следующим образом: по признаку, который рассматривается как независимая переменная исследовательразбивает всю совокупность опрошенных на отдельные группы. Наряду с общим результатом одномерного распределения исследователь параллельно получает результаты мнения отдельных подгрупп. Обращаясь к приведенному выше примеру скажем, что исследователь разбивает всю совокупность по уровню образования. И тут же разбивает людей по уровню удовлетворенности, следовательно, основной задачей аналитика явл-ся статистическая экспертиза – оценка и отбор качественной информации. Посмотрев и оценив сотни таблиц, он должен отобрать только те, которые соотв-т статистическим критериям качества информации. Двумерные таблицы могут быть описаны и интерпретированы. Описание и экспертиза таблиц самая простая часть. Чтобы проверить гипотезу, исследователь должен определить фактор и признак. Исслед-ль определяет независимую переменную и зависимую и уже выстраивает двумерные таблицы.

Важнейшим правилом при предоставлении данных является необходимость учитывать численность образованных групп. Если в подгруппу попадает 4 чел-ка она непрезентативна.

 

 

19. матем методы как средство познания социальных явлений

Чтобы прочувствовать специфику использования математических методов как средства познания социальных явлений, взглянем на отношение математики к реальности с несколько иных позиций, чем это было сделано выше. То, о чем пойдет речь, как бы лежит “за кадром” всего сказанного ранее в разделе 1.

В озможность применения математики возникает тогда, когда исследователь абстрагируется от многих конкретных черт изучаемого объекта и предполагает адекватной сути решаемой задачи определенную формализацию рассматриваемого явления. Подчеркнем последний момент. Речь идет о том, что априори, т.е. прежде, чем осуществлять какой бы то ни было математический анализ данных (и даже прежде, чем получать эти данные), необходимо сформировать определенное представление о том, каков характер подлежащего изучению явления (эти представления лежат в основе того, что в п.1.3 названо априорной содержательной и концептуальной моделями). Совокупность таких представлений можно назвать априорной моделью этого явления, должны быть достаточны для того, чтобы на их основе можно было выбрать (разработать) и способы сбора данных, и подходы к их интерпретации, и формальный аппарат для непосредственного анализа данных, и принципы интерпретации результатов применения этого аппарата. И роль социолога при формировании описанной априорной модели является главной (по сравнению с ролью математика).

Переходя к более подробному логическому анализу рассматриваемого процесса, можно сказать следующее. Применение математики опирается на то, что мы считаем возможным (1) выделить некоторый фрагмент реальности; (2) построить (посредством измерения) его математическую модель (т.е. получить исходные данные); (3) изучить эту модель традиционными для математики способами (в нашем случае - применить тот или иной алгоритм анализа данных) и прийти к некоторым в ыводам о ее "устройстве" (в результате анализа данных получить какой-то математический результат: вычислить точное значение коэффициента корреляции, найти параметры уравнения регрессии и т.д.); (4) проинтерпретировать эти выводы на содержательном языке (т.е., как говорят обычно, проинтерпретировать результаты анализа данных) и получить таким образом новое знание о реальности. Первые два этапа обычно относят к области измерения (шкалировани я), последние два - к области собственно анализа данных. Но все четыре этапа тесно связаны друг с другом, их нельзя рассматривать по отдельности. Реализация этих этапов приводит к построению сложной модели реальности, первым шагом которого является построение некоторой первичной модели – результата измерения. Соответствующий процесс обычно бывает связан с решением ряда не всегда простых (особенно для социологии, поскольку она имеет дело с весьма сложной реальностью) проблем. Рассмотрим формальную сторону этого процесса более подробно.

Строя первичную модель в процессе измерения, т.е. реализуя первые два этапа, мы должны вычлененить круг рассматриваемых объектов; ограничить множество их свойств лишь теми, которые интересуют исследователя; вычленить те отношения между объектами (рассматриваемыми как носители выделенных свойств), которые должны моделироваться в процессе измерения. (В п. 1.3 мы по существу с несколько иной точки зрения рассматривали тот же процесс, говоря о рождении и интерпретации понятий.)

Например, в качестве рассматриваемых объектов можно взять совокупность рабочих какой-то отрасли промышленности. Среди всех их свойств выделим только одно: эмоциональное состояние, которое можно назвать удовлетворенностью работой. В качестве моделируемых отношений выберем отношения равенства и порядка ("больше") рабочих по их удовлетворенности: считаем, что какие-то два рабочих "вступают" в отношение равенства, если их удовлетворенности в некотором содержательном плане равны, и "вступают" в отношение порядка, если, скажем уровень положительных эмоций по отношению к работе у первого рабочего больше аналогичного уровня второго.

Задачей измерения чаще всего является приписывание нашим респондентам таких чисел (подчеркнем, что результатами измерения могут быть и не числа), в которых соответствующим образом отразились бы описанные отношения: если оказалось, что двум респондентам в результате измерения оказались приписанными одинаковые числа, то мы должны быть уверены, что соответствующие эмоциональные состояния этих респондентов одинаковы; если же первому респонденту оказалось приписанным большее число, чем второму, то у нас должна быть уверенность в том, что удовлетворенность первого респондента больше удовлетворенности второго. Ясно, что это сделать не просто – в частности, потому, что не просто оценить упомянутый выше "уровень положительных эмоций".

Аналогичные рассуждения должны быть справедливыми и для рассмотренного выше примера – для той ситуации, когда изучаемым множеством объектов служит некоторая совокупность учителей и мы рассматриваем две системы отношений между ними: отвечающие качеству их работы и материальному благосостоянию соответственно. Выбор соответствующих индикаторов по существу и означал выделение учитываемых отношений.

Желание удовлетворить рассмотренным требованиям обычно сопровождается всем тем "букетом" связанных с процессом выделения понятий и их операционализаци ей проблем, о которых мы упоминали в п.1.3. Но в настоящей работе нас больше волнует другой аспект того же процесса моделирования (подчеркнем, что пока речь идет о той модели, которая строится в процессе измерения) – связанный с непосредственным анализом данных.

Выделяя моделируемый при измерении фрагмент реальности и строя его модель, мы должны помнить еще об одном упомянутом там же моменте: в результаты измерения нами вкладывается еще кое-какой смысл - тот, который связан с поиском интересующей нас закономерности. Другими словами, нельзя забывать о том, ради чего осуществляется измерение, о том, какого рода закономерности нас интересуют (хотя сами закономерности мы будем находить позже, в процессе анализа данных, собранных с помощью процедуры измерения). Строя модель в процессе измерения, необходимо параллельно формировать определенные представления об изучаемом явлении – представления, адекватные последующей его формализации в процессе выбора и реализации алгоритма анализа. Естественно, при этом должно происходить абстрагирование от ряда реальных сторон этого явления. Именно это имело место, когда мы, изучая зависимость между материальным положением учителя и качеством его работы, сочли возможным использовать именно коэффициент корреляции между признаками, явившимися результатом операционализации понятий. Напомним, что это неявно вкладывалось нами в интерпретацию получаемых в результате измерения чисел. В частности, мы полагали осмысленной, содержательно интерпретируемой, структуру интервалов между числами (т.е. считали последние полученными по крайней мере по шкале интервалов). Если бы мы предпочли, скажем, не менее известный коэффициент корреляции рангов Спирмена, то тем самым придали бы числам другой смысл – считали бы осмысленным лишь числовое отношение порядка (т.е. полагали бы, что при измерении была использована порядковая шкала).

Назовем выделенный нами фрагмент реальности эмпирической системой(ЭС). Таким образом, ЭС - это совокупность интересующих нас объектов вместе с системой связывающих их отношений. При этом в число таких отношений входят как те, которые мы непосредственно моделируем при измерении, так и те, которые, являясь на этапе измерения элементом интерпретации данных, будут далее использоваться в процессе анализа последних 19. Более п одробн о о с мысле моделируемых при построении ЭС отношений, в частности, об упомянутой интерпретации идет речь в [Интерпретация и анализ...,1987, гл.1; Толстова, 1991а, 1998].

Подчеркнем, что зачастую четкое выделение как объектов и их свойств, так и черт изучаемого явления требуют довольно высокого уровня исследовательской абстракции, и что поэтому ЭС лишь условно можно назвать фрагментом реальности. Скорее речь должна идти об определенной модели последней (той конце п туально-логической модели, которая практически всегда предшествует математической). Процесс перевода всех компонент описанного фрагмента реальности на формальный, математический язык, т.е. процесс измерения, позволяет нам перейти от ЭС к некоторой математической системе (МС). В описанных выше ситуациях она была числовой (хотя из сказанного выше следует, что соответствующие числа совсем не обязательно являются полноценными числами в привычном всем смысле этого слова; это не имеет места, например, при использовании шкал низкого типа). Социологическим данным часто бывают адекватными и нечисловые МС (подробнее о соответствующем обобщенном понимании измерения см. [Логика социологического исследования, 1985; Толстова, 1991а, 1996в, 1998]) 20.

Заметим, что изучая интересующее нас явление, получая те или иные содержательные выводы, т.е. конкретизируя наши априорные представления о выбранной модели явления, мы пользуемся соответствующей математической теорией, т.е. свойствами задействованной МС. По существу выше, говоря о зависимости интерпретации полученных при измерении данных от того, каким методом эти данные будут анализироваться, мы говорили именно о том, что МС должна описываться интересующей нас математической теорией. Только в том случае, если последнее обстоятельство будет иметь место, можно будет применить отвечающий этой теории метод, воспользоваться разработанными в рамках этой теории положениями.

Подчеркнем, что выбирая метод анализа данных, опирающихся на какую-то математическую теорию, мы тем самым считаем эту теорию адекватной реальности. Но ответ на вопрос о том, так ли это, в социологии далеко не всегда является простым. При обосновании соответствующей адекватности прежде всего, нужно убедиться в том, что являющиеся результатом измерения формальные объекты удовлетворяют тем свойствам, на которых базируется предполагаемая для использования математическая теория (например, аксиомам этой теории и отвечающим ей правилам вывода). После этого можно использовать известные теоремы и другие математические соотношения, выводимые в рамках упомянутой теории. Получившиеся результаты, конечно, надо будет "перевести" на содержательный язык, что отвечает шагу, в определенном смысле обратному по отношению к тому процессу формализации содержательных представлений исследователя, о котором шла речь выше 21.

Подчеркнем, однако, что для социологических исследований подобная схема справедлива далеко не всегда. Очень часто социолог использует методы, условия применимости которых либо заведомо не выполняются, либо не проверяются. Для иллюстрации этого положения, заметим, что наиболее типичным примером свойства, которому должна удовлетворять МС при использовании многих математико-статистических алгоритмов может служить требование того, что исходные данные являются случайной выборкой из подчиняющейся определенному вероятностному закону генеральной совокупности. И такого рода свойства МС как раз очень редко проверяются (и выполняются) на практике. Тем не менее, соответствующие методы используются.

Необходимость прибегать к такого рода некорректностям объясняется, в первую очередь, тем, что математических систем, вполне адекватно отражающих те стороны реальности, которые интересуют социолога, пока придумано очень мало. Небезынтересно отметить, что в последние годы подобное положение дел привело к развитию методов изучения устойчивости разных математических алгоритмов относительно нарушений (той или иной степени) условий их применимости.

 

25. двумерное распределение.

Двумерный анализ представляет собой связь между двумя переменными, кот осуществляется с помощью двумерных таблиц. Данная таблица представляет собой взаимное пересечение двух рядов распределения. Переменные для рядов определяются гипотезой исследования. Одна переменная рассматривается как фактор (причина), который влияет на явление, другой как показатель этого явления. Один и тот же признак в процессе анализа может выступать как фактор и как показатель. К наиболее часто используемым инструментам изучения взаимосвязи двух переменных относятся методы анализа таблицы сопряженности. Анализ таблицы является весьма простым и наглядным, и вместе с тем эффективным инструментом изучения одновременно двух переменных.

 

 

17. связь номинальных признаков. Применение критерия хи-квадрат

 

Роль номинальных данных в социологии огромна. Объяснить это можно следующими (взаимосвязанными) причинами.

Во-первых, им е нно номинальные данные чаще всего используются социологами. Вероятно, это можно объяснить сравнительной простотой их получения, естественностью интерпретации, интуитивной уверенностью в состоятельности последней.

Во-вторых, номинальные данные являются более надёжными, чем данные, полученные по шкалам более высокого типа, в том смысле, что за ними обычно не стоят трудно проверяемые модели восприятия (имеется в виду восприятие респондентом предлагаемых ему для оценки объектов, суждений, мнений и т.д.; о моделях, предполагаемых известными методами шкалирования, см., например, [Толстова, 1998]), и, в соответствии с этим, при их интерпретации не используются сложные и зачастую сомнительные допущения.

В-третьих, в методах, используемых для анализа номинальных данных, обычно бывают "заложены" модели, не вызывающие сомнения, отвечающие естественной логике социолога, изучающего собранную информацию "вручную", без использования математики и ЭВМ. Надеемся, что все сказанное ниже позволит читателю в этом убедиться.

Здесь сделаем небольшое отступление. Среди социологов бытует мнение о том, что достижение интервального уровня измерения всегда является желаемым, поскольку расширяет возможности исследователя, давая ему основания использовать традиционные методы математико-статистического анализа данных. С одной стороны, это, конечно, так: подобные основания действительно имеют под собой почву (хотя надо иметь в виду, что и интервальные данные - не совсем числовые и поэтому к ним применимы не все упомянутые традиционные алгоритмы). Но, с другой стороны, остается вопрос о том, не слишком ли дорога соответствующая цена, не обесценивается ли полученное преимущество несостоятельностью анализируемых данных. Последнее соображение настолько важно, что некоторые авторы вообще полагают, что в социологии только номинальные шкалы имеют право на существование [Чесноков, 1986]. И принять это соображение во внимание имеет смысл еще и потому, что для анализа номинальных данных имеется много достаточно эффективных методов

Коэффициент хи-квадрат исходит из того, что зависимость между признаками отсутствует и данные распределены равномерно. С помощью этого коэффициента мы определим наличие связи между признаками. Если в генеральной совокупности признаки независимы, то. вычистив число степеней свободы для интересующей нас матрицы, мы можем найти по соответствующей таблице вероятность попадания произвольного значения хи-квадрат в любой заданный интервал. Этот коэффициент используется для номинальных, порядковых и редко метрических шкалах, хи-квадрат поможет нам определить наличие связи между признаками.

Критерий Хи-квадрат позволяет сравнивать распределения частот вне зависимости от того, распределены они нормально или нет.

Под частотой понимается количество появлений какого-либо события. Обычно, с частотой появления события имеют дело, когда переменные измерены в шкале наименований и другой их характеристики, кроме частоты подобрать невозможно или проблематично. Другими словами, когда переменная имеет качественные характеристики.

Механизм проверки гипотезы о независимости переменных не сколько сложнее. Вычисляется показатель, фиксирующий степень расхождения реальных и ожидаемых частот, коэффи­циент (хи-квадрат):

,

где — наблюдаемые частоты; — ожидаемые частоты; n — число плеток в таблице.

 

24. анализ связи между номинальными признаками

Роль номинальных данных в социологии огромна. Объяснить это можно следующими (взаимосвязанными) причинами.

Во-первых, им е нно номинальные данные чаще всего используются социологами. Вероятно, это можно объяснить сравнительной простотой их получения, естественностью интерпретации, интуитивной уверенностью в состоятельности последней.

Во-вторых, номинальные данные являются более надёжными, чем данные, полученные по шкалам более высокого типа, в том смысле, что за ними обычно не стоят трудно проверяемые модели восприятия (имеется в виду восприятие респондентом предлагаемых ему для оценки объектов, суждений, мнений и т.д.; о моделях, предполагаемых известными методами шкалирования, см., например, [Толстова, 1998]), и, в соответствии с этим, при их интерпретации не используются сложные и зачастую сомнительные допущения.

В-третьих, в методах, используемых для анализа номинальных данных, обычно бывают "заложены" модели, не вызывающие сомнения, отвечающие естественной логике социолога, изучающего собранную информацию "вручную", без использования математики и ЭВМ. Надеемся, что все сказанное ниже позволит читателю в этом убедиться.

Здесь сделаем небольшое отступление. Среди социологов бытует мнение о том, что достижение интервального уровня измерения всегда является желаемым, поскольку расширяет возможности исследователя, давая ему основания использовать традиционные методы математико-статистического анализа данных. С одной стороны, это, конечно, так: подобные основания действительно имеют под собой почву (хотя надо иметь в виду, что и интервальные данные - не совсем числовые и поэтому к ним применимы не все упомянутые традиционные алгоритмы). Но, с другой стороны, остается вопрос о том, не слишком ли дорога соответствующая цена, не обесценивается ли полученное преимущество несостоятельностью анализируемых данных. Последнее соображение настолько важно, что некоторые авторы вообще полагают, что в социологии только номинальные шкалы имеют право на существование [Чесноков, 1986]. И принять это соображение во внимание имеет смысл еще и потому, что для анализа номинальных данных имеется много достаточно эффективных методов.

 

Коэффициент хи-квадрат исходит из того, что зависимость между признаками отсутствует и данные распределены равномерно. С помощью этого коэффициента мы определим наличие связи между признаками. Если в генеральной совокупности признаки независимы, то. вычистив число степеней свободы для интересующей нас матрицы, мы можем найти по соответствующей таблице вероятность попадания произвольного значения хи-квадрат в любой заданный интервал. Этот коэффициент используется для номинальных, порядковых и редко метрических шкалах, хи-квадрат поможет нам определить наличие связи между признаками.

Критерий Хи-квадрат позволяет сравнивать распределения частот вне зависимости от того, распределены они нормально или нет.

Под частотой понимается количество появлений какого-либо события. Обычно, с частотой появления события имеют дело, когда переменные измерены в шкале наименований и другой их характеристики, кроме частоты подобрать невозможно или проблематично. Другими словами, когда переменная имеет качественные характеристики.

Механизм проверки гипотезы о независимости переменных не сколько сложнее. Вычисляется показатель, фиксирующий степень расхождения реальных и ожидаемых частот, коэффи­циент (хи-квадрат):

,

где — наблюдаемые частоты; — ожидаемые частоты; n — число плеток в таблице.

 

 

27понимание отсутствия связи между признаками

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...