Главная | Обратная связь | Поможем написать вашу работу!

Одномерное частотное распределение

Начальным этапом изучения эмпирических данных, при котором происходит предварительное упорядочивание первичной информации, является одномерный анализ данных, т.е. описание распределений наблюдений ("случаев") вдоль оси интересующего исследователя признака. Основным методом при этом выступает метод статистической группировки.
Метод статистической группировки - распределение единиц изучаемого объекта на однородные группы по существенным для него признакам.
Результатом группировки являются некие частотные распределения, которые обычно описываются тремя показателями:

1.абсолютная частота - число объектов в выборке, обладающих определенным значением какого-либо признака;

2.относительная частота (частость) - доля объектов, обладающих определенным значением какого-либо признака, относительно всех объектов выборки (в процентах или долях);

3.накопленная частота - суммарная доля объектов, обладающих определенными признаками, относительно всех объектов выборки

Цели анализа одномерных распределений:
-во-первых, для проверки качества выборки,
-во-вторых, для определения дифференцирующей силы признаков,
-в-третьих, для определения характера распределения и установления эмпирических закономерностей "поведения" признака относительно изучаемых объектов.

Одномерное распределение – распределение объектов (опрошенных) по одной выбранной переменной. Подобное распределение решает чисто описательные задачи - позволяет охарактеризовать совокупность по различным характеристикам – распределение по полу, возрасту, образованию и т.п. или определить численность социальных групп – например, сколько среди опрошенных студентов удовлетворенных и неудовлетворенных учебой, согласных с тем или иным утверждением и т.п.
Основная характеристика одномерного распределения – частота (англ. frequency), количество объектов (человек), соответствующих тому или иному значению переменной (количество опрошенных, которые выбрали тот или иной вариант ответа). Для этого по каждому значению переменной подсчитывается, сколько объектов (человек) ему соответствует.

Когда мы говорим об анализе одномерных распределений, то имеем в виду анализ свойств распределения значений одной переменной. Наиболее важными операциями в рамках одномерного анализа являются, во-первых, вычисление средней с определением степени разброса данных вокруг нее, во-вторых — определение формы распределения значений переменной. Средняя величина является в большинстве случаев весьма информативной мерой «центрального положения» наблюдаемой переменной. Она позволяет оценивать и сравнивать свойства не отдельных объектов, но групп объектов в целом.

22. использование шкал низких типов
Проблемы с использованием в социологии традиционных математико-статистических методов возникают также в связи с тем, что интересующие социолога данные, как правилo, бывают получены по шкалам низких типов. Определения понятий "тип шкалы", "шкала низкого (соответственно, высокого) типа" мы заимствуем из теории измерений Попытаемся понять, что такое шкала низкого типа хотя бы на интуитивном уровне³¹.

К шкалам низкого типа обычно относят шкалы, позволяющие получать "числа", очень не похожие на те действительные числа, к которым мы привыкли, осваивая курс школьной математики. Эта непохожесть означает невозможность работать с этими числами по обычным правилам арифметики. К шкалам же высокого типа причисляют те, с помощью которых получаются числа, в достаточной мере похожие на действительные числа, т.е. такие, с которыми позволено делать почти все, что мы привыкли делать с числами. Шкалами низкого типа обычно считают шкалы, называемые в литературе номинальными и порядковыми, а шкалами высокого типа – интервальные и шкалы отношений (в теории измерений известны и другие шкалы как низкого, так и высокого типов). Шкалы низкого типа (и получаемые с их помощью данные) часто называют также качественными, а шкалы высокого типа (и соответствующие данные) – количественными, или числовыми.

Мы отрицательно относимся к введенным в предыдущем абзаце терминам "низкий", "высокий" и особенно – "качественный" и "количественный". И не потому, что любим терминологические споры, а потому, что, на наш взгляд, описанная терминология не может не увести использующего ее социолога в сторону от правильного (с нашей точки зрения и с точки зрения исследователей, работающих в рамках теории измерений) понимания шкалы и, как следствие, понимания того, что можно делать с полученными с ее помощью шкальными значениями, как можно интерпретировать результаты анализа таких данных. О соответствующих соображениях см. [Толстова, 1990 а, б; 1998]. Тем не менее, будем пользоваться описанной выше, принятой для социологической литературы терминологией, стараясь, однако, приблизить описание номинальных и порядковых шкал к тем представлениям о них, которые кажутся нам правильными (мы имеем в виду достаточно тщательное отслеживание того, какую реальность мы отражаем в числах при использовании той или иной шкалы).

Итак, номинальной шкалой мы называем такую шкалу, с помощью которой стремимся отразить в числах только некоторое отношение равенства-неравенства между изучаемыми объектами. Типичным признаком, значения которого обычно получаются именно по номинальной шкале, является профессия респондента. Если одному объекту (респонденту) приписано значение "3" (отвечающее, скажем, профессии "токарь"), а другому – значение "4" (отвечающее профессии "пекарь"), то, имея в руках эти числа, мы можем быть уверенными в том, что рассматриваемые объекты в интересующем нас отношении различны (респонденты имеют разные профессии), но больше ничего мы о них сказать не можем. Говоря точнее, мы не можем использовать какие-то другие свойства чисел для формирования содержательных выводов: мы не знаем, больше ли один из респондентов, чем другой, или меньше (как 4 больше 3); можно ли говорить о том, что различие между какими-то двумя объектами равно различию между некоторыми двумя другими объектами (как различие между 4 и 3 равно различию между 3 и 2) и т.д. Другими словами, интерпретируя так или иначе полученные шкальные значения, мы можем пользоваться только теми свойствами чисел, за которыми "стоят" содержательные свойства изучаемых объектов (из теории измерений следует, что это положение не всегда имеет смысл считать верным, но здесь мы не можем остановиться на этом более подробно). В случае номинальной шкалы содержательные свойства "стоят" только за равенством и неравенством чисел.

При использовании порядковой шкалы мы ставим своей целью отобразить не только некоторое отношение равенства-неравенства между реальными объектами, но и какое-то содержательное отношение порядка между ними. Обычно в качестве примеров признаков, значения которых можно считать полученными по порядковой шкале, приводят признаки, отвечающие заданным в анкете вопросам типа: "Удовлетворены ли Вы Вашей работой (ходом реформ, президентом РФ, качеством рыночных продуктов и т.д.)?" с традиционным веером из пяти (трех, семи и т.д.) вариантов ответов от "Совершенно не удовлетворен" до "Вполне удовлетворен", которым ставятся в соответствие числа от 1 до 5 (от 1 до 3, от 1 до 7, от -3 до +3 и т.д.). Здесь мы при осуществлении шкалирования ставим своей целью отобразить в числах не только отношение равенства респондентов по их удовлетворенности заданным исследователем объектом, но и отношение порядка между респондентами по степени "накала" их эмоций, направленных в адрес этого объекта. И если окажется, что одному респонденту приписано число "2", а другому - "4", то мы будем полагать, что упомянутый "накал" второго респондента не просто не равен "накалу" первого, но больше такового³² (ясно, что здесь речь идет по существу о том отражении эмпирической системы в математическую, о которой мы говорили в п. 2.2).

Естественно, что для "чисел", полученных по шкалам низких типов, не будет иметь смысла большинство традиционных, привычных нам операций с числами. Точнее – будут бессмысленными практически все содержательные выводы, которые было бы естественно сделать из тех или иных числовых соотношений. Так, вряд ли найдется человек, усматривающий что-то рациональное в утверждениях типа: "среднее арифметическое значение профессий для рассматриваемой совокупности респондентов равно 3,2, и оно меньше аналогичного среднего значения для другой совокупности, равного 3,9" (надеемся, что определение среднего арифметического читателю знакомо). Ведь совершенно ясно, что упомянутые числа бессмысленны. Что значит величина 3, 2? То, что некий средний, наиболее типичный респондент на 20% является токарем, а на 80% - пекарем? Бред такого использования традиционной статистической характеристики (среднего арифметического) очевиден.

Вернемся к проблеме соотнесения принципов математической статистики с потребностями социологии.

Итак, интересующие социолога данные чаще всего бывают получены по шкалам низких типов – номинальной или порядковой. Случайные же величины, с которыми имеет дело математическая статистика, обычно предполагаются числовыми, т.е. такими, значениями которых служат обычные действительные числа. Таким образом, с "социологическими" числами мы не имеем права поступать, как с обычными числами, с "математико-статистическими" же числами можем делать все, что угодно. Правда, здесь следует оговориться, что большая часть результатов математической статистики пригодна для применения к данным, полученным по интервальным шкалам. Соответствующие шкальные значения "почти" похожи на всем привычные действительные числа, но все же таковыми не являются. Они отображают в числовые отношения не только некоторые эмпирические отношения равенства и порядка, но и структуру эмпирических интервалов – отношения равенства и порядка для расстояний между объектами. Интервальные шкалы часто называют числовыми, хотя это и не совсем точно. Ниже мы не будем делать различия между шкальными значениями, отвечающими интервальной шкале, и всем привычными действительными числами.

Из-за различия в типах шкал, используемых математической статистикой и социологией, перенос того, что мы получаем в математической статистике, в социологическую практику часто оказывается невозможным. Часто, но не всегда.

Дело в том, что в математической статистике имеются и такие разделы, которые посвящены анализу частотных распределений для номинальных и порядковых признаков. Но, используя соответствующие результаты, мы тем самым не только полагаем, что выборочные частоты хорошо приближают генеральные вероятности (ср. п.4.1), но и делаем ряд других допущений, на которые опираются рассматриваемые математико-статистические утверждения.

Одним из самых главных с точки зрения важности его роли для социолога является предположение о том, что за анализируемыми номинальными и порядковыми признаками как бы "стоят" некоторые числовые переменные. Выполнение этого предположения в социологических задачах часто является весьма проблематичным. Многие же методы математической статистики опираются на это предположение (среди них самый популярный у социологов метод измерения связи между номинальными переменными, метод, основанный на критерии Хи-квадрат). Здесь мы не будем вдаваться в подробности. Для нас важно констатировать, что использование шкал низкого типа очевидным образом затрудняет применение классической математической статистики при решении социологических задач.

Подчеркнем также, что вопрос о принятии (непринятии) рассмотренного предположения самым непосредственным образом связан с нашими содержательными представлениями о том, что скрывается за понятием "признак", – например, с нашей интерпретацией восприятия респондентом предлагаемых ему вопросов. Это, конечно, имеет прямое отношение к проблеме социологического измерения, которую мы здесь, вообще говоря, не рассматриваем, но пользуемся случаем лишний раз подчеркнуть специфичную для социологии органическую связь между измерением и анализом данных. Кроме того, обратим внимание читателя на то, что тот же вопрос тесно связан с проблемой соотнесения модели, "заложенной" в методе, с содержательным характером задачи. К этому мы еще вернемся в следующем разделе при рассмотрении соответствующих аспектов анализа социологических данных.

Имеются и другие возможности использования математической статистики для изучения данных, полученных по шкалам низких типов. Мы имеем в виду не ставшую еще общеизвестной новую ветвь этой науки, носящую название статистики объектов нечисловой природы [Орлов, 1985]. Однако наработок, осуществленных в этой области, при всей их значимости, пока не достаточно для того, чтобы удовлетворить потребности практики.

Отметим, что рассматриваемые трудности присущи процессу поиска статистических закономерностей отнюдь не только в социологии. Т. н. качественные данные встречаются и во многих других науках. Методы, позволяющие осуществлять указанный поиск, также были отнесены к понятию "анализ данных". Иными словами, необходимость анализа "чисел", полученных по шкалам низких типов, послужила пятой причиной "рождения" названного понятия.

Итак, говоря о необходимости специального рассмотрения "неправильных" с точки зрения математической статистики методов поиска статистических закономерностей, мы пока оправдываем такую необходимость в основном потребностями многих наук. Анализ же социологических данных обладает рядом специфических черт, которые выделяют его из анализа данных вообще. И специфичные моменты процесса поиска статистических закономерностей именно в социологии связаны, в первую очередь, с тем выделением "точек соприкосновения" содержания задачи и математического формализма, о котором мы упоминали выше. И это связано с шестой причиной (может быть, самой важной для социолога) рождения понятия "анализ данных", причиной, обусловленной сложностью изучаемых с помощью анализа данных явлений – необходимостью постоянного вмешательства исследователя в процесс анализа.

Рассмотрим соответствующие вопросы, касающиеся именно социологии, более подробно.

⇐ Предыдущая 1 234 5 6 Следующая ⇒

Воспользуйтесь поиском по сайту: