Главная | Обратная связь | Поможем написать вашу работу!

Статистическая обработка и анализ эмпирической информации

Социальные явления и процессы, которыми занимается социология, имеют массовый характер. Поэтому одним из главных инструментов социологического анализа является статистика - наука о том, как собирать, анализировать и интерпретировать данные о массовых явлениях и процессах.

Традиционно выделяют две основные функции статистики - описательную и аналитическую (объясняющую). Методы описательной статистики применяются для получения обобщенных сведений о больших совокупностях объектов (в том числе людей); понятие обработки данных, как правило, связывают именно с ними. Аналитические методы статистики предназначены для проверки гипотез о природе сил, действующих в изучаемых совокупностях, посредством анализа причинно-причинных связей между измеряемыми проявлениями этих сил.

Генеральные совокупности людей, которые изучает социология, часто слишком велики для того, чтобы их можно было исследовать полностью. Поэтому социологические исследования обычно бывают выборочными. Особый раздел статистики - статистический вывод - позволяет обобщать результаты выборочного исследования на генеральную совокупность. Его приложения применяются как при обработке, так и при анализе данных. При обработке данных используются главным образом методы -статистического оценивания для исчисления ошибок выборки и построения доверительных интервалов. В анализе данных чаще применяются всевозможные процедуры проверки гипотез.

Как описательные, так и аналитические методы могут применяться "вручную" (в том числе с использованием калькуляторов) или с помощью компьютеров, которые в последние годы получили широкое распространение и стали доступными практически любому исследователю. Руководством по обработке данных вручную является фактически любой учебник по статистике. Поэтому здесь основное внимание мы уделим проблемам компьютерной обработки и анализа данных.

Существует множество программных средств, с помощью которых можно обрабатывать социологическую информацию. Они делятся на два больших класса: специализированные программные средства для социологов, например, ОСА (Киевский госуниверситет), СОЦИОЛОГ (Институт социологии РАН), ДА-система (Контекст), и универсальные статистические пакеты программ, из которых наиболее часто социологии используют SPSS (Statistical Program for Social Sciences). Для использования этих программ нужна специальная подготовка социологической информации.

Воспользуемся рабочим определением, согласно которому информация - это сведения об окружающем мире и протекающих в нем процессах, которые можно хранить, перерабатывать и передавать от одного субъекта наблюдения к другому. Для того, чтобы осуществлять эти операции, информацию необходимо структурировать и формализовать. Структурирование предполагает ответы на

вопросы, какие показатели и на каких объектах необходимо измерить, какие индикаторы для этого следует зафиксировать. Формализация обычно включает процедуры построения выборки, доступа к информации и ее фиксации, а также" измерительные процедуры. Формализованную и структурированную информацию часто называют данными исследования, а процесс формализации - сбором данных.

Большинство статистических программ использует представление данных в виде матрицы типа "объект-признак" (Рис. 9). В матрице данных каждая строка отводится одному объекту (1, 2,..., п), а каждый столбец-одному признаку переменной (X1, X2,..., X_k). На пересечении i-той строки и j-того столбца находится значение Хij признака j для объекта с номером i.

Рис. 9. Матрица данных.

Подготовка данных к обработке (и анализу) - один из наиболее трудо- и времяемких этапов эмпирического исследования. В нем можно условно выделить несколько шагов: сбор и кодирование данных; ввод данных в компьютер; проверка и чистка данных; специальная подготовка данных.

Этап сбора и кодирования данных включает заполнение инструментария: проверку инструментария на правильность и полноту заполнения; кодирование открытых вопросов, вопросов со сложной структурой и пропущенных значений.

Еще несколько лет назад разработчики социологического инструментария помимо основной задачи должны

были окончательно решить все проблемы измерения и предстоящего ввода данных, использования персональных компьютеров и современных программных средств, включающих мощные подсистемы преобразования данных, произвели в этой области настоящую революцию. Теперь все внимание исследователя концентрируется на содержательной стороне задачи.

Инструментарий должен быть удобен, прост в заполнении и позволять фиксировать информацию с максимально возможной полнотой и точностью, а центр тяжести "технической" работы переносится на процедуры кодирования, организации ввода данных и их специальной подготовки.

Например, в прошлом для исследования состава семьи от респондента требовалось множество ответов на вопросы типа: Выросли ли Вы в полной семье? Жили ли с Вами бабушки или дедушки? По материнской или отцовской линии? Были ли у Вас приемные родители? Братья и сестры? и т.д. Теперь респонденту предлагается максимально полный с точки зрения целей исследования список членов семьи, в котором он должен отметить, с кем именно жил при поступлении в школу или окончании 9-го класса: (1) отец; (2) мать; (3) приемный отец; (4) приемная мать (5) сестры и братья; (6) бабушка по материнской линии; (7) бабушка по отцовской линии; (8) дедушка по материнской линии; (9) дедушка по отцовской линии; (10) другие родственники.

Фиксация наличия (отсутствия) каждого родственника в дальнейшем позволяет легко формировать и исследовать группы семей любого состава: полные, неполные, с приемными родителями, со свекровью или с тещей, многодетные семьи и т.п. Обязанность фиксировать наличие (отсутствие) возлагается на кодировщика, который в приведенном примере должен около каждого пункта списка поставить "1", если соответствующий человек в семье был, и "О" - если не был.

Еще одной особенностью современного инструментария является значительное число "открытых" вопросов. Например, при исследовании социальной миграции указывают названия населенных пунктов, предприятий, профессий, время переезда или увольнения с работы; при

исследовании доходов - суммы с указанием валюты; при изучении политических предпочтений - фамилии политиков и названия партий. Перевод такой информации в коды для компьютерной обработки также осуществляется кодировщиком, которого необходимо снабдить соответствующими инструкциями и кодировочными таблицами. При этом рекомендуется первоначально использовать максимально подробное кодирование (например, шкала профессий ISCO включает 720 позиций), и лишь на этапах специальной подготовки и анализа данных осуществлять необходимые группировки.

-Современная методология рекомендует дифференцированный подход к кодированию пропущенных значений. Основные причины отсутствия ответов можно упорядочить по степени "легитимности":

- вопрос не относится к респонденту (например, к безработному не относится вопрос о занимаемой должности);

- респондент не знает ответа на вопрос (например, не знает политического деятеля и поэтому не может оценить его программу);

- у респондента нет сложившегося мнения по заданному вопросу (знает, но никогда об этом не думал);

- респондент знает ответ, но отказывается отвечать на вопрос;

- ответа нет по неизвестной причине.

Пропуски, причины которых известны, при необходимости могут быть включены в анализ, содержательно проинтерпретированы или даже "восстановлены" с помощью специальных процедур. Для них рекомендуется использовать отдельные коды, которые не встречаются в анкете: отрицательные числа или, наоборот, числг". 999, 998 и т.п. Наиболее полную информацию о причинах отсутствия ответов удается получить при контактных методах сбора информации, но и в обычной анкете можно предусмотреть более точный инструмент их фиксации, чем "затрудняюсь ответить" в каждом вопросе.

Проверка Правильности заполнения инструментария проводится в соответствии со специальной инструкцией, в которой оговариваются вопросы, относящиеся не

ко всем респондентам, и недопустимые сочетания ответов (например, высшее образование и' утверждение, что после окончания школы респондент никогда больше не учился). Особое внимание уделяется полноте заполнения анкеты. Если в анкете много "нелегитимных" пропусков или найденные ошибки не удается исправить логически, следует обратиться к интервьюеру или самому респонденту за уточнениями.

В относительно простых случаях кодирование иногда совмещают с заполнением или проверкой инструментария; однако в исследованиях сложных и ответственных рекомендуется, чтобы все три этапа осуществлялись разными исполнителями.

В организации ввода данных в компьютер за последние годы также произошли значительные изменения. Раньше инструментарий, предназначенный для компьютерной обработки, представлял собой своеобразный макет ввода данных, в котором скрупулезно указывались номера перфокарт и позиций для каждого вопроса. Современные статистические пакеты позволяют создавать макеты ввода данных непосредственно в компьютере, не загромождая инструментарий избыточной информацией, например, макет ввода для пакета SPSS, кроме формата переменных, может предусматривать проверку данных на допустимые значения и логическую совместимость, автоматический пропуск вопросов, не относящихся к респонденту. Это позволяет значительно снизить количество ошибок ввода.

Соответствие между переменными макета и вопросами инструментария удобно задавать именами переменных, в которые встраиваются номера вопросов: Xi, X2 и т.п. Вопросы в инструментарии нумеруются произвольно, например, последовательно или блоками, с нумерацией пунктов внутри блока. В последнем случае вопросам, относящимся к первому блоку, могут соответствовать имена переменных: Уц или Vj2 и т.п.

При работе с распечатками удобно, чтобы в них автоматически включались не только имена переменных, но также текст вопросов и ответов на них. В SPSS для этого служат метки переменных и значений.

Проверка данных на допустимые значения и логическую совместимость может осуществляться одновременно со вводом или после его завершения. В первом случае обнаруженные ошибки исправляются немедленно, во втором - исправление ошибок выделяют в отдельный этап, который называется чисткой данных.

Специальная подготовка данных представляет собой преобразование их к виду, удобному для обработки и анализа. При заполнении инструментария данные фиксируют в форме, обеспечивающей максимальную полноту и точность информации, которая может показаться избыточной. На этапе подготовки окончательно формируют измерительные шкалы, вычисляют вторичные переменные - индексы, осуществляют всевозможные группировки данных. Все это делается с помощью команд языка управления пакетом. Такой подход существенно расширяет возможности анализа, так как позволяет на основе одного исходного набора данных опробовать различные шкалы и группировки.

После того как данные приведены к виду, удобному для исследователя, можно приступать к их обработке и анализу.

Статистическая обработка данных обычно начинается с вычисления основных характеристик распределения изучаемых показателей. Прежде всего, это одномерные частотные распределения.

Для номинальных порядковых и дискретных количественных признаков они показывают распространенность объектов с различными значениями; для непрерывных количественных признаков, которые должны быть предварительно сгруппированы в интервалы, - число или долю объектов, попавших в каждый интервал. Частотные распределения могут быть представлены визуально в виде всевозможных графиков и диаграмм (Рис. 10).

Для количественных признаков вычисляют характеристики распределения, называемые описательными статистиками, - минимальное, максимальное, среднее арифметическое значения, дисперсию, границы процен-тилей (интервалов, содержащих определенное число наблюдений), коэффициент асимметрии и другие. Эти величины позволяют описать распределение более сжато.

Рис. 10. Распределение населения г. Минска по возрасту.,

При необходимости сопоставить распределение признака для разных групп респондентов. Одномерные распределения по каждой группе (которые в этом случае удобнее представлять в относительных частотах - долях или процентах) могут быть сведены в одну компактную таблицу (Рис. 11).

Считаете ли Вы себя верующим? Пол

мужской женский

Нет 36.7% 15.7%

Отчасти 34.7% 54.1 %

Да 28.6 % 30.2%

Всего 100.0 % 100.0 %

Рис. 11. Распределение ответов студентов мужского и женского пола на вопрос об отношении к вере.

Такие таблицы не следует путать с таблицами сопряженности, которые предназначены для исследования связи между признаками, и представляют их совместное распределение (Рис. 12).

Образование родителей Образование детей Всего

ПТУ общее среднее среднее спец. высшее

Неполное Среднее 127 23.5 31.2 153 28.3 92 17.0 540 100.0

Общее Среднее 36 14.2 76 29.9 71 28.0 71 28.0 254 100.0

Среднее Спец. 25 8.5 62 21.1 84 28.6 123 41.8 294 100.0

Высшее 5 3.0 23 13.8 24 14.5 114 68.7 166 100.0

Всего 193 15.4 329 26.2 332 26.5 400 31.9 1254 100.0

Рис. 12. Распределение респондентов лонгитюдного проекта "Пути поколения" и их родителей по уровню образования.

Проверка гипотезы о статистической связи между признаками, представленными в таблице сопряженности, чаще всего осуществляется по критерию "хи-квадрат"; для измерения тесноты связи применяются различные коэффициенты, выбор которых зависит от характера таблицы.

Наиболее простые двумерные таблицы сопряженности очень популярны среди социологов благодаря своей простоте, наглядности и универсальности. Это единственный метод анализа связей, который может применяться при любых уровнях измерения признаков.

Для изучения линейных парных связей между количественными показателями используется корреляционный анализ. Линейность связи означает, что значения одного признака изменяются (уменьшаются или увеличиваются) в среднем пропорционально увеличению значений другого, при этом корреляция двух переменных не предполагает объяснения изменений одной переменной изменениями другой, т.е. причинно-следственного характера связи между ними. Чаще всего корреляция является следствием воздействия каких-то более глубоких (и не всегда наблюдаемых) причин на оба показателя.

В тех случаях, когда связь между переменными имеет нелинейный характер, а также для порядковых переменных, применяются коэффициенты ранговой корреляции.

Для описания структуры связей в некоторой системе показателей применяется матрица корреляций - квадратная таблица, в каждой клетке которой помещают ко эффициент корреляции для пары переменных (Рис. 13,). Изучая ее, можно выделить блоки показателей, более тесно связанных друг с другом, чем с другими показателями этой же системы.

Рис. 13. Матрица корреляций (данные республиканского лонгитюдного проекта "Пути поколения").

Y - оценка удачности жизни в целом;

X1 - возможность иметь интересную работу;

Х2 - возможность приобретать ценные вещи;

Х3 - возможность жить по своему усмотрению;

Х4 - возможность хорошо питаться;

Х5 - возможность покупать модную одежду;

Хб - возможность продвигаться.

Для того, чтобы проанализировать матрицу корреляций более строго, используют разведочный (эксплора-торный) факторный или кластерный анализ. Выделенные блоки переменных в дальнейшем часто используют для построения интегральных показателей - индексов. В этом случае говорят о снижении размерности пространства признаков.

Кластерный анализ применяется также для описания структуры объектов, составляющих выборку.

Необходимо помнить, что все результаты, полученные с помощью статистической обработки, относятся только к выборке. Для того, чтобы обобщить их на гене-

ральную совокупность, необходимо обосновать репрезентативность выборки.

Статистический анализ социологических данных обычно применяется к исследованию причинных связей между изучаемыми показателями или, точнее, к проверке гипотез о наличии и характере таких связей.

Для того, чтобы связь могла рассматриваться как причинная, необходимо (но не достаточно), чтобы выполнялись три принципа причинности (каузальности): 1) причины (предикторы) должны во времени предшествовать следствию и с очевидностью порождать (инициировать) его наступление; 2) причины и следствие должны коррелировать друг с другом; 3) взаимосвязь причин и следствия должна быть изолирована от влияния третьих факторов, неучтенных в причинной модели, но способных породить корреляцию между ними.

Популярным примером нарушения третьего принципа причинности является зависимость ущерба, нанесенного пожаром, от числа тушивших его пожарных. В этом примере как будто выполняются два первых принципа: ущерб действительно коррелирует с числом занятых пожарных, и тушение пожара предшествует подсчету ущерба. Однако обнаруженная связь является артефактом, который можно объяснить, например, зависимостью обоих показателей от третьего - масштаба пожара.

При решении практических задач легче всего проверяется второй принцип - коррелированности показателей.

Выполнение первого принципа в рамках одномоментного социологического исследования проверить довольно сложно. Поэтому наиболее популярными предикторами являются атрибутивные и статусные переменные, не нуждающиеся в такой проверке, - пол, раса, язык, общеобразовательный и должностной статус, тип населенного пункта и т.п. С целью обеспечить временной "зазор" между измерением причины и следствия, иногда прибегают к ретроспективному исследованию жизненного пути - трудовой биографии, образовательного пути, истории семьи, - в котором можно зафиксировать последовательность событий в жизни человека. Особую ценность

для изучения причинных связей представляют панельные и лонгитюдные исследования, которые позволяют в качестве предикторов использовать любые переменные, измеренные на предыдущих этапах, например, влияние ценностных ориентации при окончании школы на последующую профессиональную карьеру.

Наиболее сложной задачей является обеспечение третьего принципа каузальности - изолированности изучаемой связи от влияния посторонних факторов* Для ее решения классическая статистика требовала, чтобы гипотезы о причинных связях проверялись только на данных, полученных в результате тщательно спланированного эксперимента, в котором изолированность достигалась за счет строгого соблюдения правил формирования групп.

В последние два десятилетия особое внимание уделяется методологии исследования причинных связей на данных описательных исследований, к которым относится и большинство социологических. В рамках этого подхода изолированность связи достигается за счет глубокой теоретической проработки системы гипотез, обеспечивающей возможно полный набор предикторов. В некоторых случаях контроль "внешних" факторов осуществляется через фиксацию определенных параметров выборки.

Выбор модели, адекватной проверяемой гипотезе и характеру имеющихся данных, является одним из критических моментов исследования. Традиционно он определяется уровнем измерения анализируемых показателей. Для количественных зависимых переменных обычно используется регрессионный (если независимые переменные также являются количественными) или дисперсионный (если предикторы измерены по номинальным или порядковым шкалам) анализ. К качественным- (номинальным и порядковым) зависимым переменным в аналогичных ситуациях применяется дискриминантный или кластерный анализ с обучением.

Этот подход по-прежнему широко используется, однако развитие современных методов статистического анализа постепенно стирает его жесткие ограничения. Появление множественного классификационного анализа и метода индикаторных переменных позволило использовать

в любых моделях как количественные, так и качественные предикторы. Это произвело настоящую революцию в анализе данных и привело к широкому распространению регрессионных и регрессионноподобных моделей.

Современные регрессионные техники обладают большой гибкостью и дают возможность использовать в моделях как количественные, так и качественные зависимые и независимые переменные. Структура связей между предикторами может быть учтена в моделях путевого анализа. Наиболее общим является метод линейно-структурных уравнений, позволяющий строить сложные модели с большим числом взаимодействующих между собой зависимых и независимых переменных, среди которых могут быть не только наблюдаемые, но и латентные признаки. Регрессивный, дисперсионный, путевой и конфир-маторный (подтверждающий) факторный анализ является его частным случаем.

Выбор методов обработки и анализа информации зависит от целей и задач исследования, а также от способов измерения используемых показателей. Как правило, при решении реальных задач не удается обойтись одним каким-либо методом, их применяют комплексно - последовательно на разных стадиях решения задачи или параллельно на одной и той же стадии для более глубокого анализа материала.

⇐ Предыдущая 19 20 21 22 23 24 25 262728 Следующая ⇒
Поделиться:

Воспользуйтесь поиском по сайту: