Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Вывод по гипотезе и интерпретация результатов




Последний шаг – сделать вывод о гипотезе и провести интерпретацию результатов с точки зрения социологии. Наша гипотеза H1 (о наличии взаимосвязи) может либо подтвердиться, либо быть опровергнутой (с определенной вероятностью ошибки) и тогда будет иметь смысл принять гипотезу H0 (об отсутствии связи). Данный вывод мы сделаем на основании проверки статистической значимости различий. Так же (если это подразумевалось гипотезой) надо проверить соответствие гипотетической и эмпирической силы и направленности связи при помощи коэффициента корреляции.

Теперь надо вспомнить, что статистическая и социальная взаимосвязь – разные вещи. Статистическая взаимосвязь определяется по имеющимся данным, а социальная взаимосвязь носит объективный характер. Таким образом, нам надо объяснить вывод о проверке гипотезы с точки зрения социологических знаний, с точки зрения логики причинно-следственных отношений. При этом необходимо учитывать, что статистический вывод может так же объясняться недостаточностью или ненадежностью данных.

 

методы многомерного анализа данных

Детерминационный анализ (ДА). Основная идея ДА – это идея правила, которое можно найти по частотам совпадений или несовпадений событий. Такое правило называется "детерминацией", а математическая теория таких правил – носит название «детерминационный анализ» или ДА.

Люди находят правила (детерминации), наблюдая совпадения либо несовпадения событий. Например, если замечено, что появление A всегда сопровождается появлением B, значит, есть правило "Если A, то B", или, короче, A à B. Если A изобразить в виде одного кружка, а B – в виде другого, то кружок A полностью входит в кружок B, как показано на рисунке 6. Это и означает, что имеет место точное правило A à B:

 

Рис. 6. Случай, когда имеется точное правило A à B. Кружок A (красный) полностью входит в кружок B. Обрамляющий прямоугольник символизирует весь массив наблюдений.

 

Идея правила как детерминации тесно связана с идеей предсказания, объяснения. Знание правил позволяет успешно действовать, предвидя результат. В этом причина интереса к правилам. Пример правила, которое может заинтересовать специалиста по предвыборным технологиям: "Если кандидат сделает в таких-то условиях такое-то заявление, его рейтинг в таких-то группах повысится, а в таких-то – станет ниже". Правила – это самая естественная форма знаний, поэтому они нужны всем.

Любое правило имеет две фундаментальные характеристики – точность и полноту. Точность правила A à B это, по определению, доля случаев B среди случаев A. На рисунке 1 эта доля равна 1 (100%), что и означает, что правило A à B предельно точное. Помимо точности есть еще одна фундаментальная характеристика – полнота. Из рисунка 1 видно, что с помощью правила A à B можно предсказать лишь примерно одну четверть всех случаев появления B. Чтобы применить правило A à B, нужно сначала обнаружить A, и только после этого можно предсказать наличие B. А площадь кружка A составляет примерно одну четверть от площади кружка B. Правило AàB точное, но не полное, его полнота равна примерно одной четверти (25%).

В общем случае полнота правила AàB есть, по определению, доля случаев A среди случаев B. Полнота правила AàB равна точности обратного правила BàA, а точность правила AàB равна полноте обратного правила. При перемене направления стрелки в любом правиле точность и полнота меняются местами.

Неточное правило можно сделать точным. Точных правил не так много. Большинство правил – неточные. Если правило Aà B неточное, кружок A не полностью входит в кружок B, как показано на рисунке 7.

Рис. 7. Случай, когда имеется неточное правило A à B. Только часть кружка A (окрашена красным) входит в кружок B.

 

Если в неточное правило AàB добавить некоторый фактор C, может случиться, что правило ACàB, которое получится в результате, будет точным. Пример такой ситуации показан на рисунке 8.

 

Рис. 8. В неточное правило Aà B добавлен фактор C. В результате получилось точное правило AC à B. Все случаи, когда имеется сочетание A и C (окрашены красным) оказались внутри кружка B.

 

Конечно, может случиться, что точность правила ACàB будет еще менее точным, чем первоначальное правило AàB. На рисунке 9 правило AC à B имеет точность, равную нулю.

Рис. 9. В неточное правило A à B добавлен фактор C.

В результате получилось правило AC à B, которое имеет точность, равную нулю. Все случаи, когда имеется сочетание A и C (окрашены серым) оказались вне кружка B.

 

Для обозначения того объекта, который является носителем локальной связи, вводится понятие детерминации, обозначаемой аàb. Детерминация определяется как носитель локальной связи или как нечто, задаваемое двумя величинами:

точностью I (а→b) = Р(b/а) и

полнотой С (а→b) = Р (а /b) (справа стоят относительные частоты).

Факторный анализ

Одна из важных задач статистики – сделать эмпирическую информацию компактной, удобной для анализа. Одним из направлений конденсации информации является факторный анализ признаков.

Основная идея факторного анализа состоит в следующем. Индивиды обладают самыми разнообразными признаками, которые не являются независимыми. Связи между ними изучаются с помощью методов корреляционного анализа. Можно предположить, что некоторые признаки образуют группы, каждая из которых отражает определенный аспект сложного явления. При анализе системы признаков мы сталкиваемся с классификацией признаков, т. е. с выявлением групп признаков, имеющих сходный характер изменения при переходе от одного объекта к другому. В частности, ставится задача найти максимально взаимосвязанные группы признаков. Выделяемые группы – это новые, комплексные переменные, называемые факторами.

Обоснованная замена большого числа признаков, описывающих объекты наблюдения, меньшим числом комплексных характеристик (факторов) составляет сущность факторного анализа.

Подчеркнем, что факторы не сводятся к некоторым, пусть главным, основным признакам исходного набора. Каждый фактор – это группа взаимосвязанных признаков из упомянутого набора, и вся совокупность входящих в него признаков определяет содержательную интерпретацию этого фактора.

Факторный анализ позволяет не только выделить группы наиболее взаимосвязанных признаков, но и отделить несущественные признаки от существенных, оценить их информативность.

В ходе факторного анализа выделяется латентная переменная-фактор, с которой коррелируют первичные переменные. Эти корреляции называются факторными нагрузками. Кроме того, рассматривают корреляцию факторов между собой.

Кластерный анализ

Еще одним направлением конденсации информации является классификация объектов. В качестве синонимов для обозначения этой группы методов используют такие термины как «кластерный анализ», «таксономия», «автоклассификация» или (более широко) говорят об использовании методов «распознавания образов». Пусть, матрица данных включает характеристики N объектов по двум количественным признакам (например, стаж работы и зарплата). Откладывая признаки по осям координат, мы можем изобразить все объекты на плоскости в виде N точек: абсцисса – значение стажа, ордината – значение зарплаты данного объекта. В этом случае говорят, что N объектов расположены в двухмерном признаковом пространстве; (по сути, это один из способов изображения двухмерного распределения признаков). Как видно из рис.10, все объекты можно разбить на три группы таким образом, что объекты внутри групп близки между собой (это означает, что они имеют близкие характеристики и по X и по Y), а объекты из разных групп – далеки.

Рис. 10.Изображение объектов в пространстве двух признаков

Множество близких между собой точек называется кластером и при интерпретации результатов рассматривается как некоторый социальный тип. Если имеется k признаков, то говорят, что объекты расположены в k-мерном признаковом пространстве. Если признаков более чем два, то точки уже невозможно изобразить на плоскости. В этом случае группировку можно осуществить с помощью формальных методов.

Результатом работы алгоритмов обычно является разбиение множества объектов на группы в пространстве признаков, заданных исследователем, а также расчет некоторых обобщенных характеристик каждого из кластеров (центр кластера, средние, меры вариации). Существуют алгоритмы, позволяющие проводить классификацию не только в пространстве признаков, измеренных с помощью метрических шкал, но и для шкал номинальных и порядковых.

Процедуры кластерного анализа распределяются по следующим направлениям.

1. Иерархические классификации, в результате которых получают схему взаимосвязи объектов или признаков в форме дендрограммы.

2. Структурные классификации предполагают предварительное определение центров сгущений объектов в пространстве. По мере присоединения к каждому центру конкретных наблюдений характеристик центров кластеров и их количество уточняется.

Регрессионный анализ

Регрессионный анализ устанавливает формы зависимости между случайной величиной У (зависимой) и значениями одной или нескольких переменных величин (независимых), причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. В ходе регрессионного анализа на основании выборочных данных находят оценки этих параметров, определяются статистические ошибки оценок или границы доверительных интервалов и проверяется соответствие (адекватность) принятой математической модели экспериментальным данным.

Регрессионный анализ всегда проводится после корреляционного анализа, когда между переменными установлена взаимосвязь. Регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, Y на основании X), или показывает, как можно управлять одной переменной с помощью другой.

Моделью является уравнение регрессии. В случае определения формы взаимосвязи двух признаков в регрессионном анализе изменение зависимой переменной Y зависит от изменения независимой переменной Х. При этом вопрос, какую именно переменную считать за Х, а какую принимать за Y – решает исследователь, исходя из логики изучаемого процесса. В этом принципиальное отличие корреляционного и регрессионного анализов. Важность регрессионного анализа в том, что на основе регрессионных моделей разрабатываются прогнозы развития зависимой переменной Y от изменений независимой (нескольких независимых) переменной Х. Если модель построена на основании нескольких переменных Х, то регрессия называется множественной.

Определение формы зависимости между переменными X и Y является одной из главных задач регрессионного анализа. Для этого необходимо построить уравнение регрессионной связи между Y и X (уравнение регрессии) следующего вида:

Y = f (x) + e,

в котором f (x) называется функцией регрессии, а e – величина, учитывающая случайные воздействия. Для выборочных данных уравнение регрессионной связи удобно представить следующим образом:

При наличии случайной составляющей e i значения yi имеют определенный разброс. Поэтому нет смысла подбирать функцию регрессии, проходящую через все точки. Основное правило подбора вида функции регрессии заключается в том, чтобы все точки диаграммы рассеяния были сконцентрированы около графика этой функции.

На практике, поскольку мы располагаем выборочными данными, невозможно точно построить функцию регрессии, можно только получить ее оценку, которую обозначим как . Уравнение, включающее оценку для функции регрессии, называется выборочным уравнением регрессии и имеет вид: . Построив «выборочную» функцию регрессии далее необходимо проверить достоверность функции и ее параметров, а также провести оценку неизвестных значений (прогноз) зависимой переменной Y.

Простейшей, с точки зрения анализа, является линейная взаимосвязь между X и Y, которая выражается в том, что точки на диаграмме рассеяния случайным образом группируются вдоль прямой линии, имеющей наклон (вверх или вниз). Регрессионная линейная модель задается уравнением Y= a + b *X, при этом переменная Y выражается через константу (a) и коэффициент (b), умноженный на переменную X. Константу называют также свободным членом а, а угловой коэффициент – регрессионным или b -коэффициентом. В уравнении регрессии оба коэффициенты должны быть значимы, как и вся модель.

В случае рассмотрения зависимости между одной зависимой переменной У и несколькими независимыми Х1, X2,..., Хn, говорят о множественной регрессии. В этом случае регрессионное линейное уравнение имеет вид:

У = а + b1Х1 + b2Х2 +... + bnХn,

где b1, b2,..., bn – требующие определения коэффициенты при независимых переменных Х1, Х2,..., Хn;

а – свободный член (константа).

 

Линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым переменным (X). Однако, природа редко (если вообще когда-нибудь) бывает полностью предсказуемой и обычно имеется существенный разброс наблюдаемых точек относительно подогнанной прямой. Отклонение отдельной точки от линии регрессии (от предсказанного значения) называется остатком.

Мерой эффективности регрессионной модели является коэффициент детерминации R2 (R-квадрат). Коэффициент детерминации (R-квадрат) определяет, с какой степенью точности полученное регрессионное уравнение описывает (аппроксимирует) исходные данные.

Исследуется также значимость регрессионной модели с помощью F-критерия (Фишера). Если величина F-критерия значима (р < 0,05), то регрессионная модель является значимой.

Достоверность отличия коэффициентов b1, b2, b3..., bn от нуля проверяется с помощью критерия Стьюдента. В случаях, когда р > 0,05, коэффициент может считаться нулевым, а это означает, что влияние соответствующей независимой переменной на зависимую переменную недостоверно, и эта независимая переменная может быть исключена из уравнения.

Данный метод анализа был создан для анализа количественных данных. Использовать регрессионную технику для анализа номинальной шкалы бессмысленно. Для того чтобы на основе информации, полученной по номинальной шкале, можно было построить уравнение регрессии, эту информацию необходимо преобразовать. Соответствующее преобразование носит название дихотомизации номинальных данных. Этот подход применяется очень широко, поскольку его использование как бы “открывает дверь” для применения подавляющего большинства “количественных” методов с целью анализа номинальных данных. Для этого вместо каждого номинального признака, принимающего к значений, вводим k новых дихотомических (т.е. принимающих два значения, будем обозначать эти значения 0 и 1). Применение регрессионной техники к преобразованным номинальным данным называется номинальным регрессионным анализом.

 

введение в Интеллектуальный анализ данных (Data Mining)

Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации).

Технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро (Gregory Piatetsky-Shapiro) - один из основателей этого направления: Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, ранее неизвестных, объективных и полезных на практике закономерностей, доступных для интерпретации.

Неочевидных и нетривиальных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.

Ранее неизвестные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);

Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда

является субъективным.

Практически полезных - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение.

Доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.

Инструменты Data Mining могут находить такие закономерности самостоятельно и также самостоятельно строить гипотезы о взаимосвязях. Поскольку именно формулировка гипотезы относительно зависимостей является самой сложной задачей, преимущество Data Mining по сравнению с другими методами анализа является очевидным. Большинство статистических методов для выявления взаимосвязей в данных используют концепцию усреднения по выборке, приводящую к операциям над несуществующими величинами, тогда как Data Mining оперирует реальными значениями. OLAP больше подходит для понимания ретроспективных данных, Data Mining опирается на ретроспективные данные для получения ответов на вопросы о будущем.

Эти требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта (последние более подробно будут рассмотрены в модуле 3).

Основная особенность Data Mining - это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий. В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализ данных.

К методам и алгоритмам Data Mining относятся следующие: искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ; иерархические методы кластерного анализа, неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы; методы поиска ассоциативных правил, в том числе алгоритм Apriori; метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов.

Большинство аналитических методов, используемые в технологии Data Mining - это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств. Следует отметить, что большинство методов Data Mining были разработаны в рамках теории искусственного интеллекта.

Рассмотрим задачи интеллектуального анализа. К основным задачам относятся: задачи классификации, кластеризации, поиска последовательности, регрессия и прогнозирование.

Классификация (Classification). Задача разбиения множества объектов или наблюдений на априорно заданные группы, называемые классами, внутри каждой из которых они предполагаются похожими друг на друга, имеющими примерно одинаковые свойства и признаки. При этом решение получается на основе анализа значений атрибутов (признаков).

Классификация является одной из важнейших задач DataMining. Она применяется в маркетинге при оценке кредитоспособности заемщиков, определении лояльности клиентов, распознавании образов, медицинской диагностике и многих других приложениях. Если аналитику известны свойства объектов каждого класса, то, когда новое наблюдение относится к определенному классу, данные свойства автоматически распространяются и на него.

Если число классов ограничено двумя, то имеет место бинарная классификация, к которой могут быть сведены многие более сложные задачи. Например, вместо определения таких степеней кредитного риска, как «Высокий», «Средний» или «Низкий», можно использовать всего две - «Выдать» или «Отказать».

Для классификации в DataMining используется множество различных моделей: нейронные сети, деревья решений, машины опорных векторов, метод k-ближайших соседей, алгоритмы покрытия и др., при построении которых применяется обучение с учителем, когда выходная переменная (метка класса) задана для каждого наблюдения. Формально классификация производится на основе разбиения пространства признаков на области, в пределах каждой из которых многомерные векторы рассматриваются как идентичные. Иными словами, если объект попал в область пространства, ассоциированную с определенным классом, он к нему и относится.

Кластеризация (Clustering). Кластеризация является логическим продолжением идеи классификации. Это задача более сложная, особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы.

Пример метода решения задачи кластеризации: обучение "без учителя" особого вида нейронных сетей - самоорганизующихся карт Кохонена.

Ассоциация (Associations). В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных.

Отличие ассоциации от двух предыдущих задач DataMining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Наиболее известный алгоритм решения задачи поиска ассоциативных правил – алгоритм Apriori.

Последовательность (Sequence) или последовательная ассоциация (sequential association). Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени (т.е. происходящими с некоторым определенным интервалом во времени). Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени событий. Фактически, ассоциация является частным случаем последовательности с временным лагом, равным нулю. Эту задачу DataMining также называют задачей нахождения последовательных шаблонов (sequential pattern).

Правило последовательности: после события X через определенное время произойдет событие Y.

Пример. После покупки квартиры жильцы в 60% случаев в течение двух недель приобретают холодильник, а в течение двух месяцев в 50% случаев приобретается телевизор. Решение данной задачи широко применяется в маркетинге и менеджменте, например, при управлении циклом работы с клиентом (Customer Lifecycle Management).

Регрессия, прогнозирование (Forecasting). В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей.

Для решения таких задач широко применяются методы математической статистики, нейронные сети и др.

Дополнительные задачи

Определение отклонений или выбросов (Deviation Detection), анализ отклонений или выбросов - обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.

Оценивание (Estimation) - з адача оценивания сводится к предсказанию непрерывных значений признака.

Анализ связей (LinkAnalysis) - з адача нахождения зависимостей в наборе данных.

Визуализация (Visualization, Graph Mining). В результате визуализации создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных.

Пример методов визуализации - представление данных в 2-D и 3-D измерениях.

Подведение итогов (Summarization) - з адача, цель которой - описание конкретных групп объектов из анализируемого набора данных.

Этапы интеллектуального анализа данных обычно включают следующие стадии.

Стадия 1. Выявление закономерностей (свободный поиск).

Свободный поиск представлен такими действиями:

· выявление закономерностей условной логики (conditional logic);

· выявление закономерностей ассоциативной логики (associations and affinities);

· выявление трендов и колебаний (trends and variations).

Описанные действия, в рамках стадии свободного поиска, выполняются при помощи:

· индукции правил условной логики (задачи классификации и кластеризации, описание в компактной форме близких или схожих групп объектов);

· индукции правил ассоциативной логики (задачи ассоциации и последовательности и извлекаемая при их помощи информация);

· определения трендов и колебаний (исходный этап задачи прогнозирования).

В дополнение к этим стадиям иногда вводят стадию валидации [10], следующую за стадией свободного поиска. Цель валидации - проверка достоверности найденных закономерностей. Однако, мы будем считать валидацию частью первой стадии, поскольку в реализации многих методов, в частности, нейронных сетей и деревьев решений, предусмотрено деление общего множества данных на обучающее и проверочное, и последнее позволяет проверять достоверность полученных результатов.

Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование).

Стадия 3. Анализ исключений - стадия предназначена для выявления и объяснения аномалий, найденных в закономерностях.

Действие, выполняемое на этой стадии, - выявление отклонений (deviation detection). Для выявления отклонений необходимо определить норму, которая рассчитывается на стадии свободного поиска.

Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий достаточного размера базы данных.


Список литературы

1. Горяинова, Е. Р. Прикладные методы анализа статистических данных [Электронный ресурс] / Е.Р. Горяинова, А. Р. Панков, Е. Н.. Платонов.— М.: Изд. дом Высшей школы экономики, 2012 г. — 310 с. — Режим доступа: http://ibooks.ru/reading.php?productid=29655 — УМО. — ISBN 978-5-7598-0866-4. — УМО. — ISBN 978-5-7598-0866-4 2. Девятко И.Ф. Методы социологического исследования: учеб. пособие для вузов / И.Ф. Девятко. – 4-е изд. – М.: Университет, 2006. – 295 с. 3. Колчинская В.Ю. Анализ данных в социологии: учеб. пособие / В.Ю. Колчинская. – Изд-во ЮУрГУ, 2006. – 84 с.4. Курзаева Л.В. Введение в теорию систем и системный анализ: учеб. пособие/Л.В. Курзаева. - Магнитогорск: МаГУ, 2013. -211 с.5. Курзаева Л.В. К вопросу о совершенствовании методики оценки эффективности решения задач управления качеством образования на основе экспертной информации / Л.В. Курзаева, И.Г. Овчинникова, С.А. Чичиланова // Фундаментальные исследования. - 2015. - № 6-3. - С. 473-478.6. Курзаева Л.В. Электронные таблицы социологу: основы представления и обработки, анализа данных: учеб. пособие / Л.В. Курзаева, Т.В. Ильина. − Магнитогорск: МаГУ, 2012. – 104 с.7. Курзаева, Л.В. Введение в анализ данных с использованием информационных технологий: учеб.-метод. пособие/Л.В. Курзаева, И.Г. Овчинникова. -Магнитогорск: МаГУ, 2012. -60 с. 8. Курзаева Л.В. Дистанционный курс «Основы математической обработки информации»: электронный учебно-методический комплекс//Хроники объединенного фонда электронных ресурсов «Наука и образование». -2014. -Т. 1, № 12 (67). -С. 117. 9. Овчинникова И.Г. Исследование уровней формирования результатов обучения в системе профессионального образования Челябинской области вуза/И.Г. Овчинникова, Л.В. Курзаева//Спрос и предложение на рынке труда и рынке образовательных услуг в регионах России: сб. докладов по материалам Девятой Всероссийской научно-практической Интернет-конференции (31 октября-1 ноября 2012 г.). -Кн. III. -Петрозаводск: ПетрГУ, 2012. -С. 228-237. 10. Толстова Ю.Н. Математико-статистические модели в социологии / Ю.Н. Толстова. – Сер.: Учеб. Высшей школы экономики. – М.: ГУ ВШЭ, 2008. – 244 c.11. Толстова Ю.Н. Социология и математика / Ю.Н. Толстова. – М.: Научный мир, 2003. – 323 с.12. Толстова Ю.Н. Анализ социологических данных / Ю.Н. Толстова. – М.: Научный мир, 2000. – 352 с.
Приложение

Критические значения для χ2 распределения [1]

Различия между двумя распределениями могут считаться достоверными, если χ2эмп достигает или превышает χ20,05.

df Уровень значимости p df Уровень значимости p df Уровень значимости p
  0,05 0,01   0,05 0,01   0,05 0.01
  3,841 6,635   44,985 52,191   80,232 89,591
  5,991 9,210   46,194 53,486   81,381 90,802
  7,815 11,345   47,400 54,776   82,529 92,010
  9,488 13,277   48,602 56,061   83,675 93,217
  11,070 15,086   49,802 57,342   84,821 94,422
  12,592 16,812   50,998 58,619   85,965 95,626
  14,067 18,475   52,192 59,892   87,108 96,828
  15,507 20,090   53,384 61,162   88,250 98,028
  16,919 21,666   54,572 62,428   89,391 99,227
  18,307 23,209   55,758 63,691   90,631 100,425
  19,675 24,725   56,942 64,950   91,670 101,621
  21,026 26,217   58,124 66,206   92,808 102,816
  22,362 27,688   59,304 67,459   92,945 104,010
  23,685 29,141   60,481 68,709   95,081 105,202
  24,996 30,578   61,656 69,957   96,217 106,393
  26,296 32,000   62,830 71,201   97,351 107,582
  27,587 33,409   64,001 72,443   98,484 108,771
  28,869 34,805   65,171 73,683   99,617 109,958
  30,144 36,191   66,339 74,919   100,749 111,144
  31,410 37,566   67,505 76,154   101,879 112,329
  32,671 38,932   68,669 77,386   103,010 113,512
  33,924 40,289   69,832 78,616   104,139 114,695
  35,172 41,638   70,993 79,843   105,267 115,876
  36,415 42,980   72,153 81,069   106,395 117,057
  37,652 44,314   73,311 82,992   107,522 118,236
  38,885 45,642   74,468 83,513   108,648 119,414
  40,113 46,963   75,624 84,733   109,773 120,591
  41,337 48,278   76,778 85,950   110,898 121,767
  42,557 49,588   77,931 87,166   112,022 122,942
  43,773 50,892   79,082 88,379   113,145 124,116

Таблица значений критических точек стандартного нормального распределения для различных уровней значимости [2]

Вероятность ошибки α 0,01 0,025 0,05 0,10 0,20 0,30
Z критическое 2,3263 1,9600 1,6449 1,2816 0,8416 0,5255

Критические значения коэффициента ранговой корреляции Спирмена [3]

Количество пар рангов Вероятность ошибки Количество пар рангов Вероятность ошибки
0,05 0,01 0,001 0,05 0,01 0,001
  0,829 1,000   0,398 0,510 0,618
  0,745 0,893 1,000   0,362 0,466 0 570
  0,691 0,857 0,952   0,333 0,429 0,534
  0,683 0,817 0,917   0,311 0,402 0,501
  0,636 0,782 0,891   0,294 0,380 0,475
  0,618 0,754 0,867   0,279 0,361 0,450
  0,580 0,727 0,823   0,254 0,330 0,415
  0,555 0,698 0,801   0,235 0,306 0,385
  0,534 0,675 0,793   0,220 0,286 0,361
  0,518 0,654 0,760   0,207 0,270 0,341
  0,500 0,632 0,741   0,196 0,257 0,324
  0,485 0,615 0,724   0,160 0,209 0,265
  0,472 0,598 0,709   0,139 0,182 0,231
  0,458 0,583 0,694   0,087 0,115 0,148
  0,445 0,568 0,679   0,062 0,081 0,104

Таблица значений функции Лапласа при разных значениях t [4]

Φ 0,68269 0,95000 0,95450 0,99730
t   1,96    

Критические значения для t- распределения Стьюдента [5]

Объем совокупности Вероятность ошибки
0,20 0,10 0,05 0,02 0,01
  1,310 1,697 2,042 2,457 2,750
1,282 1,645 1,960 2,326 2,576

 


[1] По: Сидоренко, Е.В. Методы математической обработки в психологии. – СПб.: Социально-психологический центр, 1996. – 350 с.

[2] По: Рабочая книга социолога. – М.: Едиториал УРСС, 2003. – С. 451.

[3] По: Паниотто В.И., Максименко В.С. Количественные методы в социологических исследованиях. – Киев: Наукова думка, 1982. – С. 259.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...