гипотезы об отсутствии связи
Предположим, что мы имеем две номинальных переменных, отвечающую им частотную таблицу типа 7 и хотим на основе ее анализ а определить, имеется ли связь между переменными. Будем искать ответ на этот вопрос с помощью проверки статистической гипотезы о независимости признаков. Используя терминологию математической статистики, можно сказать, что речь пойдет о проверке нуль гипотезы Н 0: “связь между рассматриваемыми переменными отсутствует”.
Далеко не для каждой интересующей социолога гипотезы математическая статистика предоставляет возможность ее проверки, не для каждой гипотезы разработана соответствующая теория. Но если упомянутая возможность существует, что соответствующая логика рассуждений сводится к следующему.
Допустим, что для какой-то статистической гипотезы Н 0 разработана упомянутая теория и мы хотим эту гипотезу проверить. Математическая статистика предлагает некий критерий. Он представляет собой определенную числовую функцию f от наблюдаемых величин, например, рассчитанную на основе частот выборочной таблицы сопряженности: f =f (n ij). Представим теперь, что в нашем распоряжении имеется много выборок, для каждой из которых мы можем вычислить значение этой функции. Распределение таких значений в предположении, что проверяемая гипотеза справедлива (для генеральной совокупности), хорошо изучено, т.е. известно, какова вероятность попадания каждого значения в любой интервал. Грубо говоря, это означает, что, если Н 0 справедлива, то для каждого полученного для конкретной выборки значения f можно сказать, какова та вероятность, с которой мы могли на него “наткнуться”. Вычисляем значение f выб критерия f для нашей единственной выборки. Находим вероятность Р(f выб ) этого значения.
Далее вступает в силу своеобразный принцип невозможности маловероятных событий: мы полагаем, что если вероятность какого-либо события очень мала, то это событие практически не может произойти. И если мы все же такое маловероятное событие встретили, то делаем из этого вывод, что вероятность определялась нами неправильно, что в действительности встреченное событие не маловероятно.
Наше событие состоит в том, что критерий принял то или иное значение. Если вероятность этого события (т.е. Р(f выб )) очень мала, то, в соответствии с приведенными рассуждениями, мы полагаем, что неправильно ее определили. Встает вопрос о том, что привело нас к ошибке. Вспоминаем, что мы находили вероятность в предположении справедливости проверяемой гипотезы. Именно это предположение и заставило нас считать вероятность встреченного значения очень малой. Поскольку опыт дает основания полагать, что в действительности вероятность не столь мала, остается отвергнуть нашу Н 0.
Если же вероятность Р(f выб ) достаточно велика для того, чтобы значение f выб могло встретиться практически, то мы полагаем, что у нас нет оснований сомневаться в справедливости проверяемой гипотезы. Мы принимаем последнюю, считаем, что она справедлива для генеральной совокупности.
Таким образом, право именоваться критерием функция f обретает в силу того, что именно величина ее значения играет определяющую роль в выборе одной из двух альтернатив: принятия гипотезы Н 0 или отвержения ее.
28. шкалы высокого уровня
Метрическая шкала шкала с безусловно равными значениями интервала. Она имеет единицу измерения которая иереется расстоянием между позициями.
Примером явл данные по доходу, единицы измерения доллары или рубли.
Метрическая шкала практически не имеет ограничений в применении статистических процедур, поэтому является эффективной при анализе данных.однако метр шкалы имеют свои недостатки, например при описании и представлении результатов данных полученных с помощью метрической шкалы выглядят очень грамоздко.
Например если автор хочет представить данные которые показывают возраст респондента и отношение к реформам то таблица будет иметь много строк и поэтому она неудобно используется, поэтому из нее можно сделать порядковую шкалу.
14 распределение случайных величин
Наиболее распространенным явл-ся коэф-т Пирсена. Характеризует наличие только линейной связи между признаками. Формула построена таким образом: если связь между признаками имеет линейный характер – наз-ся коэф-т линейной зависимости.
Если не линейный характер, то Пирсен предложил для оценки линейной связи использовать корреляционные отношения.
Величина коэф-та корреляции варьируется от -1 до 1. Превышать эти значения коэф-т не может. Знак коэф-та показывает направление связи, т.е. прямая или обратная
r=(∑(x_i-x ̅)×(y_i-y ̅))/(√(∑((x_i-x ̅))2×) (y_i-y ̅)2)
yi – значение принимаемой выборки у
xi – значение принимаемой выборки х
Коэф-т пирсена можно использовать только при нормальном распределении. Значимость коэф-та также можно применять с помощью таблицы. Коэффициент Пирсена используется только при метрических шкалах, при линейных зависимостях.выдвигается 2 гипотезы: взаимосвязи нет и взаимосвязь есть. Существует таблица критических значений коэф-та корел-и пирсена, чтобы ей воспользоваться необходимо вычислить число степеней свободы К=n-2, n-кол-во респондентов
18. понятия зависимой и независимой переменной
Основной анализ связи между 2-мя переменными явл-ся подготовка двумерных таблиц. Представляет собой данная таблица взаимное пересечение двух рядов распределений. Переменные для рядов опред-ся гипотезой исследования. Одна переменная рассматривается как фактор (причина), которая влияет на явление, другая как показатель этого явления.
Один и тот же признак в процессе анализа может выступать как фактор и как показатель. (напр. Уровень образования влияет на удовлетворенность работой; чем выше уровень образования, тем выше уровень удовлетворенности работы.. Уровень удовлетворенности работы (независимая переменная, фактор) влияет на общую удовлетворенность человека жизнью (показатель). Чем выше удовлетворенность работой, тем выше удовлетворенность жизнью.
В первом случае удовлетворенность работы выступает в качестве показателя, во втором – фактор.
Когда признак в статистической проверке гипотезы рассматривается как фактор его называют независимой переменной
Когда признак рассматривается как показатель- его наз-т зависимая переменная.
Содержательный смысл таблицы построенный на основе двумерного распределения позволяет рассмотреть некоторую зависимость признака и выглядит следующим образом: по признаку, который рассматривается как независимая переменная исследовательразбивает всю совокупность опрошенных на отдельные группы. Наряду с общим результатом одномерного распределения исследователь параллельно получает результаты мнения отдельных подгрупп. Обращаясь к приведенному выше примеру скажем, что исследователь разбивает всю совокупность по уровню образования. И тут же разбивает людей по уровню удовлетворенности, следовательно, основной задачей аналитика явл-ся статистическая экспертиза – оценка и отбор качественной информации. Посмотрев и оценив сотни таблиц, он должен отобрать только те, которые соотв-т статистическим критериям качества информации. Двумерные таблицы могут быть описаны и интерпретированы. Описание и экспертиза таблиц самая простая часть. Чтобы проверить гипотезу, исследователь должен определить фактор и признак. Исслед-ль определяет независимую переменную и зависимую и уже выстраивает двумерные таблицы.
15. Коэффициент ранговой корреляции Спирмена. Коэф-т Спирмена можно применить к порядковой шкале и к переменным, которые не подчиняются нормальному распределению. Это непараметрический метод, который используется с целью статистического изучения связи между явлениями. В этом случае определяется фактическая степень параллельности между 2-мя кол-ми рядами изучаемых признаков и дается оценка тесноты установленной связи. Расчет коэф-та ранговой корреляции Спирмена включает в себя несколько этапов: сопоставить каждому из признаков свой порядковый номер; определить разность рангов каждой пары сопоставления значений возвести в квадрат каждую разность и суммировать результаты вычислить коэффициент кор. рангов по формуле r=1- (6∑d^2)/n(n^2-1) ∑d^2 – сумма квадр. разностей рангов n- кол-во выборки (число парных наблюдений) При использовании коэф ранговой корреляции учитывается, что коэффициент изменяется от 0 до 1. (0,7 и выше высокая тесная связь, от 0,4 до 0,7 умеренная тесная связь, до 0,4 слабая). Мощность коэф корреляции спирмена уступает мощности параметрических коэф-в, возможно применение при порядковых шкалах. коэф-т ранговой корреляции целесообразно применять при относительно небольшом количестве респондентов.
| |
12. дисперсия
Диспе́рсия случа́йной величины́ — мера разброса данной случайной величины, то есть её отклонения от математического ожидания. Обозначается D[X] в русской литературе и \operatorname{Var}(X) (англ. variance) в зарубежной. В статистике часто употребляется обозначение \sigma_X^2 или \displaystyle \sigma^2. Квадратный корень из дисперсии, равный \displaystyle \sigma, называется среднеквадрати́чным отклоне́нием, станда́ртным отклоне́нием или стандартным разбросом. Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.
Из неравенства Чебышёва следует, что вероятность того, что случайная величина отстоит от своего математического ожидания более чем на k стандартных отклонений, составляет менее 1/k². Так, например, как минимум в 95 % случаев случайная величина, имеющая нормальное распределение, удалена от её среднего не более чем на два стандартных отклонения, а в примерно 99,7 % — не более чем на три.
дисперсию (харак-ет разброс значений переменной). Для данных номон уровня наиб дисперсия проявляется в тех случаях, когда наблюдения распределены поровну между категориями. Полное отсутствие дисперсиипроявляется в тех случаях когда все наблюдаемые значения переменной совершенно однородны, т.е. попадают в одну и ту же категорию.
| |
Дисперсия представляет собой сумму квадратов отклонений от среднего разделенную на число отметок:
Воспользуйтесь поиском по сайту: