Однофакторный дисперсионный анализ
Поставленную задачу можно сформулировать следующим образом: определить влияние многоуровневого фактора на случайную величину. Рассмотрим более простой случай - влияние рациона питания на привес животных. Было проведено исследование на 4 группах животных: первая группа потребляла обычный рацион, вторая – питалась только макаронами, третья – мясом, четвертая – овощами. Изучаемым фактором является рацион питания, который имеет четыре уровня, случайная величина – это привес животных. Нужно определить есть ли разница хотя бы между двумя средними в этих группах. Прежде чем приступить к решению данной задачи, вспомним, что дисперсия является характеристикой разброса случайной величины относительно среднего.
В идеале, внутри каждой группы вес животных должен бы быть одинаковым, так как они питаются одинаковым рационом (например, все едят овощи). В реальности внутри групп будет наблюдаться разброс в привесе, в связи с тем, что кроме рациона на вес животных влияют другие факторы: особенности обмена веществ, поведенческих реакций, стрессоустойчивость и др. Эти факторы, которые мы будем называть неучтенными факторами, приводят к появлению внутригрупповой дисперсии Dвнутргр. Средние по группам также имеют разброс (относительно общей средней), который объясняется влиянием изучаемого фактора - разных рационов. Это приводит к появлению межгрупповой дисперсии Dмежгр. Рассмотрим случай, приведенный на рисунке 22. Видно, что внутри групп разброс показателя веса больше, чем разброс средних значений по группам. Можно предположить, что вес животных в этих группах не сильно зависит от рациона питания, а на него больше влияют неучтенные в данном исследовании факторы.
Рисунок 22
Другой случай представлен на рисунке 23.
Рисунок 23
Таким образом, чтобы оценить влияние многоуровневого фактора на какую-то величину, необходимо сопоставить межгрупповую и внутригрупповую дисперсии. Межгрупповая дисперсия вносится изучаемым фактором, внутригрупповая дисперсия вносится какими-то другими (неучтенными) факторами. Если то фактор не влияет Если то фактор влияет Если то неопределенность Мы бы воспользовались этим правилом, если бы нам была доступна генеральная совокупность, но выборочные данные, в том числе выборочные дисперсии, ошибочны и в этом случае необходимо прибегнуть к теории проверки статистических гипотез.
Выдвигаем Н(0) – фактор не влияет на изучаемый признак Задаемся уровнем значимости α Вычисляем выборочную в нутригрупповую дисперсию, как среднее значение дисперсий по группам
Где - дисперсия показателя в каждой из k групп И выборочную межгрупповую дисперсию как отклонение средних в каждой группе от общей средней
ni –количество объектов в i –той группе - общая средняя
Вычисляем критерий Фишера Сравниваем с для заданного α и числа степеней свободы (Приложение 7) где k – число групп, n -общее количество объектов обследования
Если вычисленное значение критерия Фишера меньше критического, то Н(0) принимается и делается вывод, что фактор не влияет на исследуемый показатель. В противном случае принимается Н(1).
Линейная корреляция
Обратимся к диаграмме на рисунке 24, на которой представлены значения роста и веса 14 испытуемых, отложенные на соответствующих осях, а на их пересечении поставлены точки. Эта диаграмма носит название диаграммы рассеяния. Из нее видно, что при увеличении роста вес также увеличивается, хотя это бывает не всегда – из практики мы знаем, что встречаются маленькие полные и высокие худые люди. Но общая тенденция все же такая, и мы можем даже провести воображаемую линию, по которой происходят изменения. То есть между ростом и весом имеется определенная связь – изменение роста приводит к изменению веса, и эта связь носит линейный характер.
Рисунок 24 Степень выраженности связи между случайными величинами отражает понятие корреляция. Количественно взаимосвязь между случайными величинами определяет коэффициент корреляции – r. • Коэффициент корреляции лежит в пределах - 1 ≤ r ≤ 1. • Если r> 0, то связь прямая - с увеличением значений одной величины другая также в среднем возрастает. • Если r < 0, то связь обратная - с увеличением величины Х1 соответствующие им значения X2 в среднем также уменьшаются. Значения линейного коэффициента корреляции и характер связи
Рисунок 25
Рисунок 26
Надо помнить, что корреляция выражает лишь математическую связь и, опираясь только на него, нельзя делать выводы о причинно-следственных отношениях. Например, может получиться высокий коэффициент корреляции между массой тела и знанием биостатистики, однако вряд ли одно является следствием другого, возможно оба признака меняются под воздействием третьего – возраста человека. В статистике используются параметрические и непараметрические коэффициенты корреляции. Для двух количественных случайных величин Х1 и Х2 (n -объем каждой выборки), если они нормально распределены, их линейную взаимосвязь можно вычислить используя параметрический коэффициент корреляции Пирсона
Одной из задач корреляционного анализа является проверка коэффициента корреляции на значимость. Дело в том, что выборочный коэффициент корреляции отличается от генерального, т.е. имеет определенную ошибку. При этом не исключена возможность, что взаимосвязь между величинами вовсе отсутствует. Поэтому требуется проверка нулевой гипотезы о равенстве нулю генерального коэффициента корреляции Н(0): r =0 Проверяется гипотеза по критерию Стъюдента:
Критическое значение критерия находится по таблице для заданного уровня значимости α и числа степеней свободы f=n-2 (Приложение 2). Если │ tвыч│≥ tкрит то принимается Н(1) и делается вывод, что между величинами существует значимая корреляция. Если │ tвыч│< tкрит то принимается Н(0) и делается вывод о независимости исследуемых величин (коэффициент корреляции незначим). Полезно также вычислять величину r2 (в %). Она показывает, какая доля изменчивости одной величины объясняется влиянием другой величины.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|