Однофакторный дисперсионный анализ
Простейшим случаем дисперсионного анализа является однофакторный анализ. В этой главе мы дадим его определение и будем использовать этот случай для иллюстрации некоторых положений общей теории оценок и критериев, изложенной далее. Кроме того, будут введены также некоторые новые понятия и методы, относящиеся к задачам множественного сравнения (построение некоторых видов совместных доверительных интервалов и соответствующих им критериев). Сначала эти понятия и методы вводятся в связи с классификацией по одному признаку, а затем будут перенесены на общий случай. После этого мы сможем рассматривать эти методы как дополнение общего F -критерия гл. 2 в следующем смысле. Мы видели, что нулевая гипотеза Н равносильна утверждению, что все параметрические функции некоторого класса имеют нулевые значения. Каждый раз, когда по F -критерию Н отвергается, мы можем одним из методов множественного сравнения решить, какая параметрическая функция рассматриваемого класса отличается от нуля и как велико это отличие. Мы увидим также, что F -критерий можно рассматривать как предварительный метод решения вопроса о целесообразности продолжения обработки наблюдений другими более сложными методами, или F -критерий можно применить к исследованию оценки функции из рассматриваемого класса, которая в некотором смысле сильно отличается от нуля, и решить, значимо ли отличается от нуля эта оценка. Термин однофакторный анализ (или классификация по одному признаку) относится к сравнению средних нескольких (одномерных) популяций. Обозначим их средние через
Используя общую теорию для проверки гипотезы Н: мы построим F -критерий в предположениях Сумма квадратов
Нормальные уравнения в предположениях приравнивая к нулю производные
при
Замена индекса звездочкой показывает, что вычислено арифметическое среднее величин, в которых заменяется индекс, по всем возможным значениям этого индекса. В этих предположениях функцию
где через
Из этого уравнения находим (крышка над
Далее Для вычисления SS удобно использовать
Можно получить (i, j)-координату Произведя аналогичную замену при Суммы квадратов в числителе и знаменателе статистики
которые преобразуются в
Эти формулы подсказывают простое наглядное объяснение: SSH представляет собой взвешенную меру разброса выборочного среднего в I популяциях, a SSe является составной мерой разброса наблюдений в пределах каждой из I выборок. По этим соображениям SSH можно назвать SS между группами, a SSe можно назвать SS внутри групп. Для численного вычисления этих SS используются формулы, которые также следуют из общих тождеств. Тождество
Общее тождество
Сумму квадратов в левой части можно назвать полным SS относительно общего среднего. Обозначать эту сумму будем через SSП в отличие от
Окончательно общее тождество
Гипотезу Н можно задать, приравнивая к нулю I -1 различных линейно независимых функций; например, Н: Отсюда число ст. св. SSH равно q = I -1. Мы уже видели, что г= I, так что число ст. св. SSe равно п - r = п - I. Таким образом, статистикой
По F -критерию гипотеза Н отвергается с заданным уровнем значимости Если мы положим
Некоторые из этих результатов собраны в таблицу. Таблица1 Однофакторный анализ
Методы вычислений, предложенные в этой книге, облегчаются применением ЭВМ. Весьма часто требуется сохранять большое число верных знаков до конца вычислений из-за возможной потери их при вычислении SS вычитанием из другого SS. Понятно, что в промежуточных вычислениях лучше иметь больше знаков, так как если после вычитания их останется слишком мало, то придется повторить полностью все вычисления. С другой стороны, окончательный результат должен содержать разумное число знаков, обычно такое, чтобы единица последнего сохраненного знака имела порядок пяти оценок стандартного отклонения результата. Статистик, работающий с химиками или инженерами, может дискредитировать себя необдуманным предложением доверительного интервала такого вида 7,32179 ± 0,05248 вместо 7,32 ±0,05 или использованием углового коэффициента прямой с семью знаками, когда сама прямая была подобрана по данным с тремя знаками. При вычислениях с машинами, или без них (особенно если у чисел совпадают знаки старших разрядов), полезно преобразовать данные вычитанием подходящей постоянной; например, если данные заключены в пределах от 151,2 до 158,7, то удобно вычесть 150; результат, вычисленный по преобразованным данным, очевидно, будет такой же, как по исходным.
2.2.2. Многофакторный анализ В этом параграфе мы применяем общую теорию к простейшим планам эксперимента для исследования эффектов двух факторов. Эти простейшие планы мы будем называть полным анализом. В конце главы будет рассмотрена общая задача разбиения суммы квадратов. Предположим, что два фактора A и В изменяются в эксперименте или в рассматриваемой совокупности условий, например в эксперименте типа, где различные растения (А) были посажены на различных участках (В) с одинаковым химическим составом смесей, или, например в исследованиях нескольких видов технологий (А), наблюдаемых на различных строительных объектах (В). Если в первом примере рассматривается I растений и J местностей, то эти I и J называют соответственно I уровнями фактора A и J уровнями фактора В. Уровни могут описывать качественную классификацию, как, например, виды растений, или же количественную, как, например, затраты на применение технологии. В таких двухфакторных экспериментах наблюдения могут быть расположены по этим двум факторам в виде таблицы с двумя входами (двухфакторной таблицы), I строк которой соответствуют уровням фактора A, а J столбцов — уровням В. В «(i, j) -ячейку», расположенную на пересечении i -й строки и j -го столбца, записываются наблюдения, полученные при одновременном исследовании факторов А и В соответственно в i-м и j -м уровнях. Если в каждой ячейке есть по крайней мере одно наблюдение, то возможен полный анализ. Если мы допустим, что наблюдения в (i, j)-ячейке являются случайной выборкой из популяции, соответствующей этой ячейке, то можно говорить о среднем и дисперсии этой популяции как об «истинном» среднем ячейки и «истинной» дисперсии ячейки. Все понятия этого параграфа будут определены в терминах «истинных» средних ячейки, которые также называют «истинными» результатами в рассматриваемой совокупности условий. Мы будем обозначать «истинное» среднее (i, j)-ячейки через
Предположим, что веса Таким образом,
Генеральным средним будем называть взвешенное среднее средних столбца {В j } с весами
Главный эффект i-го уровня А определяется как превышение среднего i -го уровня над генеральным средним
Отметим, что {
Аналогично главный эффект j -го уровня В определяется как
откуда
Главные эффекты Если мы будем определять главный эффект i -го уровня А специально по отношению к j -му уровню В, то естественно определить его как превышение Главный эффект i -го уровня A, определенный выше, является фактически взвешенным средним от по столбцам: Мы могли бы прийти к тому же результату, если бы начали с главного эффекта j -го уровня В специально по отношению к i -му уровню А; взаимодействие симметрично, поэтому мы можем назвать
Подставляя Предположим, что Теорема. Если при некоторой системе весов Доказательство. При некоторой частной системе весов
Пусть теперь
и аналогично
Подставляя эти три выражения мы найдем, что Мы говорим о случае отсутствия взаимодействий, если все Интерпретация дисперсионного анализа является очень простой, когда мы решаем (на основании статистических или других соображений), что взаимодействия отсутствуют. Тогда нашими заключениями о главных эффектах (и, возможно, о генеральном среднем) обычно достаточно суммировать весь анализ. Так, например, если мы сравниваем первую разновидность растений со второй (в примере с растениями и участками) и заключаем, что сравнение (главный эффект первой разновидности) — (главный эффект второй разновидности) положительно, то из этого вытекает, что первая разновидность лучше второй в одном и том же смысле для всех местностей; но если мы не сделали предположения об аддитивности эффектов, то наше заключение может быть таким: среднее по J местностям первой разновидности лучше среднего второй. Однако может случиться, что в некоторой местности вторая разновидность будет лучше первой. Пусть некоторая интерпретация дисперсионного анализа была дана в предположении аддитивности. Если это предположение было принято только потому, что гипотеза отсутствия взаимодействий не была отвергнута некоторым F -критерием, то нужно посмотреть, имеет ли этот критерий разумную мощность отбрасывания гипотезы, если на самом деле взаимодействия достаточно велики, чтобы сделать неправильной интерполяцию, основанную на этой гипотезе. Иногда случается, что гипотеза отсутствия взаимодействий отбрасывается статистическим критерием, а гипотеза нулевых главных эффектов обоих факторов принимается. В этом случае правильный вывод заключается в том, что не доказано отсутствие эффектов. Если есть ненулевые взаимодействия, то должны быть ненулевые разности средних ячейки. Заключение состоит в том, что разности есть, но когда эффекты уровней одного фактора усредняются по уровням другого, то доказывается отсутствие разности для этих усредненных эффектов. Легко проверить, что свойство аддитивности эффектов сохраняется при линейных преобразованиях наблюдений и их средних
Воспользуйтесь поиском по сайту: ![]() ©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|