Основные теоретические положения
Стр 1 из 2Следующая ⇒ Одной из задач статистики является анализ эмпирических (опытных) распределений данных. Эмпирическими называются распределения фактических значений вариант статистической совокупности, полученные в результате эксперимента (проведенного статистического наблюдения). Основная задача анализа заключается в определении параметров теоретического распределения на основе использования параметров эмпирического распределения, а также в оценке степени различия между этими распределениями. Выбор формы статистического анализа зависит от конкретной формы распределения и условий, в которых находится изучаемая совокупность. Поэтому изучение формы распределения имеет исключительное значение в практике оценки научной гипотезы. Выделяют следующие основные типы распределения. 1. Нормальное распределение (распределение Гаусса - Лапласа – Ляпунова - по имени математиков, впервые исследовавших его характеристики) - более других распределений приближается к симметричному, а теоретическое распределение в этом случае определяется на основе средних величин и сигмальных отклонений. 2. Распределение Шарлие - относится к несимметричным распределениям левосторонней и правосторонней асимметрии. Теоретическое распределение при этом определяется с использованием показателей асимметрии и эксцесса, а также других аргументов. 3. Распределение Максвелла - при нем теоретическое распределение определяется способом переентилей, а не методом сигмальных отклонений. 4. Биноминальное распределение - часто встречается в медицинской практике; является сложным для расчетов теоретического распределения. 5. Распределение Пуассона - распределение редко встречающихся явлений. Обработка данных этого распределения основана на определении средних величин и показателей дисперсии, которые совпадают или близко прилежат друг к другу.
В каждом из указанных распределений используются свои статистические методы оценки выдвигаемых научных гипотез. Оценка заключается в установлении определенной вероятности о подлинности и несостоятельности гипотезы. Для доказательства правдоподобности гипотезы проводится статистическая оценка, т. е. оценка того, насколько полученное эмпирическое распределение соответствует теоретическому распределению. При этом используется целый ряд непараметрических критериев: λ, (греч. «ламбда») - критерий А. Н. Колмогорова и Н. В. Смирнова, 0 (греч. «тета») - критерий Б. С. Ястремского и др. Наиболее часто для оценки разницы между эмпирическими и теоретическими частотами используется метод, созданный английским статистиком Karl Pearson в 1900 г. В литературе по статистике показатель, полученный с помощью этого метода, называется критерием согласия, коэффициентом соответствия, но чаще, особенно в иностранных источниках, его называют хи-квадрат. Критерий х2 является всегда положительным числом, показывающим сумму отношений квадратов разностей эмпирических (фактических) и теоретических (ожидаемых) частот к теоретическим частотам, и определяется по формуле: , где ф - фактическое число, о - ожидаемое число. В этой формуле используют и 2 других условных обозначения: , (1) где f - фактические (эмпирические) данные; ft - теоретические (ожидаемые) числа; , (2) где Р - фактическое число наблюдений, P1 - ожидаемое число наблюдений (от англ, possibility - возможность или probability - вероятность). Показатель х2 выявляет статистическую значимость разницы между данными, полученными в статистическом исследовании, и данными, теоретически вычисленными (ожидаемыми), и позволяет, во-первых, судить о достоверности или недостоверности результатов исследования и, во-вторых, доказать репрезентативность связи между изучаемыми признаками или явлениями. Теоретическое распределение данных (ожидаемых чисел) получается на основе принятой рабочей гипотезы о том, что различия в экспериментальных данных вызваны случайными колебаниями, а взаимосвязи между изучаемыми признаками отсутствуют, т. е. равны нулю. Такую рабочую гипотезу называют нулевой. На ней строятся все расчеты х2 и дается оценка этому критерию. Если нулевая гипотеза имеет вероятность менее 5% (р < 0,05), то она считается неправдоподобной и отвергается, а полученный в ходе эксперимента материал считается статистически существенным (достоверным). Если вероятность нулевой гипотезы более 5% (р > 0,05), то она не отвергается, а наблюдаемые фактические различия не имеют никакого значения при данном числе наблюдений.
Вероятность (рх2) более точно определяют по специальной таблице или ориентировочно - по формуле В. И. Романовского (приложение 1, п. 6):
где под подразумевают число степеней свободы, определяемое по формуле К = (s - l)(r - 1), где s - число граф в изучаемых данных без итоговой графы, г - число строк в таблице без итоговой строки (от англ, string - ряд, road-дорога). Число степеней свободы - это математическое понятие, означающее число свободно варьирующих членов таблицы,- т. е. минимальное число клеточек в таблице, в которых надо знать цифровые данные, чтобы по ним и итоговым результатам заполнить всю таблицу. В четырехпольной таблице число степеней свободы будет равно единице [k = (s – 1)(г - 1) = (2 - 1)(2 -1) = 1], т. е. надо знать цифровые данные хотя бы в одной клеточке таблицы, чтобы заполнить всю таблицу. В современной литературе число степеней свободы чаще обозначается не буквой “К”, а буквой “п'”. В качестве примера приводим результаты изучения устойчивости стафилококков к пенициллину, которые сведены в четырехпольную таблицу (поля a, b, с, d) (табл. 1). Таблица 1
Чтобы по итоговым данным заполнить эту таблицу, достаточно знать число хотя бы в одной клеточке а, Ь, с или d, следовательно, для подобных четырехпольных таблиц характерна одна степень свободы. Так, зная число в клеточке а (50) и итоговые данные, можно определить число в клеточке b (79 - 50 = 29) и в остальных клеточках таблицы: с = 104— 50 = 54, d = 150 - 54 = 96 или d = = 125-29 = 96. Использование критерия согласия как способа определения достоверности различий между статистическими совокупностями имеет определенные достоинства и недостатки, вытекающие из области его применения и условий вычисления. К важнейшим условиям вычисления этого критерия можно отнести обязательное наличие альтернативного признака и абсолютных данных. Другими словами, х2 нельзя применять при наличии данных, характеризующих непрерывные признаки (выражающие длину, массу, время и т. п.), а также на производных величинах (относительных, средних). Для вычисления х2 также необходимо иметь достаточно большое число наблюдений: общее - не менее 30, а в отдельных группах - не менее 5. При небольшом числе наблюдений необходимо использовать поправку Йейтса. К второстепенным условиям можно отнести обязательное использование вычислительной техники, так как расчет х2 без ее применения является трудоемким и требует больших затрат времени. К одним из недостатков критерия х2 относится зависимость его величины от группировки изучаемого материала. Чем больше взято групп при одном и том же числе наблюдений, тем больше величина х2. Поэтому для оценки х2 и формулировки выводов необходимо определять дополнительный показатель - число степеней свободы. По критерию х 2 нельзя судить о силе связей, но по нему можно делать выводы о наличии связи и ее достоверности. Если критерий согласия позволяет выявить существенность различий между группами, то можно категорично говорить о достоверности полученных результатов, а если он не показывает этого, то категорично заявлять об отсутствии зависимости между изучаемыми признаками или явлениями нельзя, т. е. нельзя отрицать отсутствие связей. В этих случаях выводы надо делать очень осторожно. Критерий х2 не позволяет определить существенные различия между отдельными группами, а дает лишь общую характеристику типа распределения данных.
Важно также знать и использовать свойство аддитивности х2. Аддитивность означает число, получаемое путем сложения, т. е. величина х2, соответствующая всему объекту изучения, равна сумме значений х2, соответствующих его частям. При сложении величин х2, вычисленных из разных выборок, сумма коэффициентов будет равна значению х 2 для целой совокупности данных, а число степеней свободы этого общего х2 будет равно сумме чисел степеней свободы всех выборок. Рационально, это свойство использовать для общей оценки влияния условий труда, быта и других факторов на состояние здоровья населения, для установления зависимости распространения инфекционных или других заболеваний от социально-экономических условий, от организации медико-социальной помощи и т. п. Рассмотрим это на примере с условными цифрами. Результаты изучения заболеваемости с временной утратой трудоспособности (ЗВУТ) работающих на предприятии тяжелого машиностроения представлены в табл. 2. Таблица 2
Как видно из табл. 2, достоверность данных ЗВУТ в зависимости от профессиональных условий статистически подтверждается только у кузнецов и слесарей, так как вероятность нулевой гипотезы по результатам исследования менее 0,01. Для станочников и электриков такой достоверности не получено (р > 0,05). Оценивая в целом для предприятия сумму коэффициентов (равна 38,5) и сумму чисел степеней свободы (равна 10), получаем по таблице значений х2, что вероятность подтверждения нулевой гипотезы очень низкая (менее 1%, или р < 0,01). Следовательно, остальные 99% (вероятность утверждения зависимости) данных исследования свидетельствуют о том, что условия труда влияют на ЗВУ'Г. ОБЛАСТИ ПРИМЕНЕНИЯ КРИТЕРИЯ Х2 1. Сравнение эмпирических (опытных) данных с рассчитанными или теоретическими данными (классический вариант). 2. Сравнение двух альтернативных совокупностей (с использованием четырехпольной таблицы). 3. Сравнение двух эмпирических совокупностей одинакового и разного объема. 4. Сравнение и оценка двух порядковых совокупностей (тест медианы).
5. Оценка значимости коэффициента взаимной сопряженности при качественном распределении результатов исследования.
МЕТОДИКА РАСЧЕТА КРИТЕРИЯ Х2 В практике здравоохранения наиболее часто критерий х2 применяется для сравнения и оценки эмпирических данных с рассчитанными (ожидаемыми) результатами, а также для оценки результатов в двух альтернативных совокупностях. Рассмотрим алгоритмы расчета критерия согласия на решении конкретных задач. Вычисление х2 при оценке эмпирических и теоретических совокупностей Задача. Была изучена реакция на прививку против брюшного тифа у 575 взрослых жителей Москвы. Полученные результаты представлены в табл. 3. Необходимо определить достоверность различий в реактогенности среди трех групп лиц, первично или повторно (систематически и не систематически) получавших прививку этой вакциной. Таблица 3.
Решение: I этап - вычисление общих коэффициентов. 1. Процент привитых, имевших реакцию на вакцину: на 575 привитых - 193 человека имели реакцию на 100 привитых - х человек имели реакцию
Процент привитых, не имевших реакции на вакцину: на 575 привитых - 382 человека не имели реакции на 100 привитых – x1 человек не имели реакции
х1 = 382х100 = 66,5% (или 100-33,5=66,5%) II этап - расчет ожидаемых чисел (Р2) для каждой изучаемой группы на основе общих коэффициентов и фактических данных (P1) в каждой выделенной для изучения группе. Вычисления проводят на основании решения следующих пропорций. 1. Для 39 первично привитых ожидаемое число имевших реакцию (Р2) составило бы: из 100 привитых - 33,5 человек имели реакцию из 39 привитых - х человек имели бы реакцию х = 39x33,5 = 13 человек. 2. Ожидаемое число не имевших реакции (Р2") составило бы: из 100 привитых - 66,5 человек не имели реакции из 39 привитых - х человек не имели бы реакции
х = 26 (или 39 — 13 = 26) человек. По аналогичной методике рассчитываются ожидаемые числа для повторно привитых - 145 и 391 человек. Результаты расчета приведены в табл. 4.
Таблица 4.
III этап - определение разности между действительными и ожидаемыми числами (d = P1- Р2) в каждой изучаемой группе. По выделенным группам (см. табл. 4) надо произвести 6 таких вычислений (30-13 = 17; 9-26 = -17 и т. д.).
IV этап - возведение полученных разностей в квадрат: (P1 - Р2)2 = (30 - 13)2 = 172 = 289; (9 - 26)2 = 289 и т. д. (см. табл. 4). V этап - деление полученной от произведения в квадрат разности на ожидаемое число по каждой группе: (Р1 –Р2)2 = 289 =22,3; 289 = 11,1; 1681 =35 и т.д. Р2 13 26 48 VI этап - определение критерия х2 путем суммирования полученных на предыдущем этапе данных: Х2 = 22,3 + 11,1 + 35,0 + 17,3 + 25,5 + 13,0 = 124,2 Все указанные расчеты Х2 , произведенные поэтапно (в 6 этапов), можно свести к следующей классической формуле: Х2 = = =
= 22,3+11,1+35,0+17,3+25,5+13,0=124,2
Для формулировки выводов о реактогенности вакцины необходимо сначала определить число степеней свободы по табл. 3 и оценить вычислительную величину х2. Число степеней свободы определяем по формуле: n' = (s – 1) (r -1) = (2-1) (3-1)=2. Сначала оценку величины Х2 осуществляем по критерию Романовского:
= 242,2-2 = 62, 1 = 31,05 √2х2 2
В данном случае критерий Романовского удовлетворяет основному условию - его значение больше 3. Это свидетельствует о том, что различие эмпирических и теоретических данных статистически существенно, следовательно, систематичность прививок способствует уменьшению числа лиц, имеющих реакцию организма на прививку данной вакциной. Указанный способ используют для ориентировочной оценки результатов исследования, когда отсутствует специальная оценочная таблица значений х2. Для более точной оценки критерия х2 необходимо определять степень вероятности (рх2) по специальной таблице значений х2 (см. приложение 2). По ней находим, что при двух степенях свободы вероятность нулевой гипотезы менее 0,05, если х2 равен 6,0 и более; при вероятности 0,01 критерий х2 должен быть более 9,2. Полученный при решении задачи критерий х2 намного больше указанных величин, следовательно, в результате исследования получены статистически достоверные данные и выдвинутая научная гипотеза подтверждается с высокой степенью вероятности.
Вычисление х2 при сравнении двух альтернативных совокупностей Как видно из решения предыдущей задачи, критерий х2 позволяет оценить достоверность данных и наличие связи между изучаемыми признаками, которые распределены более чем по двум группам. Приведенные расчеты трудоемки, использование специальной таблицы логарифмов или вспомогательных таблиц умножения позволяет сократить время расчета. Но особенно они упрощаются при сравнении двух альтернативных совокупностей, когда полученные данные можно свести в четырехпольную таблицу, которая носит название таблицы контингентности (см. табл. 1). В случае такой четырехпольной таблицы, когда имеются всего 4 группы изучаемых данных, расчеты выполняют по следующей формуле: х2 = (ad - bс)2 (а + b + с + d) (а + b)(c + d)(a + c)(b + d) Задача 1. При изучении патогенности и устойчивости к пенициллину 229 штаммов (патогенных и непатогенных) стафилококков было обнаружено, что 45,4% из них являются устойчивыми к пенициллину. Остальные данные см. в табл. 1. Необходимо определить, влияет ли патогенность стафилококка на их устойчивость к пенициллину Решение При наличии этих данных нет необходимости производить вычисления ожидаемых чисел, а можно подставить соответствующие данные в вышеуказанную формулу: Х 2 = (50 х 96 - 29 х 54)2 х 229 = 15,38 79x150x104x125 Вычисление х2 по классической формуле дает такой же результат, но расчеты более сложные: Х2 = = =
= 5,45+4,55+2,98+2,40 = 15,38
Ожидаемые числа 36, 43, 68 и 82 получены обычным способом на основе нулевой гипотезы. Число степеней свободы, учитывая условие задачи, составляет: п” = (2-1)(2- 1) = 1. При оценке х2 по формуле Романовского получаем:
R = 15,38-1 = 14,38 = 12 1,414 Так как критерий R больше 3, то нулевая гипотеза не подтверждается и можно с уверенностью утверждать, что результаты исследования устойчивости патогенных штаммов стафилококков к пенициллину показали статистически достоверную зависимость. Более точно достоверность полученных результатов можно определить по оценочной таблице критерия , которая дает возможность установить степень вероятности нулевой гипотезы (р). Границей достоверности, как установлено и общепринято, считается вероятность 0,05 (или 5%), так как обычно статистическая достоверность полученных результатов определяется с вероятностью не менее 95%. Естественно, что вероятность 99% считается более достоверной. Уровень значимости нулевой гипотезы, по данным задачи, составляет менее 0,01 (или 1%). Следовательно, можно утверждать, что в исследовании получены статистически значимые результаты с вероятностью достоверного прогноза более 99%. Как известно, в соответствии с теорией вероятности сумма двух взаимно противоположных возможностей всегда равняется единице, т. е. р + q = 1 (или 100%). Если нулевую гипотезу подтверждают данные с вероятностью менее 1%, то остальные 99% и более (100-1 = 99) говорят в пользу научной гипотезы. Одним из способов уменьшения неточности критерия х2 при небольшом числе наблюдений является использование поправки на непрерывность, которая называется поправкой Йейтса. Рассмотрим применение этого способа.
Задача 2. При изучении эффективности прививок против эпидемического паротита были получены следующие результаты:
Необходимо определить достоверность эффективности вакцинации Решение: Чтобы выяснить эффективность вакцинации, надо на указанном небольшом числе наблюдений доказать достоверность этого утверждения или считать его только предположением, недоказанным статистически. Более правильный результат можно получить, рассчитывая в четырехпольной таблице по формуле с поправкой Иейтса:
= = =
+ = 9,5
Используя оценочную таблицу критерия x2, можно сделать вывод, что при числе степеней свободы, равном 1, и величине x2, равной 9,5, вероятность нулевой гипотезы составляет менее 0,01, т. е. представленный материал даже на небольшом числе наблюдений выявляет высокую степень достоверности данных об эффективности прививок против эпидемического паротита. В некоторых случаях, когда в одной из клеток четырехпольной таблицы число наблюдений менее 20, рекомендуется применять точный метод Фишера, который позволяет сразу определять вероятность нулевой гипотезы (р) по формуле: P = , где знак «!» обозначает факториал данного числа, т. е. произведение натурального ряда последовательных чисел. Так, факториал 4 равен: 4! = 1х2хЗх4 Ниже приведен пример с условными данными, полученными в эксперименте на 17 животных по изучению противоопухолевого действия двух лекарственных препаратов А и Б:
Применив указанную формулу, можно сразу рассчитать вероятность нулевой гипотезы: Р =
Полученная вероятность нулевой гипотезы очень высокая, так как составляет более 10%, следовательно, существование различий между указанными лекарственными средствами на данном числе наблюдений не доказано (р > 0,05, или 5%) и нулевая гипотеза не отвергается. Поскольку эффективность препаратов А и Б оказалась различной, то для доказательства достоверности результатов эксперимента требуются продолжение исследований, увеличение числа наблюдений. Таким образом, оценка различий между сравниваемыми данными научно-практических исследований в области медицины и биологии должна быть достаточно высока, чтобы считать различия достоверными. Обычно в практике вариационной статистики для оценки результатов исследования выбирают вероятности 0,95 и 0,99, при которых доверительный критерий t соответственно равен 1,96 и 2,58, а уровни их значимости (0,05 и 0,01) являются величинами, указывающими на достоверность различий. В таблице значений , применяемой для оценки вычисленного критерия согласия, эти различия имеют обратный смысл. Так, если имеется сопряженность данных, вероятность которой, например, равна 0,9, то ей соответствует дополнительная вероятность противоположного события - т. е. составляет 0,1. Это означает, что соответствие отсутствует и изучаемая выборка распределена иначе, чем теоретическая. Только тогда признается вероятность достоверности высокой, когда для исключения нулевой гипотезы нельзя считать достаточно дополнительную к ней вероятность. Отсюда для границами соответствия можно считать 0,05 и 0,01, так как вероятности 0,95и 0,99, обычно считаются достаточными для признания различий между сравниваемыми явлениями достоверными. Непризнание или исключение первоначальной нулевой гипотезы происходит при р, равном 0,05. Хотя при этой вероятности нулевая гипотеза не признается, имеется еще 5% данных (или 5 случаев из 100, или 1 случай из 20), что она может подтвердиться в отдельных наблюдениях. Формулы для расчета х2 указанные в пунктах 2 и 3 приложения 1, в медицинской практике используются реже, в основном их применяют при клинико-статистической характеристике результатов научных исследований. Методика расчета критерия х2 по этим формулам в настоящем издании не рассматривается, ее можно найти в специальной литературе.
Воспользуйтесь поиском по сайту: ©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|