Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Основные теоретические положения




Одной из задач статистики является анализ эмпирических (опытных) распределений данных. Эмпирическими называются распределения фактических значений вариант статистической со­вокупности, полученные в результате эксперимента (проведенного статистического наблюдения). Основная задача анализа за­ключается в определении параметров теоретического распределе­ния на основе использования параметров эмпирического распре­деления, а также в оценке степени различия между этими распре­делениями. Выбор формы статистического анализа зависит от конкретной формы распределения и условий, в которых находится изучаемая совокупность. Поэтому изучение формы распределения имеет исключительное значение в практике оценки научной гипо­тезы. Выделяют следующие основные типы распределения.

1. Нормальное распределение (распределение Гаусса - Лапла­са – Ляпунова - по имени математиков, впервые исследовавших его характеристики) - более других распределений приближается к симметричному, а теоретическое распределение в этом случае определяется на основе средних величин и сигмальных отклонений.

2. Распределение Шарлие - относится к несимметричным рас­пределениям левосторонней и правосторонней асимметрии. Теоре­тическое распределение при этом определяется с использованием показателей асимметрии и эксцесса, а также других аргументов.

3. Распределение Максвелла - при нем теоретическое распре­деление определяется способом переентилей, а не методом сиг­мальных отклонений.

4. Биноминальное распределение - часто встречается в меди­цинской практике; является сложным для расчетов теоретического распределения.

5. Распределение Пуассона - распределение редко встречаю­щихся явлений. Обработка данных этого распределения основана на определении средних величин и показателей дисперсии, кото­рые совпадают или близко прилежат друг к другу.

В каждом из указанных распределений используются свои ста­тистические методы оценки выдвигаемых научных гипотез. Оцен­ка заключается в установлении определенной вероятности о под­линности и несостоятельности гипотезы. Для доказательства прав­доподобности гипотезы проводится статистическая оценка, т. е. оценка того, насколько полученное эмпирическое распределение соответствует теоретическому распределению. При этом исполь­зуется целый ряд непараметрических критериев: λ, (греч. «ламбда») - критерий А. Н. Колмогорова и Н. В. Смирнова, 0 (греч. «тета») - критерий Б. С. Ястремского и др.

Наиболее часто для оценки разницы между эмпирическими и теоретическими частотами используется метод, созданный анг­лийским статистиком Karl Pearson в 1900 г. В литературе по стати­стике показатель, полученный с помощью этого метода, называет­ся критерием согласия, коэффициентом соответствия, но чаще, особенно в иностранных источниках, его называют хи-квадрат. Критерий х2 является всегда положительным числом, показы­вающим сумму отношений квадратов разностей эмпирических (фактических) и теоретических (ожидаемых) частот к теоретиче­ским частотам, и определяется по формуле:

,

где ф - фактическое число, о - ожидаемое число.

В этой формуле используют и 2 других условных обозначения:

, (1)

где f - фактические (эмпирические) данные; ft - теоретические (ожидаемые) числа;

, (2)

где Р - фактическое число наблюдений, P1 - ожидаемое число на­блюдений

(от англ, possibility - возможность или probability - ве­роятность).

Показатель х2 выявляет статистическую значимость разницы между данными, полученными в статистическом исследовании, и данными, теоретически вычисленными (ожидаемыми), и позволя­ет, во-первых, судить о достоверности или недостоверности ре­зультатов исследования и, во-вторых, доказать репрезентативность связи между изучаемыми признаками или явлениями. Теоретиче­ское распределение данных (ожидаемых чисел) получается на ос­нове принятой рабочей гипотезы о том, что различия в экспери­ментальных данных вызваны случайными колебаниями, а взаимо­связи между изучаемыми признаками отсутствуют, т. е. равны ну­лю. Такую рабочую гипотезу называют нулевой. На ней строятся все расчеты х2 и дается оценка этому критерию. Если нулевая ги­потеза имеет вероятность менее 5% (р < 0,05), то она считается неправдоподобной и отвергается, а полученный в ходе экспери­мента материал считается статистически существенным (досто­верным). Если вероятность нулевой гипотезы более 5% (р > 0,05), то она не отвергается, а наблюдаемые фактические различия не имеют никакого значения при данном числе наблюдений.

Вероятность (рх2) более точно определяют по специальной таб­лице или ориентировочно - по формуле В. И. Романовского (при­ложение 1, п. 6):

 

где под подразумевают число степеней свободы, определяемое по формуле К = (s - l)(r - 1), где s - число граф в изучаемых дан­ных без итоговой графы, г - число строк в таблице без итоговой строки (от англ, string - ряд, road-дорога).

Число степеней свободы - это математическое понятие, озна­чающее число свободно варьирующих членов таблицы,- т. е. ми­нимальное число клеточек в таблице, в которых надо знать цифро­вые данные, чтобы по ним и итоговым результатам заполнить всю таблицу. В четырехпольной таблице число степеней свободы будет равно единице [k = (s – 1)(г - 1) = (2 - 1)(2 -1) = 1], т. е. надо знать цифровые данные хотя бы в одной клеточке таблицы, чтобы заполнить всю таблицу. В современной литературе число степеней свободы чаще обозначается не буквой “К”, а буквой “п'”.

В качестве примера приводим результаты изучения устойчиво­сти стафилококков к пенициллину, которые сведены в четырехпольную таблицу (поля a, b, с, d) (табл. 1).

Таблица 1

 

Штаммы стафилококков Число штаммов Всего
устойчивых к пенициллину не устойчивых к пенициллину
Патогенные а=50 Ь = 29 а + b = 79
Непатогенные с =54 d = 96 c + d=150
Итого     а + с =104   b + d = 125 a+b + c + d = 229

 

Чтобы по итоговым данным заполнить эту таблицу, достаточно знать число хотя бы в одной клеточке а, Ь, с или d, следовательно, для подобных четырехпольных таблиц характерна одна степень свободы. Так, зная число в клеточке а (50) и итоговые данные, можно определить число в клеточке b (79 - 50 = 29) и в остальных клеточках таблицы: с = 104— 50 = 54, d = 150 - 54 = 96 или d = = 125-29 = 96.

Использование критерия согласия как способа определения достоверности различий между статистическими совокупностями имеет определенные достоинства и недостатки, вытекающие из области его применения и условий вычисления.

К важнейшим условиям вычисления этого критерия можно от­нести обязательное наличие альтернативного признака и абсолютных данных. Другими словами, х2 нельзя применять при наличии данных, характеризующих непрерывные признаки (выражающие длину, массу, время и т. п.), а также на производных величинах (относительных, средних).

Для вычисления х2 также необходимо иметь достаточно большое число наблюдений: общее - не менее 30, а в отдельных группах - не менее 5. При небольшом числе на­блюдений необходимо использовать поправку Йейтса.

К второстепенным условиям можно отнести обязательное ис­пользование вычислительной техники, так как расчет х2 без ее применения является трудоемким и требует больших затрат вре­мени. К одним из недостатков критерия х2 относится зависимость его величины от группировки изучаемого материала. Чем больше взято групп при одном и том же числе наблюдений, тем больше величина х2. Поэтому для оценки х2 и формулировки выводов не­обходимо определять дополнительный показатель - число степе­ней свободы.

По критерию х 2 нельзя судить о силе связей, но по нему можно делать выводы о наличии связи и ее достоверности. Если критерий согласия позволяет выявить существенность различий между группами, то можно категорично говорить о достоверности полу­ченных результатов, а если он не показывает этого, то категорично заявлять об отсутствии зависимости между изучаемыми признака­ми или явлениями нельзя, т. е. нельзя отрицать отсутствие связей. В этих случаях выводы надо делать очень осторожно. Критерий х2 не позволяет определить существенные различия между отдель­ными группами, а дает лишь общую характеристику типа распре­деления данных.

Важно также знать и использовать свойство аддитивности х2. Аддитивность означает число, получаемое путем сложения, т. е. величина х2, соответствующая всему объекту изучения, равна сумме значений х2, соответствующих его частям. При сложении величин х2, вычисленных из разных выборок, сумма коэффициен­тов будет равна значению х 2 для целой совокупности данных, а число степеней свободы этого общего х2 будет равно сумме чисел степеней свободы всех выборок. Рационально, это свойство ис­пользовать для общей оценки влияния условий труда, быта и дру­гих факторов на состояние здоровья населения, для установления зависимости распространения инфекционных или других заболе­ваний от социально-экономических условий, от организации ме­дико-социальной помощи и т. п.

Рассмотрим это на примере с условными цифрами. Результаты изучения заболеваемости с временной утратой трудоспособности (ЗВУТ) работающих на предприятии тяжелого машиностроения представ­лены в табл. 2.

Таблица 2

Профессия Коэффициент соответствия Число степеней свободы Значение критерия х2(р)
Слесарь 27,7   Менее 0,01
Станочник 0,8   Более 0,05
Кузнец 7,6   Менее 0,01
Электрик 2,4   Более 0.05
Итого 38,5   Менее 0,01

 

Как видно из табл. 2, достоверность данных ЗВУТ в зависимо­сти от профессиональных условий статистически подтверждается только у кузнецов и слесарей, так как вероятность нулевой гипоте­зы по результатам исследования менее 0,01. Для станочников и электриков такой достоверности не получено (р > 0,05). Оценивая в целом для предприятия сумму коэффициентов (равна 38,5) и сумму чисел степеней свободы (равна 10), получаем по таблице значений х2, что вероятность подтверждения нулевой гипотезы очень низкая (менее 1%, или р < 0,01). Следовательно, остальные 99% (вероятность утверждения зависимости) данных исследова­ния свидетельствуют о том, что условия труда влияют на ЗВУ'Г.

ОБЛАСТИ ПРИМЕНЕНИЯ КРИТЕРИЯ Х2

1. Сравнение эмпирических (опытных) данных с рассчитанны­ми или теоретическими данными (классический вариант).

2. Сравнение двух альтернативных совокупностей (с использо­ванием четырехпольной таблицы).

3. Сравнение двух эмпирических совокупностей одинакового и разного объема.

4. Сравнение и оценка двух порядковых совокупностей (тест медианы).

5. Оценка значимости коэффициента взаимной сопряженности при качественном распределении результатов исследования.

 

МЕТОДИКА РАСЧЕТА КРИТЕРИЯ Х2

В практике здравоохранения наиболее часто критерий х2 при­меняется для сравнения и оценки эмпирических данных с рассчи­танными (ожидаемыми) результатами, а также для оценки резуль­татов в двух альтернативных совокупностях. Рассмотрим алгорит­мы расчета критерия согласия на решении конкретных задач.

Вычисление х2 при оценке эмпирических и теоретических совокупностей

Задача. Была изучена реакция на прививку против брюшного тифа у 575 взрослых жителей Москвы. Полученные результаты представлены в табл. 3. Необходимо определить достоверность различий в реактогенности среди трех групп лиц, первично или повторно (систематически и не систематически) получавших при­вивку этой вакциной.

Таблица 3.

Признак Число привитых В том числе
имели реакцию не имели реакции
Первичная вакцинация      
Ревакцинация несистематическая      
Ревакцинация систематическая      
Итого      

 

Решение:

I этап - вычисление общих коэффициентов.

1. Процент привитых, имевших реакцию на вакцину:

на 575 привитых - 193 человека имели реакцию

на 100 привитых - х человек имели реакцию

= 33,5%.
х = 193х100

 

Процент привитых, не имевших реакции на вакцину:

на 575 привитых - 382 человека не имели реакции

на 100 привитых – x1 человек не имели реакции

 

х1 = 382х100 = 66,5% (или 100-33,5=66,5%)

II этап - расчет ожидаемых чисел (Р2) для каждой изучаемой группы на основе общих коэффициентов и фактических данных (P1) в каждой выделенной для изучения группе. Вычисления про­водят на основании решения следующих пропорций.

1. Для 39 первично привитых ожидаемое число имевших реак­цию (Р2) составило бы:

из 100 привитых - 33,5 человек имели реакцию

из 39 привитых - х человек имели бы реакцию

х = 39x33,5 = 13 человек.

2. Ожидаемое число не имевших реакции (Р2") составило бы:

из 100 привитых - 66,5 человек не имели реакции

из 39 привитых - х человек не имели бы реакции

 

х = 26 (или 39 — 13 = 26) человек.

По аналогичной методике рассчитываются ожидаемые числа для повторно привитых - 145 и 391 человек. Результаты расчета приведены в табл. 4.

 

Таблица 4.

Показатель Первично привитые Повторно привитые
имели реакцию не имели реакции не систематически систематически
имели реакцию не имели реакции имели реакцию не имели реакции
Эмпириче­ские числа (Р1) (р.)            
Ожидаемые числа (Р2)                
Разность (Р.-Р2)   17-   -41 -58  
Квадрат разности (P12)2            
22,3 11,1 35,0 17,3 25,5 13,0

 

III этап - определение разности между действительными и ожидаемыми числами (d = P1- Р2) в каждой изучаемой группе. По выделенным группам (см. табл. 4) надо произвести 6 таких вычис­лений (30-13 = 17; 9-26 = -17 и т. д.).

 

 

IV этап - возведение полученных разностей в квадрат: (P1 - Р2)2 = (30 - 13)2 = 172 = 289; (9 - 26)2 = 289 и т. д. (см. табл. 4).

V этап - деление полученной от произведения в квадрат разности на ожидаемое число по каждой группе:

1 –Р2)2 = 289 =22,3; 289 = 11,1; 1681 =35 и т.д.

Р2 13 26 48

VI этап - определение критерия х2 путем суммирования полу­ченных на предыдущем этапе данных:

Х2 = 22,3 + 11,1 + 35,0 + 17,3 + 25,5 + 13,0 = 124,2

Все указанные расчеты Х2 , произведенные поэтапно (в 6 этапов), можно свести к следующей классической формуле:

Х2 = = =

 

= 22,3+11,1+35,0+17,3+25,5+13,0=124,2

 

Для формулировки выводов о реактогенности вакцины необхо­димо сначала определить число степеней свободы по табл. 3 и оценить вычислительную величину х2. Число степеней свободы определяем по формуле: n' = (s – 1) (r -1) = (2-1) (3-1)=2. Сначала оценку величины Х2 осуществляем по критерию Романовского:

 

= 242,2-2 = 62, 1 = 31,05

√2х2 2

 

В данном случае критерий Романовского удовлетворяет основ­ному условию - его значение больше 3. Это свидетельствует о том, что различие эмпирических и теоретических данных статистически существенно, следовательно, систематичность прививок способст­вует уменьшению числа лиц, имеющих реакцию организма на прививку данной вакциной. Указанный способ используют для ориентировочной оценки результатов исследования, когда отсут­ствует специальная оценочная таблица значений х2.

Для более точной оценки критерия х2 необходимо определять степень вероятности (рх2) по специальной таблице значений х2 (см. приложение 2). По ней находим, что при двух степенях сво­боды вероятность нулевой гипотезы менее 0,05, если х2 равен 6,0 и более; при вероятности 0,01 критерий х2 должен быть более 9,2. Полученный при решении задачи критерий х2 намного больше указанных величин, следовательно, в результате исследования по­лучены статистически достоверные данные и выдвинутая научная гипотеза подтверждается с высокой степенью вероятности.

 

Вычисление х2 при сравнении двух альтернативных совокупностей

Как видно из решения предыдущей задачи, критерий х2 позво­ляет оценить достоверность данных и наличие связи между изу­чаемыми признаками, которые распределены более чем по двум группам. Приведенные расчеты трудоемки, использование специ­альной таблицы логарифмов или вспомогательных таблиц умно­жения позволяет сократить время расчета. Но особенно они упро­щаются при сравнении двух альтернативных совокупностей, когда полученные данные можно свести в четырехпольную таблицу, которая носит название таблицы контингентности (см. табл. 1). В случае такой четырехпольной таблицы, когда имеются всего 4 группы изучаемых данных, расчеты выполняют по следующей формуле:

х2 = (ad - bс)2 (а + b + с + d)

(а + b)(c + d)(a + c)(b + d)

Задача 1. При изучении патогенности и устойчивости к пенициллину 229 штаммов (патогенных и непатогенных) стафилокок­ков было обнаружено, что 45,4% из них являются устойчивыми к пенициллину. Остальные данные см. в табл. 1. Необходимо опре­делить, влияет ли патогенность стафилококка на их устойчивость к пенициллину

Решение

При наличии этих данных нет необходимости производить вы­числения ожидаемых чисел, а можно подставить соответствующие данные в вышеуказанную формулу:

Х 2 = (50 х 96 - 29 х 54)2 х 229 = 15,38

79x150x104x125

Вычисление х2 по классической формуле дает такой же резуль­тат, но расчеты более сложные:

Х2 = = =

 

= 5,45+4,55+2,98+2,40 = 15,38

 

Ожидаемые числа 36, 43, 68 и 82 получены обычным способом на основе нулевой гипотезы.

Число степеней свободы, учитывая условие задачи, составляет: п” = (2-1)(2- 1) = 1. При оценке х2 по формуле Романовского получаем:

 

R = 15,38-1 = 14,38 = 12

1,414

Так как критерий R больше 3, то нулевая гипотеза не подтвер­ждается и можно с уверенностью утверждать, что результаты ис­следования устойчивости патогенных штаммов стафилококков к пенициллину показали статистически достоверную зависимость.

Более точно достоверность полученных результатов можно оп­ределить по оценочной таблице критерия , которая дает возмож­ность установить степень вероятности нулевой гипотезы (р). Гра­ницей достоверности, как установлено и общепринято, считается вероятность 0,05 (или 5%), так как обычно статистическая досто­верность полученных результатов определяется с вероятностью не менее 95%. Естественно, что вероятность 99% считается более достоверной. Уровень значимости нулевой гипотезы, по данным задачи, составляет менее 0,01 (или 1%). Следовательно, можно утверждать, что в исследовании получены статистически значи­мые результаты с вероятностью достоверного прогноза более 99%. Как известно, в соответствии с теорией вероятности сумма двух взаимно противоположных возможностей всегда равняется едини­це, т. е. р + q = 1 (или 100%). Если нулевую гипотезу подтвержда­ют данные с вероятностью менее 1%, то остальные 99% и более (100-1 = 99) говорят в пользу научной гипотезы.

Одним из способов уменьшения неточности критерия х2 при небольшом числе наблюдений является использование поправки на непрерывность, которая называется поправкой Йейтса. Рас­смотрим применение этого способа.

 

Задача 2. При изучении эффективности прививок против эпи­демического паротита были получены следующие результаты:

Значение признака Заболели паротитом Не заболели паротитом Всего
Иммунизированы а=6. b = 14 (а + b) = 20
Не иммунизированы с = 16 d = 3 (c + d) = 19
Итого (а + с) = 22 (b + d) = 17 N = a + b + c + d =39

Необходимо определить достоверность эффективности вакци­нации

Решение:

Чтобы выяснить эффективность вакцинации, надо на указанном небольшом числе наблюдений доказать достоверность этого ут­верждения или считать его только предположением, недоказан­ным статистически. Более правильный результат можно получить, рассчитывая в четырехпольной таблице по формуле с поправ­кой Иейтса:

 

= = =

 

+ = 9,5

 

Используя оценочную таблицу критерия x2, можно сделать вы­вод, что при числе степеней свободы, равном 1, и величине x2, равной 9,5, вероятность нулевой гипотезы составляет менее 0,01, т. е. представленный материал даже на небольшом числе наблю­дений выявляет высокую степень достоверности данных об эф­фективности прививок против эпидемического паротита.

В некоторых случаях, когда в одной из клеток четырехпольной таблицы число наблюдений менее 20, рекомендуется применять точный метод Фишера, который позволяет сразу определять веро­ятность нулевой гипотезы (р) по формуле:

P = ,

где знак «!» обозначает факториал данного числа, т. е. произведе­ние натурального ряда последовательных чисел. Так, факториал 4 равен: 4! = 1х2хЗх4 = 24, факториал 5 равен:5! = 1х2хЗх4х5 = 120 и т.д.

Ниже приведен пример с условными данными, полученными в эксперименте на 17 животных по изучению противоопухолевого действия двух лекарственных препаратов А и Б:

Лечение Препарат Всего животных
А Б
Эффективно          
Не эффективно (без изменений)      
Итого      

 

Применив указанную формулу, можно сразу рассчитать веро­ятность нулевой гипотезы:

Р =

 

Полученная вероятность нулевой гипотезы очень высокая, так как составляет более 10%, следовательно, существование разли­чий между указанными лекарственными средствами на данном числе наблюдений не доказано (р > 0,05, или 5%) и нулевая гипо­теза не отвергается. Поскольку эффективность препаратов А и Б оказалась различной, то для доказательства достоверности резуль­татов эксперимента требуются продолжение исследований, увели­чение числа наблюдений.

Таким образом, оценка различий между сравниваемыми дан­ными научно-практических исследований в области медицины и биологии должна быть достаточно высока, чтобы считать разли­чия достоверными. Обычно в практике вариационной статистики для оценки результатов исследования выбирают вероятности 0,95 и 0,99, при которых доверительный критерий t соответственно ра­вен 1,96 и 2,58, а уровни их значимости (0,05 и 0,01) являются ве­личинами, указывающими на достоверность различий. В таблице значений , применяемой для оценки вычисленного критерия со­гласия, эти различия имеют обратный смысл. Так, если имеется сопряженность данных, вероятность которой, например, равна 0,9, то ей соответствует дополнительная вероятность противополож­ного события - т. е. составляет 0,1. Это означает, что соответствие отсутствует и изучаемая выборка распределена иначе, чем теоре­тическая. Только тогда признается вероятность достоверности вы­сокой, когда для исключения нулевой гипотезы нельзя считать достаточно дополнительную к ней вероятность. Отсюда для границами соответствия можно считать 0,05 и 0,01, так как веро­ятности 0,95и 0,99, обычно считаются достаточными для призна­ния различий между сравниваемыми явлениями достоверными. Непризнание или исключение первоначальной нулевой гипотезы происходит при р, равном 0,05. Хотя при этой вероятности нуле­вая гипотеза не признается, имеется еще 5% данных (или 5 слу­чаев из 100, или 1 случай из 20), что она может подтвердиться в отдельных наблюдениях.

Формулы для расчета х2 указанные в пунктах 2 и 3 приложе­ния 1, в медицинской практике используются реже, в основном их применяют при клинико-статистической характеристике результа­тов научных исследований. Методика расчета критерия х2 по этим формулам в настоящем издании не рассматривается, ее можно найти в специальной литературе.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...