Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Анализ качественных признаков на основе логлинейной модели




Весьма распространенной проблемой в медицинских исследованиях является анализ качественных номинальных признаков, которые, как правило, представляются в виде кодов (например, цвет кожных покровов: розоватый -1, желтый -2, пунцовый -3 и т.д.). Интерес представляет частота встречаемости признаков в различных группах, а также сила и направление влияния одних признаков на другие. Нами уже были рассмотрены таблицы сопряженности 2×2, которые используются для анализа совместного распределения двух признаков, имеющих по две градации. Задачу можно сформулировать другими словами – оценка взаимного влияния двух двухуровневых факторов. Однако, встречаются более сложные случаи – многомерные таблицы сопряженности, например, нужно выяснить зависит ли срок госпитализации от возраста пациента и тяжести его состояния при поступлении в стационар (в каждую ячейку вводится число случаев ).

 

    сроки госпитализации
тяжесть состояния при поступлении возраст до 5 дней от 5 до 10 дней > 10 дней
легкая степень до 40 лет n111 n211
40-60 лет n112 n212
> 60 лет n113 n213
средняя степень до 40 лет n121 n221
40-60 лет n122 n222
> 60 лет n123 n223

 

В данном примере фактор А -«срок госпитализации» имеет три уровня (i =1,2,3), фактор В - «возраст» - два уровня (j =1,2), и фактор С –«тяжесть состояния» - три уровня (k =1,2,3).

Один из способов решения подобных задач – построение логлинейной модели вида:

+ + ,

 

где - теоретические частоты наблюдений

λ - логарифмы эффектов различных сочетаний факторов А, В, и С на различных уровнях (интерпретируется как вклад факторов и их сочетаний в частоту).

Переходя от логарифмов к натуральным значениям, получают теоретические (ожидаемые) частоты .

Рассмотрим пример реализации логлинейного анализа в ППП STATISTICA с последующей интерпретацией результатов. Задача состоит в оценке факторов риска развития артериальной гипертензии. Анализировалась частота встречаемости следующих признаков (факторов)

 

Имя переменной Расшифровка
АГ 1 – есть АГ, 2 – нет АГ
Курение не курит -1, курит -2
Потребление алкоголя не потребл. – 1, потребл. -2
Потребление соленой пищи не потребл. – 1, потребл. -2
Наследственный фактор АГ нет -1, есть -2

 

Исходные данные представляются в виде матрицы n×m, где n - количество обследованных, m -число признаков. Фрагмент этой матрицы показан в таблице. Общий объем выборки составил 607 человек.

 

Курение Потр.Алког. Потр. сол.пищи Наследств (АГ) АГ
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           

 

Если какие-то ячейки таблицы сопряженности окажутся пустыми – не встречается данное сочетание факторов, то программа автоматически вставляет в эту ячейку величину 0,5, что никак не влияет на конечные результаты.

Анализ проводится в модуле Nonlinear Estimation, для запуска которого надо в меню Statistics выбрать команду Advanced Linear/Nonlinear Models (линейные/нелинейные модели). В открывшемся меню выбрать команду Nonlinear Estimation (нелинейная оценка), а затем опцию Log-Linear analysis of Frequency Tables (логлинейный анализ) – «ОК».

В открывшемся окне необходимо указать форму задания исходных данных input file Raw Data, и выбрать переменные из списка, щелкнув кнопкой Variables: в нашем примере отмечаем все признаки (факторы). Нажмите ОК. В открывшемся окошке Log-Linear model specification вы увидите, что фактор курения имеет код 1, потребление алкоголя - 2, потребление соли - 3, наследственный фактор - 4, наличие гипертонии (АГ) – 5.

Нажмите на кнопку Tests of Marginal and Partial Association (проверка общих и частных взаимосвязей), появятся две таблицы. Первая из них «Results of Fitting all K-Factor Interactions», показывает результаты проверки нулевой гипотезы о независимости числа случаев от факторов и их сочетания. Проверка осуществляется по критерию максимального правдоподобия и по критерию хи-квадрат Пирсона.

 

Results of Fitting all K-Factor Interactions These are simultaneous tests that all K-Factor Interactions are simultaneously Zero.  
  Degrs.of Freedom (число ст.св.) Max.Lik.Chi-squ.(критерий макс. правдоподобия) Probab.p (р-уровень) Pearson Chi-squ (хи-квадрат Пирсона) Probab.p (р-уровень)
K-Factor
    704,4 0,000   0,000
    206,2 0,000   0,000
    6,7 0,754   0,798
    4,3 0,511   0,527
    0,9 0,342   0,344

 

При К =1 и 2 р <0,05, т.е. влияние самих факторов и их попарных сочетаний статистически значимо, а сочетания по 3, 4 и 5 факторов – незначимо.

Во второй таблице «Tests of Marginal and Partial Association» представлены данные о связи факторов и их сочетаний с ожидаемыми частотами наблюдений (рассчитанными по логлинейной модели). Из нее видно, что статистически значимыми являются 9 эффектов (р<0,05 по критерию максимального правдоподобия и по критерию хи-квадрат Пирсона).

 

tests of Marginal and Partial Association  
Effect Degrs.of Freedom (число ст.св.) Prt.Ass. Chi-sqr. (частные взаимосв., хи-квадрат) Prt.Ass. P (частные взаимосв., р -уровень) Mrg.Ass. Chi-sqr. (общие взаимосв., хи-квадрат) Mrg.Ass. P (общие взаимосв., р -уровень)
    209,8 0,000 209,8 0,000
    141,4 0,000 141,4 0,000
    178,2 0,000 178,2 0,000
    74,3 0,000 74,3 0,000
    100,7 0,000 100,7 0,000
    69,5 0,000 69,5 0,000
    1,3 0,257 0,3 0,576
    0,0 0,874 0,8 0,383
    0,2 0,631 0,0 0,825
    2,8 0,092 1,5 0,221
    10,6 0,001 10,9 0,001
    0,3 0,585 0,3 0,567
    0,3 0,593 3,2 0,076
    8,5 0,004 11,7 0,001
    106,5 0,000 109,6 0,000
    0,9 0,346 1,3 0,263
    0,1 0,758 0,3 0,577
    1,6 0,201 2,3 0,128
    0,0 0,880 0,0 0,899
    0,6 0,440 0,8 0,384
    0,7 0,396 0,2 0,653
    1,0 0,322 1,1 0,289
    0,0 0,873 0,3 0,615
    0,1 0,702 0,0 0,840
    0,9 0,341 0,7 0,392
    0,6 0,449 0,6 0,457
    0,1 0,750 0,9 0,345
    0,2 0,665 0,4 0,550
    2,7 0,098 2,7 0,099
    0,0 0,978 0,1 0,722

 

Так как нас интересует фактор наличия артериальной гипертонии (код 5) и связь его с другими изучаемыми факторами из данной таблицы выберем статистически значимые взаимодействия – это 3-5 и 4-5.

О степени влияния того или иного фактора судят по отношению данного фактора к сумме всех факторов (в%).

 

Effect Degrs.of Freedom Prt.Ass. Chi-sqr. Prt.Ass. p %
    100,7 0,000  
    8,5 0,004  
    106,5 0,000  
    Σ=215,7    

 

Т.е. на 49% развитие артериальной гипертензии зависит от наследственных факторов, на 4% - от излишнего потребления соли и на 47% от других факторов, которые не рассматриваются в данном исследовании.

Вернитесь в окошко Log-Linear model specification и нажмите ОК. Появятся результаты автоматического поиска оптимальной модели для ожидаемых частот наблюдения.

 

  Table to be analyzed: (1) (2) (3) (4) (5) Курение Потр.Алк Потр. со Наследст АГ 2 x 2 x 2 x 2 x 2   Minimum cell frequency: 1, Maximum: 188, Sum: 607,   Model to be tested: 21,53,42,54   Delta:,5000; Maximum iterations: 50; Conv. criterion:,0100 Convergence reached after 2 iterations df p Maximum Likelihood Chi-square: 16,269 22,80231 Pearson Chi-square: 15,922 22,81976  

 

Оптимальной оказалась модель, включающая взаимодействия 2-1, 5-3, 4-2, 5-4. Значимость модели проверяется по критериям максимального правдоподобия и по критерию хи-квадрат Пирсона. Нулевая гипотеза заключается в равенстве наблюдаемых и рассчитанных по модели ожидаемых частот. Т.к. р =0,8 (т.е.>0.05) нулевая гипотеза принимается и модель считается адекватной.

Более содержательный разбор наблюдавшихся частот можно провести, рассматривая таблицы 2×2 для попарного сочетания уровней факторов. Для этого нажмите кнопку Observed table (наблюдаемые частоты) и в появившемся окошке выберем, например, АГ и наследственный фактор. Появится 8 таблиц, первая из них

 

Obs. Freq. (+delta): АГ by Наследств (АГ) w/in vars: Курение:1 (нет) Потр.Алког.:1 (нет) Потр. сол.пищи:1 (нет)  
  Наследств фактор 1 (нет) Наследств фактор 2 (есть) Total
АГ
1 (есть) 32,5 45,5  
2 (нет) 188,5 35,5  
Total 221,0 81,0  

 

Среди тех кто не курит, не пьет, не потребляет излишне соль гипертоники встречаются в 224/78=2,9 раза реже, чем здоровые. Причем среди гипертоников лиц с наследственным фактором в 45,5/35,5=1,3 больше, чем лиц без него.

Такой же анализ можно провести относительно других факторов и их сочетания.

Для задач прогнозирования используется опция Fitted table (ожидаемые частоты). Аналогично получаем таблицу

 

Fitted Freq.: Потр. сол.пищи by АГ w/in vars: (Логит-АГ) Курение:1 Потр.Алког.:1 Наследств (АГ):1  
  Потр. сол.пищи 1 (нет) Потр. сол.пищи 2 (да) Total
АГ
1 (есть) 22,1 45,0 67,1
2 (нет) 38,8 9,7 48,5
Total 60,9 54,7 115,6

 

Если человек не курит, не потребляет алкоголь, не имеет наследственную отягощенность и не потребляет много соли, то вероятность АГ составляет 22,1/60,9*100%=36%, а его отсутствия - 64%.


 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...