Главная | Обратная связь | Поможем написать вашу работу!

Оценка факторов риска и прогнозирование на основе логистической регрессии

Оценка рисков и влияния факторов риска являются важными задачами медицинских исследований – на основании этих данных строятся профилактические мероприятия и прогнозируются исходы тех или иных методов лечения. Как правило, в поиске наиболее значимых анализируется множество факторов, которые могут быть измерены по разным шкалам – непрерывным, дискретным, ординальным, номинальным. В этом случае есть проблема подбора адекватного многомерного статистического метода, не ограниченного какими-либо особыми рамками.

Логистическая регрессия используется, когда зависимая величина является бинарной (т.е. принимает значения да/нет, имеет/не имеет, например, пациент может выздороветь, а может не выздороветь, нуждается в госпитализации или не нуждается и т.д.) и на ее исход влияют независимые переменные различного характера (качественные и/или количественные). Фактически оценивается вероятность принять одно из этих двух утверждений под влиянием изучаемых признаков. Логит этой вероятности – натуральный логарифм отношения вероятности «положительный эффект» (р) к вероятности «отрицательный эффект» (1- р).

Величина является непрерывной и принимает значения в интервале от 0 до 1 (от отрицательного эффекта к положительному эффекту).

Процедура логистической регрессии заключается в создании и оценке уравнения вида

где x₁, x₂, x₃, – независимые переменные, b₀ и b₁, b₂, b₃,…– постоянные коэффициенты

Тогда вероятность положительного эффекта

Рассмотрим пример построения логистической регрессии в программе «STATISTICA-6».

В таблице представлены некоторые факторы, которые возможно влияют на риск возникновения артериальной гипертензии (АГ).

Имя переменной	Расшифровка	Тип данных
АГ	0 – есть АГ, 1 – нет АГ	номинальный бинарный
Возраст, лет	возраст, лет	количественный
Курение	не курит -0, курит -1	номинальный
Потребление алкоголя	не потребл. – 0, потребл. -1	номинальный
Потребление соленой пищи	не потребл. – 0, потребл. -1	номинальный
Пол	1 - мужской, 2 - женский	номинальный
Вес	6 категорий	ординальный
Наследственный фактор АГ	нет -0, есть -1	номинальный

Необходимо определить какое влияние на вероятность АГ оказывают отобранные переменные. Исходные данные представляются в виде матрицы n×m, где n - количество обследованных, m -число признаков. Фрагмент этой матрицы показан в таблице. Общий объем выборки составил 607 человек.

№	АГ	Возраст	Курение	Потребл. алкогол.	Потр. сол.пищи	Пол	Вес	Наследств. (АГ)

Анализ проводится в модуле Nonlinear Estimation, для запуска которого надо в меню Statistics выбрать команду Advanced Linear/Nonlinear Models (линейные/нелинейные модели). В открывшемся меню выбрать команду Nonlinear Estimation (нелинейная оценка), а затем опцию Quick Logit regression (логит регрессия) – «ОК».

В открывшемся окне необходимо указать зависимую и независимые переменные из списка переменных, щелкнув кнопкой Variables. Зависимой переменной (откликом) является «АГ», независимой – все остальные. Нажмите ОК. Программа возвратится в начальное диалоговое окно.

С помощью строки Input File contains (введите содержимое файла) отметьте вариант: Codes and no count (только коды) и вновь нажмите на ОК.

Откроется окно Model Estimation. Во вкладке Advanced можно выбрать процедуру оценивания — Estimation method. Выберем: quasi-Newton. Поставьте птичку в окошке Asymptotic standart errors. ОК.

Появится диалоговое окно Results. Видно, что значение параметра Chi-square (хи-квадрат) = 294,6 велико, а значение р =0,000000 - мало. Это говорит о достаточной адекватности выбранной модели. Качество модели можно оценить и по классификационной матрице во вкладке Classification of cases and odds ratio

Odds ratio (Отношение шансов) = 8,054

Наблюдаемый Предсказа нный Предсказанный % корректных предсказаний

В целом информационная способность модели составляет

470/607*100%=77%

Отношение шансов показывает, что классификация по модели в 8 раз корректнее, чем если бы мы предсказывали исход случайным образом.

Кнопка Summary. Parameter estimates на вкладке Advanced предназначена для визуализации предсказанных значений коэффициентов b₀, b₁, b₂, b₃, b₄, b₅, b₆, b₇ уравнения логит регрессии.

Model: Logistic regression (logit) N of 0's:427 1's:180 (Логит-АГ) Dep. var: АГ? Loss: Max likelihood (MS-err. scaled to 1) Final loss: 294,57107701 Chi?(7)=148,85 p=0,0000

Const.B0 Пол Возраст Курение Потребл. алкогол. Потр. сол.пищи Вес Наследств (АГ)

Estimate (оценка коэффициента) -4,725 0,278 0,030 0,014 -0,270 0,614 0,122 1,921

Standard Error (ст.ошибка коэффициента) 0,690 0,237 0,007 0,298 0,252 0,233 0,055 0,209

t-Стюдента (599) -6,849 1,174 4,256 0,048 -1,073 2,637 2,241 9,213

p -level 0,000 0,241 0,000 0,961 0,284 0,009 0,025 0,000

-95%ДИ -6,080 -0,187 0,016 -0,572 -0,765 0,157 0,015 1,511

+95%ДИ -3,370 0,744 0,044 0,600 0,224 1,071 0,230 2,330

Wald's Chi-square (хи-квадрат критерий Вальда) 46,910 1,379 18,114 0,002 1,152 6,955 5,020 84,874

p -level 0,000* 0,240 0,000* 0,961 0,283 0,008* 0,025* 0,000*

Odds ratio (unit ch) Отношение шансов 0,009 1,321 1,030 1,015 0,763 1,847 1,130 6,827

-95%ДИ 0,002 0,829 1,016 0,565 0,465 1,170 1,015 4,533

+95%ДИ 0,034 2,104 1,045 1,823 1,252 2,918 1,258 10,282

Odds ratio (range) Отношение шансов 1,321 9,349 1,015 0,763 1,847 3,012 6,827

-95%ДИ 0,829 3,333 0,565 0,465 1,170 1,146 4,533

+95%ДИ 2,104 26,224 1,823 1,252 2,918 7,915 10,282

Первые три строки таблицы дают нам значения коэффициентов логистической регрессии, их стандартные ошибки, статистическую значимость по критерию Стъюдента и доверительный интервал для каждого коэффициента.

Статистическую значимость можно оценить и по критерию хи-квадрат Вальда. Из таблицы видно, что статистически незначимыми являются коэффициенты для факторов «пол», «курение» и «потребление алкоголя» (р>0,05), т.е. для них принимается нулевая гипотеза о равенстве отношения шансов единице, т.е. эти факторы не влияют на риск развития артериальной гипертензии.

Влияние всех других факторов можно оценить по величине отношения шансов (ОШ) и доверительным интервалам для них. Значительно повышает риск артериальной гипертензии наследственный фактор - в 6,8 (4,5-10,3) раз. Далее идет «потребление соли» – в 1,9 (1,2-2,9) раз, «вес» – ОШ от 1,0-1,3, а возраст фактически не ассоциирован с риском АГ (ОШ=1,016-1,045).

Теперь рассмотрим, как можно использовать полученную модель для прогнозирования. Пусть обследуется пациент со следующими признаками:

мужчина в возрасте 45 лет, вес 75 кг (3 весовая категория), курит, алкоголь не потребляет, любит соленую пищу, отец гипертоник.

Рассчитаем

=-0,196

Вероятность положительного эффекта (отсутствия АГ)

Тогда вероятность развития АГ =1-0,45=0,55

⇐ Предыдущая 7 8 9 10 111213 14 15 16 Следующая ⇒

Воспользуйтесь поиском по сайту: