Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Определение распространенности изучаемых синдромов.




Автор: к.м.н. Дерюшева А.В.

Опыт построения математической модели синдрома цитолиза при инфекционном мононуклеозе у детей

Цель исследования

Определение возможности применения различных статистических и аналитических методов для построения прогностической модели синдрома цитолиза при инфекционном мононуклеозе у детей.

Материалы и методы

Для построения математической модели синдрома цитолиза при мононуклеозе были использованы следующие методы:

- статистические - корреляция, логистическая регрессия;

- интеллектуальный анализ данных DataMining(построение ассоциативных правил, деревьев решений и искусственных нейронных сетей).

Анализ производился при помощи программ Biostat 2009, DeductorStudio, входящей в аналитическую платформу DeductorLite, разработанной в фирме BaseGroupLabs.

В качестве материала для исследования были использованы данные 46 наблюдений случаев острого мононуклеоза, потребовавших госпитализации в инфекционное отделение детской больницы.

Для построения математической модели, с целью упрощения расчетов, были выбраны только 8 критериев объективного и клинического обследования:

- гепатоспленомегалия;

- лимфаденопатия;

- острый тонзиллит (ангина);

- лейкоцитоз периферической крови (значения выше 13*10*9)

- атипичные мононуклеары в периферической крови (более 10);

- серопозитивностьIg М к ВЭБ;

-серопозитивностьIg Мк ЦМВ.

Первичные данные были занесены в электронную таблицу, причем условия в форме «да-нет» были закодированы числами (1- да, 0 – нет), таким образом, для анализа использовалось содержимое 368 ячеек (таблица размером 46*8).

 

Результаты и обсуждение:

Есть два подхода к анализу данных с помощью информационных систем.

В первом варианте программа используется для визуализации информации – извлечения данных из источников и предоставления их человеку для самостоятельного анализа и принятия решений. Обычно данные, предоставляемые программой, являются простой таблицей.

Второй вариант использования программного обеспечения для анализа – это построение моделей. Модель имитирует некоторый процесс. Для построения модели необходимо сделать предобработку данных и далее к ним применять математические методы анализа:кластеризацию, классификацию, регрессию и т. д. Построенную модель можно использовать для принятия решений, объяснения причин, оценки значимости факторов, моделирования различных вариантов развития.

В своем исследовании мы попытались построить модель развития синдрома цитолиза при инфекционном мононуклеозе у детей.

Определение распространенности изучаемых синдромов.

Согласно простых математических расчетов, изучаемые синдромы в исследуемой выборке из 46 наблюдений распределились следующим образом (рис 1):

Рис.1 Распространенность синдромов острого мононуклеоза у детей.

Синдром цитолиза в исследуемой выборке встречался в 39% случаев.

2. Корреляционный анализ. Вычисление коэффициента корреляции Пирсона. С помощью метода корреляционного анализа были вычислены попарные коэффициенты корреляции каждого из изучаемых синдромов (рис. 2). Полученные значения коэффициентакорреляции Пирсона (от -0,08 до 0,2) свидетельствуют о наличии слабых и разнонаправленных связей между изучаемыми признаками. То есть, обнаруженные на этом этапе анализа закономерности никак не могут быть использованы в практическом здравоохранении.

Рис. 2 Матрица попарных коэффициентов корреляции Пирсона.

На следующем этапе своего исследования мы применяли методы интеллектуального анализа данных, а именно DataMining.

DataMining – это процесс обнаружения в "сырых" данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

DataMining чаще всего решает четыре задачи — ассоциация, кластеризация, классификация и регрессия.

Ассоциация – выявление зависимостей между связанными событиями, указывающих, чтоиз события X следует событие Y. Такие правила называются ассоциативными.

Кластеризация – это группировка объектов (наблюдений, событий) на основе данных(свойств), описывающих сущность объектов. Объекты внутри кластера должны быть«похожими» друг на друга и отличаться от объектов, вошедших в другие кластеры. Чембольше похожи объекты внутри кластера и чем больше отличий между кластерами, темточнее кластеризация.

Классификация – установление функциональной зависимости между входными идискретными выходными переменными. При помощи классификации решается задачаотнесение объектов (наблюдений, событий) к одному из заранее известных классов.

Регрессия – установление функциональной зависимости между входными и непрерывнымивыходными переменными. Прогнозирование чаще всего сводится к решению задачирегрессии.

3. Л инейный регрессионный анализ.

Данный метод позволяет строить линейные зависимости между наборами объясняемых и объясняющих переменных. Задача линейной регрессии заключается в нахождении коэффициентов уравнения линейной регрессии, которое имеет вид:

y = + + +…+ (1.1)

где у – выходная (зависимая) переменная модели;

– входные (независимые) переменные

- коэффициенты линейной регрессии, называемые также параметрами модели ( - свободный член).

Задача линейной регрессии заключается в подборе коэффициентов уравнения (1.1) таким образом, чтобы на заданный входной вектор Х= ) регрессионная модель формировала желаемое выходное значение у.

В нашем случае входными переменными модели являются изучаемые синдромы, а у – прогнозируемое значение – цитолиз (есть- true, нет- false). В нашем случае выходная переменная является бинарной (может принимать только два значения), поэтому необходимо использовать специальную модификацию – логистическую регрессию, предназначенную для предсказания зависимой переменной, принимающей значение в интервале от 0 до 1, то есть на выходе модели могут появляться только два значения: 1- цитолиз есть (true), 0 – цитолиза нет (false). В этом случае задача прогнозирования фактически сводится к классификации, а именно к разделению пациентов на две группы. К первой группе будут отнесены пациенты, для которых прогноз развития синдрома цитолиза положительный, а ко второй группе – пациенты, для которых прогноз отрицательный. Логистическая регрессия служит не для предсказания значений зависимой переменной, а скорее для оценки вероятности того, что зависимая переменная примет заданное значение.

Анализ производился при помощи программы DeductorStudio. В визуализаторе «отчет по регрессии» оценивается статистическая значимость всей модели, а также каждого регрессионного коэффициента в отдельности (рис. 3)

Рис 3. Отчет логистической регрессии.

Помимо коэффициента для каждой регрессионной переменной в таблице рассчитывается отношение шансов (oddsratio) и балл – переведенное в линейную шкалу отношение шансов.

Отношение шансов OR – это отношение вероятности того, что событие произойдет к вероятности того, что событие не произойдет: OR = p / (1 – p), где p – вероятность успеха.

В нашем примере категориальный признак «печень+» имеет два веса: 1 при[отрицательная, нет] и 3,04 – при [положительная]. Это значит, что при наличии у больного синдрома гепатоспленомегалии («печень+») шансы развития синдрома цитолиза в 3 раза выше по сравнению с другими.

Качество произведенной классификации методом логистической регрессии оценено следующим образом:

- чувствительность (мера вероятности того, что любой случай будет идентифицирован с помощью модели) - составила 88%.

 

Рис.4 Качество классификации.

4. Метод нейронных сетей.

Для поиска закономерностей в большом массиве данных, а также для решения задач описательной статистики нами были использованы самоорганизующиеся карты (карты Кохонена).

Исходное множество данных (значения исследуемых признаков по каждому наблюдению) было распределено на два подмножества для последующего построения самоорганизующихся карт Кохонена, основанных на алгоритме кластеризации по методу ближайших соседей. При этом 95% исходного массива записей случайным образом было отобрано для обучающей выборки, а 5% - для тестовой.

Условием остановки процесса обучения самоорганизующейся карты являлось выполнение условия – в тестовом и обучающем множествах ошибка принимала значения меньше 0,05. Начальная инициализация карты Кохонена производилась из обучающего множества. Количество кластеров определялось автоматически при 1% уровне значимости. Автоматически вся выборка была разбита на 5 кластеров. На рис.5 приведена структура двух, самых больших кластеров (50% всей выборки).

Рис.5 Профили кластеров.

Распространенность изучаемых синдромов составляет:

- в кластере «0» (30% всей выборки):

синдром цитолиза – 99%, серопозитивность (М) к ВЭБ – 99%, лейкоцитоз – 99%, ангина – 2%, гепатоспленомегалия – 48%, атипичные мононуклеары- 19,6%, серопозитивность (М) к ЦМВ – 7,7%, лимфаденит – 79,8%;

- в кластере 1 (22% всей выборки):

синдром цитолиза – 100%, серопозитивность (М) к ВЭБ – 99%, лейкоцитоз – 44,6%, ангина – 43,8%, гепатоспленомегалия – 82%, атипичные мононуклеары- 60%, серопозитивность (М) к ЦМВ – 80,7%, лимфаденит – 36,3%.

Результаты работы алгоритма самоорганизующихся карт отображаются на девяти картах. Каждому входному полю соответствует своя карта.

Рис. 6. Матрица карт Кохонена.

Анализ полученных карт Кохонена позволяет сформулировать следующие выводы:

 

1. У всех больных с синдромом цитолиза, определялись такие клинико-лабораторные симптомы как лимфаденит и гепатоспленомегалия.

2. У большинства больных с синдромом цитолиза определялась ангина и лейкоцитоз периферической крови.

.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...