Коэффициент корреляции рангов К. Спирмена
Если • закон распределения случайной величины неизвестен или он не соответствует нормальному • имеем дело с неколичественными данными (например, номинальными величинами) • выборка мала то используется коэффициент корреляции рангов К. Спирмена
где di — разность между рангами сопряженных признаков, n — число парных членов ряда. При расстановке рангов необходимо учитывать, что равным по значению величинам присваивается ранг равный среднему арифметическому их номеров в ранжированном ряду. При полной связи ранги признаков совпадут, и разность между ними будет равна 0, соответственно коэффициент корреляции будет равен 1. Если же признаки варьируются независимо, коэффициент корреляции получится равным 0 Для проверки гипотезы о значимости коэффициента корреляции Спирменаможно воспользоваться таблицей критических значений (Приложение 6). Если вычисленный коэффициент корреляции превышает табличное значение, то связь между величинами признается статистически значимой.
Линейная регрессия
Вернемся к графику, который показывает зависимость между ростом и весом (рисунок 24). Мы уже оговорили, что между этими величинами существует связь и эта связь линейная. А теперь попытаемся вывести некоторую функцию (математическое правило), которая позволяла бы определять, хотя бы приблизительно, изменение веса при изменении роста.
Регрессия – это функция, связывающая зависимую величину y с независимой величиной x. Она показывает, как в среднем изменяется y при изменениях x. Из математики нам известны различные функции: линейная, квадратичная, экспоненциальная, тригонометрические и т.д. Простейшей функцией является линейная, график этой функции изображен на рисунке 26. Уравнение линейной регрессии имеет вид
где – зависимая переменная, x – независимая переменная, b0 и b1 – постоянные коэффициенты Основная задача регрессионного анализа найти постоянные коэффициенты b0 и b1 и оценить их статистическую значимость. Дело в том, что через точки на диаграмме рассеяния можно провести сколь угодно много прямых линий (вывести множество функций), все они будут отличаться друг от друга коэффициентами b0 и b1. Необходимо выбрать из них такую, которая наилучшим образом описывает связь между y и x. Одним из способов сделать это - применить метод наименьших квадратов (МНК). Как уже отмечалось, уравнение регрессии показывает, как в среднем меняется y, т.е. конкретные его значения, полученные в опыте, и рассчитанные по уравнению могут не совпадать – есть некоторая ошибка. Из рисунка 27 видно, что для одних значений y эта ошибка меньше, для других – больше.
Рисунок 27
Суть МНК в том, чтобы вывести такое уравнение регрессии, для которого сумма квадратов всех ошибок была бы наименьшей. После некоторых математических выкладок, которые мы здесь приводить не будем, можно получить, что такое уравнение имеет следующие коэффициенты b1 и b0.
Уравнение регрессии фактически является математической моделью взаимосвязи двух случайных величин. Качество этой модели, т.е. насколько хорошо она отражает эту связь, можно оценить с помощью коэффициента детерминации R2, который равен квадрату коэффициента корреляции между величинами (×100 %). Он показывает, сколько процентов исходных (выборочных) данных вписывается в полученную модель, или какой процент изменчивости y объясняется влиянием x.
Уравнение регрессии, как правило, используются для прогноза, т.е. по нему, зная величину x, можно вычислить возможное значение y. При этом вы должны быть уверены, что общая тенденция развития явления сохранится за пределами наблюдений. В противном случае прогноз можно осуществлять только в пределах наблюдаемых значений x. Предположим мы прогнозируем некоторое значение у при заданном х=х0. Тогда доверительный интервал для прогноза составляет
где – среднеквадратичное отклонение у вследствие ошибок модели, t -критерий Стъюдента для заданного α и f=n-2
Если независимых переменных много x1, x2, x3, x4, т.д., то возможно построение уравнение множественной линейной регрессии
Например, САД зависит от возраста, ИМТ, рациона питания и т.д. (см. таблицу).
Уравнение регрессии имеет вид
В данном примере коэффициент множественной корреляции равен 0,6, т.е. модель объясняет до 36% вариаций систолического артериального давления. Она является статистически значимой (т.е. не случайной). Если судить по p- уровню, то САД зависит от возраста, содержания холестерина в крови и от индекса массы тела. Связь с уровнем липидов не подтверждается. В таблице ниже приведены частные коэффициенты корреляции отдельных признаков с САД, а также оценка их статистической значимости. Самая сильная связь наблюдается с индексом массы тела (r = 0,563), с возрастом и уровнем холестерина связь слабая, а с ЛПВП - статистически незначимая.
Перед использованием множественной регрессии проверьте соблюдение некоторых условий: - зависимая величина является количественной непрерывной, а независимые - могут быть количественными или ординальными - независимые величины не должны сильно коррелировать между собой, в этом случае нужно отобрать один наиболее значимый признак - число наблюдений должно примерно в 10 раз превосходить число анализируемых признаков Если взаимосвязь между величинами имеет более сложный характер, чем линейный, то возможны нелинейные модели, например такого вида
Для анализа таких моделей также существуют статистические методы, однако для их освоения требуются специальные математические знания. Описание этих методов можно найти в специальной литературе.
Анализ выживаемости
Анализ выживаемости - статистический анализ, разработанный для изучения, оценки и сравнения времени, прошедшего до наступления некоторого события (появления метастазов, выздоровления, гибели, обострения заболевания). Выживаемость S(t) (Survive) – вероятность «прожить» время большее t с момента начала наблюдения. Термин впервые был введен страховыми агентами, которые оценивали продолжительность жизни.
Таким образом, выживаемость– это вероятность ненаступления события до некоторого момента времени. События могут быть различные, не только нежелательные (гибель объекта), но и желательные – выздоровление, беременность при лечении от бесплодия, вступление в брак … Свойства функции S(t) S(t) =1, если t =0: в самом начале исследования ожидаемое событие не произошло ни у кого из наблюдаемых. Вероятность “дожития” до этого момента равна 1. S(t) =0, если t =∞: в конце исследования событие произошло у всех наблюдаемых. Вероятность “дожития” до этого момента = 0. График функции S(t) – кривая выживаемости отражает вероятность пережить любой из моментов времени t (рисунок 28). Время может измеряться в любых известных единицах (дни, месяцы и др).
Рисунок 28
График может быть крутым, тогда говорят, что выживаемость низкая, т.е. ожидаемое событие наступило быстро у всех испытуемых. График может быть пологим, тогда выживаемость – высокая, т.е. потребовалось много времени, чтобы ожидаемое событие наступило у всех испытуемых. Кривая выживаемости используется, в частности, для определения медианы выживаемости и других процентилей времени жизни. Время, до которого доживет половина испытуемых, называется медианой выживаемости (Ме). Если событие не наступило у половины испытуемых вообще, то медиану определить невозможно, тогда определяют, время, до которого “дожили” (т.е. событие не наступило) три четверти всех испытуемых (75%). При сравнении двух кривых и более, по медиане можно оценить выживаемость в разных группах. Для построения кривой выживаемости необходимо одновременно начать наблюдение за всеми привлеченными к исследованию и всех «довести» до наступления события. Как правило, не все наблюдения начинаются одновременно, и не все заканчиваются одновременно, по разным причинам. Случается, что больной покидает больницу досрочно, или само исследование заканчивается до наступления события у данного конкретного участника, и мы не знаем, что с ним произошло в дальнейшем. Т.е. мы имеем дело с неполными (цензурированными) данными. Для построения кривой выживаемости по цензурированным данным используется метод Каплана-Майера. Предварительно строится так называемая таблица времени жизни.
Выживаемость рассчитывается как произведение по всем моментам времени, когда произошло хотя бы одно событие
Вернемся к проблеме эффективности химиотерапии у больных с грибковым заболеванием кожи. Проведено исследование: I группа: 40 пациентов, получавших от 1 до 8 курсов специфической химиотерапии (преимущественно проспидином). II группа: 32 пациента, никогда не получавших цитостатики, у которых применялись различные комбинации витаминотерапии, гормонотерапии, иммуностимулирующей и лучевой терапии (рисунок 31).
Рисунок 31
Выживаемость пациентов с момента начала заболевания в группе II лучше, чем в группе I (рис. 31). Медиана выживаемости в группе I составила 24 года, в группе II медиана выживаемости не определяется, так как за время наблюдения за группой умерло менее половины наблюдаемых. Заключение. Результаты нашего исследования позволяют сделать вывод о том, что цитостатическая терапия отрицательно повлияла на продолжительность жизни больных лимфомами кожи низкой степени злокачественности в изученной группе. Проведенный ретроспективный анализ выживаемости выявил отчетливую закономерность во влиянии проводимой терапии на отдаленные результаты лечения и выживаемость пациентов, что может послужить достаточным базисом для выработки обоснованной тактики лечения больных изученной патологией.
Методы прогнозирования Обычно под прогнозированием понимается процесс предсказания будущего основанное на некоторых данных из прошлого, т.е. изучается развитие интересующего явления во времени. Тогда прогнозируемая величина рассматривается как функция времени . Однако, в медицине рассматриваются и другие виды прогноза: прогнозируется диагноз, диагностическая ценность нового теста, изменение одного фактора под действием другого и т.д. В этом разделе мы познакомимся с прогнозированием во времени. Как уже было отмечено, прогноз осуществляется на основании некоторой информации из прошлого (базы прогноза). Прежде чем подобрать метод прогнозирования полезно хотя бы качественно оценить динамику изучаемой величины в предыдущие моменты времени. На представленных графиках (рисунок 32) видно, что она может быть различной. В первом случае наблюдается относительная стабильность с небольшими колебаниями вокруг среднего значения. Во втором случае динамика носит линейно возрастающий характер, в третьем – зависимость от времени нелинейная, экспоненциальная. Четвертый случай – пример сложных колебаний, имеющих несколько составляющих. Рисунок 32
Экстраполяция – наиболее распространенный метод краткосрочного прогнозирования (1-3 временных периода) заключающийся в продлении предыдущих закономерностей на будущее. Применение экстраполяции в прогнозировании базируется на следующих предпосылках: • развитие исследуемого явления в целом описывается плавной кривой; • общая тенденция развития явления в прошлом и настоящем не претерпит серьезных изменений в будущем.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|