Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Вопросы к экзамену "Статистическая обработка и анализ данных"




Вопросы к экзамену " Статистическая обработка и анализ данных"

1. Количественные и качественные переменные. Понятие о категориальных, номинальных и порядковых данных.

При различных исследованиях в статистическом анализе могут участвовать данные разных типов. Для корректного использования статистических методов важно представлять, какого типа данные будут обрабатываться. Упрощенно можно разделить их на два основных типа: качественные и количественные.

Качественные (категориальные) переменные

Номинальные (номинативными)(nominal data) — с этими данными ничего нельзя сделать – нельзя выполнять арифметические операции (складывать и т. п. ) и упорядочивать. Например: пол (муж/жен), группа крови, да – нет. Признаки могут быть оцифрованы: 1 - да, 0 – нет.

Порядковые (ординальные) (ordinal data) — над этими данными нельзя выполнять арифметические операции (складывать), но можно упорядочивать. Например: степень тяжести заболевания (легкая, средняя, тяжелая), оценки - плохо, удовлетворительно, хорошо.

Количественные (числовые) переменные (numerical)

Непрерывные Данные, которые могут принимать любое значение на непрерывной шкале. Другое название - признаки, измеряемые в интервальной шкале (температура, АДС, рост, вес)

Дискретные. Целочисленные значения, типичные для счета. Онипринимают, как правило, конечное число значений, хотяиногда и очень большое: количество смертей в течениегода, количество пропущенныхрабочих дней.

При необходимости из количественных данных всегда можно получить качественные, разбив количественную шкалу на интервалы и поименовав их.

2. Статистические оценки (среднее выборочное, выборочная дисперсия, среднеквадратическое отклонение, мода, медиана, таблица частот), принцип расчета и интерпретация. Вычисление статистических оценок в R.

> mean(mydata[, 1])- среднее. Выборочным средним называется среднее арифметическое всех значений выборки. Точечная оценка мат. ожидания. x =(x1+x2+... +xn ) /n

> median(mydata[, 1]) – медиана – величина, делящая вариационный ряд на 2 равные части.

Если n четно, то me=(Хn/2+Xn/2+1)/2 1, 2, 2, 3, 4, 5 me=2, 5; 1, 2, 3, 4, 5 me=3

Одна числовая характеристика не дает полного представления о статистическом распределении.

> var(mydata[, 1]) – дисперсия. Насколько сильно происходит отклонение от выборочной средней.

S2 – исправленная выборочная дисперсия, не смещена в отличие от Dв – выборочная дисперсия

> sd(mydata[, 1]) – СКО. Арифметическое значение квадратного корня из выборочной дисперсии называется выборочным средним квадратическим отклонением. Наиболее распространённый показатель рассеивания значений случайной величиныотносительно её математического ожидания.

Так как значения в выборках все различны моду найти нельзя. Мода – наиболее часто встречающаяся варианта

Таблица частот. Пусть дан вектор

MyVec = {z1, z2, z3, ..., zn}

1. Дискретная таблица частот

table(MyVec)

2. Интервальная таблица частот

table(cut(MyVec, k))

где k - количество интервалов

3. Гистограмма частот и функция плотности вероятности. Построение в R.

Гистограмма простая

hist(MyVec)

Гистограмма с заданным числом интервалов (m=6)

hist(MyVec, breaks=6)

Гистограмма с определенными границами интервалов

table(cut(MyVec, 6))

(103, 190] (190, 277] (277, 363] (363, 449] (449, 536] (536, 623]

b< -c(103, 190, 277, 363, 449, 536, 623)

hist(MyVec, breaks=b, ylab=”плотность”, xlab=“интервалы“, main = “Гистограмма“, col=“green“,

density = 20, freq = FALSE, plot=TRUE)

Добавляем на диаграмму кривую плотности вероятности

lines(density(MyVec), col = “red“, lwd = 2)

Добавляем на диаграмму кривую плотности теоретического норм. распр.

curve(dnorm(x, mean=mean(MyVec), sd=sd(MyVec)), add=TRUE, col=“darkblue“, lwd=2)

4. Что такое p-value?

P-value - это вероятность, которая показывает насколько наши данные соответствуют H0.

Если p-value мало, то H0 - малореалистична.

p-value < α ⇒ H0 отвергаем на ур. знач α

p-value > α ⇒ H0 принимаем на ур. знач α

P-value - это вероятность получить наблюдаемый результат (или еще более нетипичный) при условии того, что H0 верна.

5. Проверка гипотез о нормальном распределении генеральной совокупности. Проверка гипотез в R.

Напомним, что нормальное распределение является симметричным и колоколообразным, так что все характеристики его среднего значения — математическое ожидание, мода и медиана — совпадают друг с другом. Нормальное распределение является непрерывным, причем нормально распределенная случайная величина принимает произвольные значения, лежащие на всей числовой оси.

Многие непрерывные случайные величины не являются ни точно, ни приближенно нормальными. Свойства таких величин довольно сильно отличаются от свойств нормального распределения.

Применению большинства методов статистического анализа числовых данных непрерывного типа предшествует проверка выборочных данных на согласие с нормальным распределением, поскольку эти методы (в том числе многие методы корреляционного, регрессионного анализа и др. ) исходят из предположения нормальности распределения изучаемых данных. Существует несколько тестов (критериев согласия), которые позволяют проверить гипотезу о нормальности распределения. К ним относятся критерии хи-квадрат, Колмогорова-Смирнова, критерии асимметрии и эксцесса и др. Одной из главных особенностей этих методов является требование достаточно больших объемов (сотни или тысячи) анализируемых данных для получения надежных выводов. При небольшом объеме выборки эти методы способны отвергнуть гипотезу о нормальности распределения только при грубом отклонении от нормального распределения.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...