Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

23. Что такое выбросы? Что такое NA? И что с ними делать?




23. Что такое выбросы? Что такое NA? И что с ними делать?

NA — пропущенные данные (not available - недоступно)

Удаление NA в векторе MyX

MyX< -MyX[! is. na(MyX)]

Удаление строк с NA из таблицы MyTable

Вариант 1 na. omit(MyTable)

Вариант 2 MyTable[complete. cases(MyTable), ]

Удалить строки с NA в заданном столбце (3)

MyTable[complete. cases(MyTable[, 3]), ]

Заменить NA на среднее значение по столбцу A1

MyTable$A1[is. na(MyTable$A1)] < -mean(MyTable$A1, na. rm=TRUE)

Выброс (англ. outlier) - в статистике результат измерения, выделяющийся из общей выборки.

Удаление выбросов в данных с помощью boxplot в R

Функция boxplot() не только рисует картинку, но и сохраняет все ее параметры в объекте, из которого мы можем их достать.

Выбросы:

boxplot. stats(MyX)$out

1. Заменить выбросы на NA

MyX[MyX %in% boxplot. stats(MyX)$out]< -NA

2. удалить строки с NA

24. Команды среды R для построения графиков и визуализации данных.

plot(x)- График значений х (на оси у), упорядоченные на оси х

 

plot(x, у) -Двумерный график

 

sunflowerplot(x, y) -Двумерный график(аналог plot()), но точки на графике закрашены.

 

piechart(x) -Круговая диаграмма

 

boxplot(x) -Ящик с усами

 

coplot (x~y|z)- Двумерный график х и у для каждого значения z(если z-коэффициент(фактор))

 

interaction. plot(f1, f2, x)-Если f1 и f2 - коэффициенты(факторы), составляет график средних значений y (на оси Y) относительно значений f1 (на оси X) и f2 (различные кривые); параметр fun = позволяет выбирать основную статистику y (по умолчанию fun=mean)

 

matplot (x, y) - Двумерный график первого столбца x с первым из y, второй из x со вторым из y, и т. д.

 

dotplot (x)- Если x - data. frame, производится построение Кливлендского точечного графика.

 

pairs(x)- Если x - матрица или data. frame, рисует все возможные двумерные графики между столбцами x

 

plot. ts (x)- Если x - объект класса ts, то отображает график x относительно времени, x может быть многомерен, но ряды должны иметь ту же самую частоту и дату

 

ts. plot (x)- Аналог предыдущему, но если x многомерен, ряды могут иметь различные даты, а частоты те же самые

 

hist(x) -Гистограмма частот х

 

barplot (x)- Гистограмма значений х

 

qqnorm (x)- Множество значений x относительно значений, ожидаемых согласно нормальному закону

 

распределения

 

qqplot (x, y)- Множество значений y относительно множества x

 

contour(x, y, z)- Создает график контура (используются интерполированные данные), x и y должны быть векторами и z должна быть матрица так, чтобы dim (z) =c (длина (x), длина (y))

 

image(x, y, z)- Аналог предыдущего, но в цвете

 

persp(x, y, z)- Трехмерный график

 

Для каждой функции, параметры могут быть найдены при помощи сетевой справки R. Некоторые из этих параметров являются идентичными для нескольких графических функций; вот - основные (с их возможным значением по умолчанию):

 

Add = FALSE если ИСТИНА новый график отображается вместе с предыдущим (если он существует)

 

Axes = TRUE если ЛОЖЬ оси не отображаются

 

Type = " p" определяет тип графика, " p": точки, " l": линии, " b": точки, соединенные линиями, " o": идентификатор, но линии над точками, " h": вертикальные линии, " s": шаги, данные

 

представлены вершиной вертикальных строк, " S": идентификатор, но данные представлены основанием вертикальных строк.

 

Xlab =, примечания для осей, должны быть переменными

 

ylab= символьного типа (любая символьная переменная, или строка в пределах " " )

 

Main= основной заголовок, должен быть переменной символьного типа

 

sub = подзаголовок (написанный в меньшем шрифте)

25. Интерпретация диаграммы " ящик с усами" (box and whisker plot). Что такое квантиль, квартиль?

Диаграммы размахов, или " ящики с усами" (англ. box-whisker plots), получили свое название за характерный вид: точку или линию, соответствующую медиане или средней арифметической, окружает прямоугольник (" ящик" ), длина которого соответствует одному из показателей разброса или точности оценки генерального параметра. Дополнительно от этого прямоугольника отходят " усы", также соответствующие по длине одному из показателей разброса или точности. Графики этого типа очень популярны, поскольку позволяют дать очень полную статистическую характеристику анализируемой совокупности. Кроме того, диаграммы размаха можно использовать для визуальной экспресс-оценки разницы между двумя и более группами (например, между датами отбора проб, экспериментальными группами, участками пространства, и т. п. ).

 

Особенности использования функции boxplot()

 

рассмотрим на примере данных, полученных в ходе эксперимента по изучению эффективности шести видов инсектицидных средств. Каждым из этих средств обработали по 12 растений, после чего подсчитали количество выживших на растениях насекомых. Данные этого эксперимента входят в состав стандартного набора данных R и доступны по команде data(InsectSprays). В таблице InsectSprays имеется два столбца - count, содержащий результаты подсчета насекомых, и spray, содержащий коды инсектицидных средств (от А до F): Главная страницабазовые графические возможности

 

Виды наблюдений, которые можно сделать на основе ящика с усами:

Каковы ключевые значения, например: средний показатель, медиана 25го перцентиля и так далее.

 

Существуют ли выбросы и каковы их значения.

 

Симметричны ли данные.

Насколько плотно сгруппированы данные.

Смещены ли данные и, если да, то в каком направлении.

 

Два из наиболее распространенных варианта ящика с усами – диаграмма размаха с переменной шириной и диаграмма размаха с метками.

 

Горизонтальная линия внутри закрашенного прямоугольника соответствует медиане выборки, верхняя и нижняя границы прямоугольника — это 0. 75 и 0. 25 квантили выборки (т. е. в прямоугольнике сосредоточено 50% выборки). Верхняя и нижняя вертикальные линии либо соответствуют максимальному и минимальному значению выборки, либо это есть отступы на полторы величины межквартильного расстояния (примерно два стандартных отклонения) вверх и вниз от медианы. Точки, лежащие вне этих линий, соответствуют экстремальным (наибольшим и наименьшим) значениям выборки. boxplot показывает распределение элементов выборки, а также её симметричность (асим81 метричность). Также boxplot полезен для выявления ошибок в предоставленных данных (как правило, ошибочные данные оказываются экстремальными значениями).

Квантиль - это значение на числовой оси, ниже которого лежит определҷ нное число наблюдений, соответствующих выбранной частоте (qα ). Например, q0. 05 будет соответствовать тому значению ряда, ниже которого лежит 5% всей выборки (квантиль уровня 0. 05).

Квартиль - это статистика, отсекающая 1/4 часть ряда. Три квартиля Q1 (25% квантиль), Q2 (50% квантиль) и Q3 (75% квантиль) делят ряд на четыре, равные по объемы части.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...