26. О чем может свидетельствовать несовпадение медианы и матожидания?
26. О чем может свидетельствовать несовпадение медианы и матожидания? О том, что распределение м. б. ненормальным. Т. к., у нормального распределение матожидание, мода и медиана совпадают. Также, если представить график несовпадения медианы и матожидания, то будет происходить асимметрия. Распределение будет несимметричным. Когда распределение является симметричным и модальным (т. е. имеет моду) и существует математическоеожидание, то оно совпадает с модой и центром симметрии распределения. Часто применяется еще одна характеристика положения — так называемая медиана случайной величины. В случае симметричного модального распределения медиана совпадает с математическим ожиданием и модой. 27. Для каких целей используются коэффициент корреляции рангов Спирмена и Кэндалла? Для ненормально распределенных переменных, а также при наличии нелинейной связи между переменными, следует использовать непараметрический коэффициент корреляции Спирмена (англ. Spearman correlation coefficient). В отличие от коэффициента Пирсона, этот вариант коэффициента корреляции работает не с исходными значениями переменных, а с их рангами: cor(X, Y, method = ”spearman”) Преимущество коэффициента Спирмена по сравнению с коэффициентом Пирсона - в большей чувствительности к связи. Его используют в следующих случаях: наличие существенного отклонения распределения хотя бы одной переменной от нормального вида (асимметрия, выбросы); появление криволинейной (монотонной) связи. Ограничением для применения коэффициента Спирмена: по каждой переменной не менее 5 наблюдений; коэффициент при большом количестве одинаковых рангов по одной или обеим переменным дает грубое значение.
Коэффициент корреляции Кендалла относится к числу непараметрических, т. е. при вычислении этого коэффициента не играет роли характер распределения сравниваемых переменных. Предназначен для работы с данными, полученными в ранговой шкале. Иногда этот коэффициент можно использовать вместо коэффициента корреляции Спирмена, поскольку способ его вычисления более прост. cor(X, Y, method = ”kendall”) 28. Цикл for, условный оператор if, ifelse. Чтобы повторять действия в R и при этом не копировать один и тот же код много раз, используются циклы. for (var in множество) {действие } for (i in 1: 10) { print(" Hello" ) } vector < - c(0, 1, NA, 0, 1) for (i in vector){ print(i)} Стоит также отметить, что для выполнения стандартных задач в рамках анализа данных в R циклы используются нечасто, так как в R многие операции векторизованы – функции применяются сразу к наборам значений, например, к векторам. Условный оператор 1) if (условие){действие } 2) if (условие){действие 1} else {действие 2} Если необходимо применить несложную конcтрукцию if-else к каждому элементу вектора, можно воспользоваться функцией: 3) ifelse(условие, действие 1, действие 2) Замечание: Условные операторы 1), 2) не являются векторными операциями. Они имеют дело только с одним значением. Если вы передадите, например, вектор, оператор 2) проверит только самый первый элемент и выдаст предупреждение. 29. Классификация Классификация - один из разделов машинного обучения, посвященный решению следующей задачи. Имеется множество объектов (строк), разделенных некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется обучающей выборкой. Классовая принадлежность остальных объектов не известна. Требуется построить алгоритм, способный классифицировать произвольный объект из заданного множества.
Задачи классификации Задачи классификации встречаются очень часто в самых разных областях деятельности человека. Как и задача регрессионного анализа, задача классификации решается в целях последующего прогнозирования переменной отклика Y (номера класса, фактор). Задача: Необходимо выработать правило, позволяющее отнести новый объект к одному из возможных классов. В том случае, когда число классов равно 2, говорят обинарной классификации. Примеры задач классификации Задачи распознавания (текста, символов, фото, ... ) Задачи диагностики (постановки диагноза в медицине, педагогическая диагностика) Задачи контроля качества Одним из отличий задач классификации от задач регрессионного анализа является то, что в последней прогнозируемые признаки допускают только количественное измерение (например, цена квартиры, доход от рекламы, количество холестерина в крови пациента), в то время как в задаче классификации прогнозируемые признаки должны быть качественными (например, цвет глаз людей, вкус или запах пищи, уровень знаний студентов, качество выпускаемой продукции, уровень комфорта в отеле и т. д. ). Типы классификаторов Метод k-ближайших соседей (K-Nearest Neighbors); Метод опорных векторов (Support Vector Machines); Классификатор дерева решений (Decision Tree Classifier) Наивный байесовский метод (Naive Bayes); Линейный дискриминантный анализ (Linear Discriminant Analysis); Логистическая регрессия (Logistic Regression)
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|