Метод K-ближайших соседей для решения задачи классификации
Метод K-ближайших соседей для решения задачи классификации Метод K-ближайшего соседа (англ.: k-nearest neighbors method, k-NN) - один из методов решения задачи классификации. В основе k-NN лежит следующее правило: объект считается принадлежащим тому классу, к которому относится большинство его ближайших соседей. Под " соседями" здесь понимаются объекты, близкие к исследуемому в том или ином смысле. Метод k-ближайших соседей (непараметрический метод) Этот метод работает с помощью поиска кратчайшей дистанции между тестируемым объектом и ближайшими к нему классифицированным объектами из обучающего набора. Классифицируемый объект будет относится к тому классу, к которому принадлежит ближайшие k соседей (объектов). Выбор оптимального значения k для knn Результат, получаемый методом k-NN, сильно зависит от выбора параметра k. Возникает вопрос: как выбрать значение параметра k, чтобы минимизировать количество неверных ответов, полученных методом k-NN? Не существует конкретного способа определить наилучшее значения для k. Поэтому нужно пробовать несколько значений, чтобы найти наилучшее из них. На практике чаще всего полагают k =√ n, где n - общее число объектов. Метрика (функция расстояния) Необходимо уметь определять, насколько объекты близки друг к другу, т. е. уметь измерять " расстояние" между объектами. По умолчанию в R для непрерывных признаков используется расстояние Евклида dist =корень[(x2 − x1)2 + (y2 − y1)2] В качестве метрики может быть и любая мера близости объектов, например, по цвету, форме, вкусу, запаху, интересам, особенностям поведения и т. д. Нормализация данных Важной составляющей многих методов является нормализация данных. Разные признаки обычно представлены в разных масштабах и изменяются в разных диапазонах. Например, возраст 0-100, доход 15000-100000, концентрация Ca 0. 01-0. 05. В этом случае значения дистанции могут сильно зависеть от признаков с большими диапазонами.
Z - нормализация (scale) X’ =(x − M(X))/σ (X) MinMax - нормализация -> (0, 1) X’ =(x − min(X))/(max(X) − min(X)) Метод K-ближайших соседей в R install. packages(" class" ) library(class) knn(train, test, train-class, k) 30. Кластеризация Кластерный анализ (Data clustering) — задача разбиения заданной выборки данных (объектов) так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров значительно отличались друг от друга. Кластеризация предназначена для разбиения совокупности объектов на однородные группы (кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению " сгущений точек". Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить " структуру данных". Кластер (cluster, " скопление" ) можно охарактеризовать как группу объектов, имеющих общие свойства. Характеристиками кластера можно назвать два признака: внутренняя однородность; внешняя изолированность. Методы кластерного анализа Существует около 100 разных алгоритмов кластеризации, однако, наиболее часто используемые иерархический кластерный анализ и кластеризация методом k-средних. В результате применения различных методов кластеризации могут быть получены неодинаковые результаты, это нормально и является особенностью работы того или иного алгоритма. Основные этапы кластерного анализа 1. выбор признаков (столбцов Xi), по которым будет проводиться сравнение;
2. вычисление меры сходства(метрики) между объектами (строками); 3. группировка объектов в кластеры с помощью того или иного метода кластеризации; 4. проверка применимости полученного кластерного решения. (!!! ) И выбор объектов, и выбор признаков, и выбор метрики вместе с процедурой кластеризации существенно влияют на конечный результат. Иерархический кластерный анализ Для визуального представления результатов кластеризации используется дендрограмма - дерево, построенное по матрице мер близости между кластерами. При этом длина ребра соответствует расстоянию между кластерами. Алгоритм иерархической кластеризации Дерево строится от листьев к корню. В начальный момент времени каждый объект содержится в собственном кластере. Далее происходит итеративный процесс слияния двух ближайших кластеров до тех пор, пока все кластеры не объединятся в один или не будет найдено необходимое число кластеров. На каждом шаге необходимо уметь вычислять расстояние между кластерами и пересчитывать расстояние между новыми кластерами. Этапы кластерного анализа 1 Рассчитать расстояние между всеми объектами с помощью выбранной метрики (расстояние Евклида) 2 Произвести объединение наиболее близких точек 3 Согласно одному из алгоритмов объединения (метод одиночной связи, метод полной связи, ... ) произвести последовательное (на каждом шаге присоединяется 1 объект) объединение всех исследуемых объектов в кластеры (группы); 4 Построить график расстояний объединения объектов (дендрограмму) 5 Определить на дендрограмме количество кластеров, которые следует выделить для указанных объектов исследования.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|