Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Кластеризация с помощью самоорганизующейся карты Кохонена




Функционирования самоорганизующихся карт (Self Organizing Maps - SOM) представляет собой один из вариантов кластеризации многомерных векторов - алгоритм проецирования с сохранением топологического подобия.

Самоорганизующаяся карта Кохонена является разновидностью нейронной сети. Самоорганизующиеся карты применяются, когда необходимо соотнести данные к определенным кластерам. Алгоритм определяет расположение кластеров в многомерном пространстве факторов. В зависимости от расстояния до кластера, исходные данные будут отнесены к тому или иному кластеру. С помощью самоорганизующихся карт Кохонена можно многомерное пространство представить в графическом виде, т.е. векторы многомерного пространства отобразить в двумерном пространстве. Причем схожие векторы в исходном пространстве, оказываются рядом и на полученном графике.

Более того, с помощью полученной карты Кохонена можно решить задачу прогнозирования. При прогнозировании результирующее поле (то, которое необходимо спрогнозировать) в построении не участвует. После кластеризации по Кохонену с помощью диаграммы «Что-если» можно определить точку пространства, где расположены введенные данные для прогноза. Затем определяется, к какому кластеру принадлежит данная точка, и подсчитывается среднее по результирующему полю всех точек этого кластера, что и будет результатом прогноза (для дискретных данных результатом прогноза является значение, больше всего встречающееся в результирующем поле всех ячеек кластера).

Исходные данные, для рассмотрения механизма кластеризации и прогноза путем построения самоорганизующихся карт Кохонена, основываясь на антропометрических данных ирисов, находится в файле «Iris.txt». Файл содержит следующие поля, характеризующие параметры ириса: «Длина чашелистика», «Ширина чашелистика», «Длина лепестка», «Ширина лепестка», «Класс цветка». Перед аналитиком стоит задача определить по различным параметрам цветка его класс, предполагая, что цветы одного класса имеют схожие параметры и должны находиться в одном кластере. Иначе говоря, на основе данных о цветке будем прогнозировать его класс.

Импортировав данные из файла «Iris.txt», запустим мастер обработки и из списка выберем метод обработки «Карта Кохонена». На втором шаге назначим «Класс цветка» как «Выходной», а остальные - «Входной».

На следующем шаге необходимо настроить источник данных. Укажем, что данные для обучающего и тестового множества берутся случайным образом, зададим размер тестового множества равным десяти примерам.

Четвертый шаг предполагает настройку параметров карты Кохонена (количество ячеек по Х и по Y, и их форму). Значения по умолчанию вполне подходят.

На пятом этапе обучения требуется настроить параметры остановки обучения. Параметры по умолчанию подходят для дальнейшего обучения карт Кохонена.

Следующий шаг позволяет настроить параметры обучения – способ начальной инициализации, тип функции соседства и параметры кластеризации автоматическое определение числа кластеров с соответствующим уровнем значимости и т.д. Каждый интервал задается количеством эпох, скоростью и радиусом обучения. Укажем фиксированное количество кластеров, равное трем.

На седьмом этапе запустим процесс обучения. Во время обучения необходимо следить за текущими значениями ошибок и количеством распознанных примеров.

После окончания процесса обучения в списке визуализаторов выберем «Карта Кохонена» для просмотра результата кластеризации и «Что-если» для прогнозирования класса цветка.

Далее в мастере отображения карты Кохонена необходимо указать отображение всех полей и установить флажок «Границы кластера».

После настройки отображения карты Кохонена получим результаты.

 

Качество кластеризации можно оценить, просмотрев карту «Класс цветка», на которой видно, что почти все цветы были классифицированы правильно.

Данный пример раскрывает алгоритм представления входных факторов многомерного пространства в двумерном пространстве, в котором гораздо удобнее анализировать. В самоорганизующейся карты Кохонена обращаем внимание на матрицу расстояний и проекцию Саммона, на которых видны расстояния между отдельными ячейками, т.е. четкие границы различных скоплений данных.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...