Метод «средней связи элементов разных кластеров и внутри групп»
⇐ ПредыдущаяСтр 4 из 4 В данном методе расстояние между кластерами рассчитывается на основании всех возможных пар наблюдений, принадлежащих обоим кластерам, причем учитываются также пары наблюдений, образующиеся внутри кластеров. В этом случае получаются интересные результаты. Оптимальное число кластеров равно 4: в первый кластер войдут 34 региона, во второй – 18 регионов, в третий – 3 региона (под номерами 52-54), а в 4 – один регион под номером 56. Рисунок 9. Дендрограмма №5 На основании иерархического кластерного анализа, проведенного различными методами, можно сделать вывод, что оптимальное число кластеров равно 4. Метод k-средних Несмотря достоинства иерархического метода (можно отследить поэтапное объединение объектов в кластеры), при большом количестве объектов проводить данный анализ весьма сложно. Поэтому в случае, когда число объектов n велико, применяют метод k-средних. Идея этого метода состоит в том, чтобы разбить анализируемое множество объектов n на заранее известное число кластеров k, причем данное разбиение должно минимизировать функционал качества – сумму внутриклассовых дисперсий:
При помощи пакета SPSS рассчитаем значения средних показателей в кластерах:
Таблица 28. Конечные центры кластеров
На основании Рисунка 10 можно сделать вывод, что 1 кластер характеризуется самыми низкими средними значениями показателей xi, в то время как 4 кластер – самыми высокими средними значениями соответствующих показателей. Таким образом, чем выше номер кластера, тем выше средние значения показателей xi.
Рисунок 10. Средние значения показателей в кластерах
В следующей таблице представлены регионы, входящие в каждый кластер: Таблица 29. Распределение регионов по кластерам
Регионы, входящие в состав 1 кластера, характеризуются самыми низкими средними значениями всех показателей xi, и далее чем выше номер кластера – тем выше средние значения соответствующие значения показателей. Интересно, что аналогичная картина вырисовывается и при распределении данных регионов по среднему уровню инвестиций в основные средства: чем выше номер кластера, тем выше средний уровень инвестиций в основные средства (результирующий показатель Y): Таблица 30. Среднее значение объема инвестиций в основные средства (переменная Y)
Таким образом, деление регионов на кластеры, однородные по средним значениям независимых переменных, соответствует группировке этих регионов по среднему значению результирующей переменной. Следовательно, объем инвестиций в основные средства действительно тесно зависит от переменных xi. Важной целью кластерного анализа является минимизация расстояния между объектами, находящимися в пределах одного кластера, и максимизация расстояния между кластерами. В этой связи рассмотрим следующую таблицу: Таблица 31. Межгрупповая дисперсия
Из Таблицы 31 видно, что расстояние между кластерами очень велико, причем расстояние между 1 и 2 кластером намного меньше, чем расстояние, скажем, между 1 и 3 и тем более 1 и 4 кластерами. Учитывая предыдущие размышления о характере объектов, попавших в каждый кластер (об средних значениях показателей xi), этот результат представляется весьма логичным. Поскольку анализ проводился на основании 6 независимых переменных, наглядно представить его результаты при помощи графиков – достаточно сложная задача. Скорее всего, на многомерном графике сложилась бы следующая картина: объекты, находящиеся в одном кластере, образовали бы «облако» точек, элементы которого находятся на достаточно близком расстоянии друг от друга. Вместе с тем, отдельные «облака» находились бы на большом друг от друга расстоянии. По крайней мере, такая «картинка» представляется автору работы крайне желательной.
Итак, в результате кластерного анализа были выделены 4 кластера и охарактеризованы особенности такой классификации. Далее перейдем к дискриминантному.
Дискриминантный анализ Последней стадией данного исследования является проведение дискриминантного анализа. Плюсом этого анализа является то, что он позволяет проверить результаты проведенной ранее кластеризации наблюдений. При помощи дискриминантного анализа в пакете SPSS проверим результаты кластерного анализа. В результате получим, что практически все наблюдения были классифицированы корректно: результаты распределения по группам совпали с результатами кластерного анализа, вероятности попадания в нужный кластер близки к 1, вероятности попадания в другие кластеры близка к 0. Смоленская область – единственный регион, классифицированный ошибочно: Таблица 32. Поверка кластерного анализа
Согласно кластерному анализу Смоленская область должна была войти во 2 кластер, однако апостериорная вероятность попадания этого региона в 1 кластер является самой высокой, следовательно, Смоленская область должна быть отнесена к 1 кластеру. Далее перейдем к построению дискриминантной функции. По значению этой функции мы можем определить, к какому кластеру лучше всего отнести новое, ранее не классифицированное наблюдение. Поскольку классификация проходит по числу групп m>2 (m=4), было получено несколько вариантов дискриминантной функции, а именно – 3. Средние значения дискриминантных функций составили:
Таблица 33. Средние значения дискриминантных функций
Важным показателем качества дискриминантной функции является коэффициент канонической корреляции – мера связи между четырьмя (в данном случае) множествами переменных. Чем выше его величина, тем выше разделительная способность дискриминантной функции (максимальное значение равно единице). Сравним коэффициенты канонической корреляции трех полученных дискриминантных функций:
Таблица 34. Качество дискриминантных функций
Как видно из Таблицы 34, первая дискриминантная функция характеризуется самым высоким значением коэффициента канонической корреляции – 0,999. Кроме того, степень разделения кластеров зависит от собственного значения дискриминантной функции: чем больше собственное значение, тем выше степень разделения. Первая функция имеет наибольшее собственное значение (далее – вторая и т. д.), а значит, обладает наибольшей разделительной способностью. Также из Таблицы 34 видно, что первая функция объясняет наибольшую долю дисперсии признаков. Таким образом, приведенные выше рассуждения доказывают, что первая дискриминантная функция – лучший инструмент для проверки принадлежности нового наблюдения к той или иной обучающей выборке. Чтобы проверить, значимо ли отличаются средние значения дискриминантной функции в четырех выделенных кластерах, используют Лябду-Уилкса:
Таблица 35. Лямбда-Уилкса
Согласно Таблице 35, средние значения первой дискриминантной функции в четырех различных кластерах очень значимо различаются (лямбда очень мала). Далее проверим значимость первой дискриминантной функции. Тест на значимость проводится при помощи лямбда-статистики Уилкса. Чем меньше эта статистика, тем более значимой является дискриминантная функция. Смысл теста заключается в следующем. Критерий лямбда-статистики Уилкса оценивает остаточную дискриминантную способность, т. е. способность функции различать кластеры, при условии, что информация, полученная с помощью ранее рассчитанных выборок, отсутствует. Логично, что, если остаточная дискриминантная способность мала, нет никакого смысла выводить следующую дискриминантную функцию. В Таблице 35 мы видим, что первая функция обладает самым низким значением лямбды. Следовательно, она (первая функция) является наиболее значимой.
Далее рассмотрим структурную матрицу:
Таблица 36. Структурная матрица
Коэффициенты данной матрицы есть не что иное, как коэффициенты корреляции между переменными xi и соответствующими дискриминантными функциями. Так, все независимые переменные отрицательно коррелирут с первой функцией, причем степень корреляции довольно невысока. Для классификации относительно четырех обучающих выборок было отобрано 10 дополнительных регионов:
При помощи первой дискриминантной функции определим, к какому кластеру следует отнести каждый из регионов. Коэффициенты дискриминантных функций следующие:
Таблица 37. Нормированные коэффициенты дискриминантных функций
Классификация новых объектов по кластерам выглядит следующий образом:
Из таблицы видно, что оптимальному кластеру соответствует наибольшая апостериорная вероятность – вероятность попадания в кластер. Таким образом, к единственному «лидеру» по величине значений переменных, влияющих на инвестиции в основные средства, – Республике Дагестан – можно присоединить Сахалинскую область. К отстающим регионам – с наименьшим объемом инвестирования в основные средства – можно отнести Республику Саха (Якутию) и Хабаровский край. Ростовская, Свердловская и Челябинская области попали в кластер с относительно небольшими значениями независимых переменных и, соответственно, уровнем инвестирования в основные средства. В то же время, Нижегородская, Кемеровская области, Пермский край и Республика Татарстан попали в сравнительно «передовой» - третий – кластер. Аналогичные выводы (аналогичные дискриминантные функции, их нормированные коэффициенты, значения Лямбды-Уилкса, собственные значения, а также аналогичное распределение новых регионов по кластерам) получаются при проведении пошагового алгоритма в SPSS. Поэтому не имеет смысла приводить соответствующие аналитические таблицы еще раз. Таким образом, в результате дискриминантного анализа были проверены результаты кластерного анализа, а также проведена классификация новых 10 регионов по четырем заданным кластерам.
Выводы Во второй части данного исследования были проведены компонентный анализ (методом главных компонент), кластерный и дискриминантный анализ. Результатом компонентного анализа является выделение двух главных компонент: z1 - объем собственных и заемных средств, поступивших в предприятия региона за период; z2 - интенсивность вложений предприятий региона в финансовые активы и количества иностранного капитала в регионе. Далее была построена регрессия результирующего показателя Y (объем инвестиций в основные средства) на главные компоненты. Коэффициенты уравнения регрессии получились значимыми, как и само уравнение. Однако по качеству модель регрессии на главные компоненты уступает нелинейной степенной модели (ошибка степенной модели намного ниже, чем ошибка модели главных компонент, в то время как коэффициенты корреляции и детерминации у нелинейной модели выше). В результате кластерного анализа с помощью различных методов иерархической кластеризации было выведено оптимальное число кластеров, равное 4. Далее методом k-средних была проведена кластеризация 56 регионов относительно заданных 4 кластеров. В первый кластер вошли регионы с самыми низкими значениями показателей, влияющими на Y (32 объекта). В 4 кластер вошел один объект (Республика Дагестан), который характеризуется самыми высокими значениями показателей xi. Расстояния между кластерами оказались достаточно большими, в то время как расстояния между объектами внутри кластера – относительно маленькими. Это говорит об адекватности проведенной кластеризации. Наконец, дискриминантный анализ подтвердил результаты кластеризации методом k-средних. Далее, на основании наиболее оптимальной функции дискриминации, по соответствующим кластерам были разнесены новые 10 регионов. Результаты метода включения всех переменных сошлись с результатами, полученными при методе пошагового алгоритма. Дискриминантная функция оказалась значимой, следовательно, результаты дискриминантного анализа также можно признать значимыми при заданной надежности.
Воспользуйтесь поиском по сайту: ©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|