Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Преобразованная структура исходного массива данных для проведения кластерного анализа




N9 п/п Объекты исследования (возрастные группы туристов) Интересы туристов (переменные, по которым производится разделение на кластеры)
Развлечения Специальные предложения Восточной Баварии Спокойный отдых Спорт
  17-18 лет        
  19-24 года        
  25-29 лет      
  30-34 года        
• • • 11 65-70 лет        

 

В табл. 6.2 вносятся оценки туристами степени, в какой они руководствуются теми или иными интересами при проведении времени на отдыхе. Данные оценки являются средними по каждой возрастной ipynne.

 

Разделение возрастных групп на категории (например, от 25 до 29 лет) было произведено в целях сокращения числа объектов исследования. В проведении исследований участвовали туристы в возрасте от 17 до 70 лет. Если бы в качестве объектов исследования были взяты возрастные группы, объединяющие только туристов определенного возраста (например, 17 лет, 18 лет... 44 года и т.д.), то число объектов исследования составило бы 63 (70 - 17). Лкое большое число объектов исследования существенно затрудняет интерпретацию результатов кластерного анализа. Разделение возрастных групп на категории привело к сокращению числа объектов исследования (возрастных групп туристов) с 63 до 11.

Иллюстрация постановки цели кластерного анализа в нашем примере представлена на рис. 6.1. Для проведения кластерного анализа в SPSS создается новый файл данных (рис. 6.2 и 6.3).

 

На рис. 6.2 представлен фрагмент исходного файла данных, состоящего из 5 переменных. Первая переменная с именем «Age» и меткой «Возрастные группы» является текстовой переменной, об этом есть соответствующая запись (String) в столбце «Туре». Со значениями этой переменной нельзя будет производить никаких арифметических операций.

 

Четыре переменные с именами «FAC1_1», «FAC2_1», «FAC3 J» и «FAC4_1» являются компонентами факторной модели, построенной в результате проведения факторного анализа (см. предыдущий раздел). Значения этих переменных представляют собой усредненные балльные оценки важности для турисюв каждой возрастной группы следующих интересов: «Развлечения», «Специальные предложения Восточной Баварии», «Спокойный отдых» и «Спорт» (рис. 6,3).

 

Как было описано в предыдущем подразделе, при проведении опроса респондентам предла1алось оценить 12 мотивов проведения времени на отдыхе по 5-балльной шкале («1» — «очень важно» и «5» — «совсем не важно»). В результате проведения факторного анализа 12 переменных исходного массива данных были сгруппированы в 4 переменные, в ходе проведения анализа произошла трансформация значений переменных. Средняя оценка (3) была приравнена к нулю. Именно поэтому средние значения оценки значения для туристов четырех мотивов поведения, представленные на рис. 6.3, варьируют от -2 до 2. Чем больше отрицательное значение переменной, тем она важнее; чем больше положительное значение переменной, тем она менее важна.

После того как сформирована база данных в SPSS, следует перейти непосредственно к заданию набора команд на выполнение кластерного анализа.

6.2. КОМАНДЫ SPSS НА ВЫПОЛНЕНИЕ ИЕРАРХИЧЕСКОГО КЛАСТЕРНОГО АНАЛИЗА

Кластерный анализ является одним из видов классификационного анализа. Для задания команд на выполнение кластерного анализа в SPSS в меню различных видов анализа (Analyze) следует выбрать «Классификационный аиапиз» (Class fy) (рис. 6.4).


 

«Классификационный анализ», в свою очередь, имеет собственное меню, содержащее различные виды классификационного анализа, в том числе три вида кластерного анализа. В рассматриваемом примере применяется иерархический кластерный анализ, наиболее часто применяемый на практике.

Иерархический кластерный анализ отличается от других видов кластерного анализа тем, что алгоритм его проведения является многоступенчатым. Алгоритм иерархического кластерного анализа может быть дивизионным или агломеративным.

Дивизионный алгоритм проведения иерархического кластерного анализа предполагает, что все объекты исследования в начале объединены в один кластер, который поэтапно делится на более мелкие кластеры. Агломеративный алгоритм, напротив, предполагает, что все объекты исследования вначале рассматриваются как мелкие кластеры, которые затем объединяются в более крупные. На практике чаще всего используются агломеративные методы формирования кластеров.

В результате выбора меню «Analyze> Classify> Hierarchical Cluster» на экране появится диалоговое окно «Иерархический кластерный анализ» (Нierarchical Cluster Analyze) (рис. 6.5).

В левом поле открывшегося диалогового окна «Иерархический кластерный анализ» представлен список пяти переменных исходного массива данных. Из них следует выбрать переменные, по которым будет производиться формирование кластеров, и перенести их в правое поле «Variable(s)». В рассматриваемом примере — это переменные, характеризующие интересы (мотивы поведения) туристов: «Развлечения», «Специальные предложения Восточной Баварии», «Спокойный отдых» и «Спорт».

Также из списка всех переменных исходной базы данных следует выбрать переменную, значения которой являются объектами исследования, и перенести ее в правое поле «Label Cases by». В рассматриваемом примере это переменная «возрастные группы».

В поле «Cluster» следует выбрать один из двух предлагаемых вариантов: «Cases» или «Variables» (см. рис. 6.5). В нашем примере выбран вариант «Cases». Это означает, что в ходе кластерного анализа будут классифицироваться (собираться в кластеры) возрастные группы туристов, а не их интересы (мотивы поведения).

В диалоговом окне «Иерархический кластерный анализ» также есть четыре кнопки, нажав которые открываются вспомогательные диалоговые окна:«Statistics», «Plots», «Method» и «Save».

При нажатии кнопки «Statistics» на экране появляется одноименное диалоговое окно «Статистические показатели» (рис. 6.6).

 

Во вспомогательном диалоговом окне «Статистические показатели» отмечены команды «Agglomeration schedule» и «Proximity matrix» (см. рис. 6.6). После запуска процедуры выполнения кластерного анализа данные команды позволяют вывести на экран в качестве результатов анализа таблицу, содержащую результаты сравнения объектов исследования (Proximity matrix), и таблицу, отображающую алгоритм формирования кластеров (Agglomeration schedule). Путем нажатия кнопки «Сопи те» осуществляется возврат в главное диалоговое окно «Иерархический кластерный анализ».

После нажатия кнопки «Plots» в главном диалоговом окне «Иерархический кластерный анализ» на экране появляется одноименное вспомогательное диалоговое окно «Диаграммы» (рис. 6.7).

 

В диалоговом окне «Диаграммы» представлены команды на построение различных графиков и диаграмм, описывающих процедуру формирования кластеров. В данном диалоговом окне отмечена команда «Dendogram». После запуска процедуры выполнения кластерного анализа данная команда выводит на экран дендограмму, которая является графическим отображением выполнения алгоритма формирования кластеров. Путем нажатия кнопки «Continue» (см. рис. 6.7) осуществляется возврат в главное диалоговое окно «Иерархический кластерный анализ» (см. рис. 6.5).

При нажатии кнопки «Method» в главном диалоговом окне «Иерархический кластерный анализ» (см. рис. 6.5) на экране появляется одноименное вспомогательное диалоговое окно «Методы» (рис. 6.8).

 

В поле «Cluster Method» вспомогательного диалогового окна «Методы» из списка, предлагаемого SPSS, следует выбрать метод формирования кластеров. В рассматриваемом примере выбран метод «Ward».

В поле «Measure» из списка возможных вариантов следует выбрать показатель, который будет использоваться в целях определения степени схожести (различия) объектов исследования. Выбор этого показателя зависит от типа переменных, участвующих в кластерном анализе в качестве критериев сегментации. Данные переменные могут быть интервальными (Interval), номинальными (Counts) или дихотомическими (Binary).

В рассматриваемом примере переменные, по которым совокупность объектов исследования разделяется на кластеры, являются интервальными, поскольку респонденты в ходе опроса да- оали балльные оценки значимости для них различных мотивов проведения времени на отдыхе. Поэтому в поле «Measure» диалогового окна «Method» отмечается тип переменной «Interval». В качестве показателя, характеризующего степень схожести (различия) объектов исследования, выбирается квадрат евклидова расстояния (,Squared EucL iean Distance).

Путем нажатия кнопки «Continue» в диалоговом окне «Method» осуществляется возврат в главное диалоговое окно «Иерархический кластерный анализ» (см. рис. 6.5).

В диалоговом окне «Иерархический кластерный анализ» имеется кнопка «Save», при нажатии которой активизируется одноименное диалоговое окне. В этом окне представлены команды, позволяющие сохранить результаты кластерного анализа как новые переменные в исходной базе данных. В результате выполнения этих команд после запуска процедуры выполнения кластерного анализа создается новая переменная, значения которой представляют собой номера кластеров, к которым относится тот или иной объект исследования.

Запуск процедуры выполнения иерархического кластерного анализа осуществляется путем нажатия кнопки «ОК» в главном диалоговом окне «Иерархический кластерный анализ» (см. рис. 6.5).

6.3. СРАВНЕНИЕ ОБЪЕКТОВ ИССЛЕДОВАНИЯ

Среди данных, выдаваемых SPSS в качестве результатов кластерного анализа, в первую очередь на экран выводится таблица, содержащая результаты сравнения объектов исследования. Первоочередность представления этих данных в качестве результатов обусловливается агломерат ивным алгоритмом иерархического кластерного анализа (рис. 6.9).

В нашем примере в качестве показателя, характеризующего степень сходства (различия) объектов исследования, был выбран квадрат евклидова расстояния (<Squared Euclidean Distance) (см. рис. 6.8). Чем меньше этот показатель, тем больше сходство сравниваемой пары объектов исследования (табл. 6.3).

 

Данные табл. 6.3 показывают, в какой степени схожи (различны) между собой разные возрастные категории туристов по структуре их интересов (мотивов проведения времени на отдыхе). Наиболее схожими относительно структуры их интересов являются возрастные категории туристов «9» (55—59 лет) и «10» (60—64 года). Квадрат евклидова расстояния между этими группами составляет всего 0,009 и является минимальным из всех прочих значений этого показателя. Следовательно, данные возрастные категории туристов должны быть объединены в один кластер.

Для определения очередности последующего объединения объектов исследования в кластеры необходимо заново определить квадрат евклидова расстояния между вновь созданным кластером и прочими кластерами.


Таблица 6.3 Proximity Matrix
Case Squared Euclidean Distance
1:17-18 2:19-24 3:25-29 4:30-34 5:35-39 6:40-44 7:45-49 8:50-54 9:55-59 10:60-64 11:65-70
1:17-18 ,000 ,691 1,591 2,393 2,423 2,724 2,765 3,123 3,694 3,905 4,268
2:19-24 ,691 ,000 ,310 ,628 ,688 ,930 1,120 1,309 1,751 1,830 2,100
3:25-29 1,591 ,310 ,000 ,104 ,090 ,185 ,286 ,379 ,628 ,671 ,852
4:30-34 2,393 ,628 ,104 ,000 ,024 ,060 ,193 ,218 ,409 ,404 ,538
5:35-39 2,423 ,688 ,090 ,024 ,000 ,039 ,150 ,173 ,339 ,349 ,469
6:40-44 2,724 ,930 ,185 ,060 ,039 ,000 ,047 ,052 ,160 ,165 ,264
7:45-49 2,765 1,120 ,286 ,193 ,150 ,047 ,000 ,018 ,081 ,102 ,203
8:50-54 3,123 1,309 ,379 ,218 ,173 ,052 ,018 ,000 ,033 ,046 ,105
9:55-59 3,694 1,751 ,628 ,409 ,339 ,160 ,081 ,033 ,000 ,009 ,033
10:60-64 3,905 1,830 ,671 ,404 ,349 ,165 ,102 ,046 ,009 ,000 ,030
11:65-70 4,268 2,100 ,852 ,538 ,469 ,264 ,203 ,105 ,033 ,030 ,000

This is a dissimilarity matrix

Результаты сравнения объектов исследования

Результаты расчета квадратов евклидова расстояния для каждого этапа формирования кластеров не выводятся на экран компьютера. Среди данных, выводимых на экран в качестве результатов кластерного анализа, предоставляются лишь результаты сравнения кластеров на этапе, когда каждый объект исследования рассматривается как кластер.

Данные табл. 6.3 не предоставляют сведений об очередности формирования кластеров. Она дает лишь общее представление о сходстве (различии) объектов исследования. По данным этой таблицы можно сделать лишь приблизительные выводы о том, какие из объектов исследования окажутся объединенными в один кластер.

6.4. ПОРЯДОК ФОРМИРОВАНИЯ КЛАСТЕРОВ

В качестве результатов проведения кластерного анализа в SPSS после таблицы с результатами сравнения объектов исследования на экран выводится таблица «График агломерации» (Agglomerati ж Schedule) (табл. 6.4).

 

аблнца 6.4 «График агломерации» описывает порядок построения кластеров. В столбце «Stage» указываются номера строк.

Каждая строка представляет собой этап (шаг) процесса формирования кластеров. Последняя строка таблицы «График агломерации» описывает последний этап этого процесса, когда все объекты исследования объединяются в один кластер.

Число строк в таблице «График агломерации» всегда на единицу меньше числа объектов исследования. В рассматриваемом примере объектами исследования являются 11 возрастных категорий туристов, и число шагов их поэтапного объединения в один кластер составляет 10.

В столбце «Cluster Combined» указывается, какие именно кластеры объединяются в один на очередном этапе формирования кластеров. В столбце «Coefficients» указываются значения того показателя, на основании которого устанавливается очередность поэтапного объединения объектов исследования в один кластер. То, какой именно показатель используется для этих целей, зависит от выбранного метода формирования кластеров. В нашем примере был выбран метод «Ward».

Основной принцип метода «Ward» заключается в том, что в первую очередь должны объединяться те кластеры, объединение которых в наименьшей степени способствует увеличению гетерогенности (разнородности) внутри формируемых кластеров.

В столбце «Coefficients» указываются значения коэффициента, характеризующего степень гетерогенности (разнородности) формируемых кластеров. На начальном (нулевом) этапе формирования кластеров, когда каждый объект исследования рассматривается как кластер, все кластеры являются абсолютно гомогенными (однородными). Коэффициент, характеризующий степень их гетерогенности, равен нулю.

Гетерогенность кластеров повышается по мере их объединения в более крупные. На первом этапе при объединении кластеров «9» и «10» гетерогенность вновь созданного кластера характеризуется значением коэффициента 0,004 (см. рис. 6.10).

На последнем (десятом) этапе при объединении всех объектов исследования в один кластер гетерогенность созданного кластера характеризуется значением коэффициента 4,196.

Применение метода «Ward» обеспечивает минимально возможное увеличение степени гетерогенности формируемых кластеров в процессе объединения мелких кластеров в более крупные.

В столбце «Next Stage» указывается номер этапа формирования кластеров, когда ноьый кластер будет объединяться с другими.

Например, на первом этапе при объединении кластеров «9» и «10» создается новый кластер, ему присваивается номер «9». Созданный кластер «9» будет объединяться с кластером «11» на четвертом этапе формирования кластеров, о чем есть соответствующая отметка в столбце «Next Stage» (см. табл. 6.4).

В столбце «Stage Cluster First Appears» указываются этапы (строки), на которых были сформированы объединяемые кластеры. Например, при объединении кластеров «9» и «11» указывается, что кластер «9» был сформирован на первом, а кластер «11» — на нулевом этапе формирования кластеров.

Таким образом, таблица «График агломерации» достаточно подробно описывает очередность формирования кластеров, начиная с нулевой стадии, когда каждый объект исследования рассматривается как кластер, и заканчивая созданием кластера, объединяющего все объекты исследования.

6.5. ОПРЕДЕЛЕНИЕ ОПТИМАЛЬНОГО КОЛИЧЕСТВА ФОРМИРУЕМЫХ КЛАСТЕРОВ

Компьютерная программа SPSS не дает ответа на вопрос, какое число формируемых кластеров является оптимальным. Это должны решать специалисты, проводящие исследование. При решении этой задачи необходимо учитывать два аспекта:

1. В процессе формирования кластеров их число становится все меньше, а количество объектов исследования, входящих в один кластер, — все больше.

2. С увеличением числа объектов, объединяемых в один кластер, растет гетерогенносгь формируемого кластера. Оптимальным является такое число кластеров, при котором

сформированные кластеры:

• с одной стороны, объединяют в себе как можно больше объектов исследования;

• с другой стороны, являются возможно менее гетерогенными внутри.

Решение относительно оптимального числа формируемых кластеров принимается на основании данных таблицы «График агломерации».

Для определения оптимального числа формируемых кластеров используется критерий «Ellbow»: строится график зависимости числа формируемых кластеров и значений коэффициента, характеризующего степень их гетерогенности (рис. 6.10).

 

Из данных на графике, представленном на рис. 6.10, видно, что при сокращении числа кластеров с 3 до 2 происходит резкое увеличение гетерогенности кластеров (с 0,603 до 1.224). Из этого следует, что 3 является оптимальным числом кластеров, т.е. в результате проведения кластерного анализа объекты исследования должны быть объединены в три кластера. Именно такое решение обеспечит создание сравнительно однородных кластеров, объединяющих достаточно большое число объектов исследования.

6.6. ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ КЛАСТЕРНОГО АНАЛИЗА

Результаты кластерного анализа нагляднее всего представляются в виде дендограммы (рис. 6.11).

 

Дендограмма является графическим изображением таблицы «График агломерации» (см. табл. 6.4).

При построении дендограммы SPSS нормирует значения коэффициента, характеризующего степень гетерогенности формируемых кластеров, по шкале от нуля до 25. В рассматриваемом примере значению шкалы дендограммы 25 (см. рис. 6.11) соответствует значение коэффициента 4,196 в последней строке таблицы «График агломерации» (см. табл. 6.4).

Дендограмма иллюстрирует увеличение разнородности кластеров по мере их укрупнения. Максимальное значение шкалы дендограммы 25 характеризует максимааьно возможную степень гетерогенности кластеров, когда все объекты исследования объеди-, нены в один кластер.

Если объекты исследования разделить на два кластера: «17— 24 года» и «25—70 лет», то данные кластеры будут значительно более разнородны. Степень их разнородности по шкале дендограммы понизится примерно до 7.

В качестве оптимального числа формируемых кластеров в рассматриваемом примере было определено число 3 (см. предыдущий раздел). Окончательным результатом кластерного анализа является разделение 11 возрастных групп туристов на три кластера:

· кластер 1: туристы 17—24 лет;

· кластер 2: туристы 25—44 лет;

· кластер 3: туристы 45—70 лет.

Как видно из дендограммы, кластеры «2» и «3», т.е. возрастные группы туристов «25—44 года» и «45—70 лег», являются более однородными по структуре интересов (мотивов проведения времени на отдыхе) по сравнению с возрастной группой «17—24 года» (см. рис. 6.11).

После кластерного анализа можно проводить дополнительные исследования, в ходе которых оцениваются особенности выделенных кластеров. В нашем примере можно выяснить, какие именно интересы туристов (мотивы проведения времени на отдыхе) являются наиболее важными для каждого сформированного кластера.

Также для выявления отличительных особенностей сформированных кластеров можно провести впоследствии дискриминант- ный анализ. С помощью дискриминантного анализа, например, можно выяснить, отличаются ли друг от друга туристы, оказавшиеся в разных кластерах, по каким-либо социально-демографическим признакам (кроме возраста, поскольку эта переменная лежит в основе формирования кластеров).

КОНТРОЛЬНЫЕ ВОПРОСЫ

1. Какова цель проведения и возможности использования результатов кластерного анализа?

2. Какие требования предъявляются к переменным, участвующим в проведении кластерного анализа, относительно типов шкал измерения переменных?

3. Почему и в каких случаях при проведении кластерного анализа необходимо преобразование структуры исходного массива данных?

4. Чем отличается иерархический кластерный анализ от других видов кластерного анализа?

5. В чем состоит отличие между дивизионным и агломеративным алгоритмом иерархического кластерного анализа?

6. Для чего при использовании метода формирования кластеров «Ward» служит показатель «Квадрат евклидова расстояния» и как следует интерпретировать его значения?

 

7. Что представляет собой таблица «График агломерации», выводимая в SPSS результатов иерархического кластерного анализа?

 

8. Какие данные содержатся в столбцах «Stage», «Cluster Combined», «Coefficients» и «Мех/ Stage» этой таблицы?

9. Какие ориентиры существуют для определения оптимального количества формируемых кластеров, что представляет собой критерий «EHbow»?

10. Что представляет собой дендо1рамма, выводимая в SPSS на экран компьютера среди результатов кластерного анализа?


ДИСКРИМИНАНТНЫЙ АНАЛИЗ

7.1. ПОСТАНОВКА ЦЕЛИ ИССЛЕДОВАНИЯ И ПРЕДСТАВЛЕНИЕ ИСХОДНЫХ ДАННЫХ В SPSS

Дискриминантный анализ — анализ различий заранее заданных групп объектов исследования (потребителей, товаров, брендов и т.п.). Переменная, разделяющая совокупность объектов исследования на группы, называется группирующей.

С помощью дискриминантного анализа изучаются различия между двумя или более группами по определенным признакам. Признаки, используемые для выявления различий между группами, называются дискриминационными переменными.

С точки зрения теории статистики группирующая переменная должна быть номинальной, т.е. измеряться по номинальной шкале, а зависимые переменные — метрическими (см. подраздел 2.3 «Типы шкал измерения переменных»). Соблюдение этого условия обеспечивает высокую точность статистических расчетов. Однако на практике при использовании SPSS допускается, что группирующая переменная может быть номинааьной или порядковой, а дискриминационные переменные могут измеряться по шкале любого типа.

Результатом дискриминантного анализа является построение дискриминантной модели (дискриминантной функции), которая имеег вид

где d — группирующая (зависимая) переменная;

bп — коэффициенты дискриминантной функции;

а — свободный член (константа);

хп — дискриминационные (независимые) переменные.

С помощью этой модели, зная харакгеристики объекта исследования, можно с определенной степенью уверенности определить его принадлежность к одной из исследованных групп. Например, требуется построить дискриминантную модель, при помощи которой на основании социально-демографических признаков (пол, возраст, образование, доход семьи) можно было бы причислить туриста к одной из двух групп: посещающих и не посещающих дискотеки (рис. 7.1).

 

Для того чтобы построить дискриминантную модель, следует сначала выяснить, все ли выбранные дискриминационные переменные в действительности служат отличительными признаками исследуемых групп (п = 4?). Только после этого можно построить дискриминантную модель (я, Ьп).

В нашем примере для дискриминантного анализа используются данные, собранные в результате опроса туристов, отдыхающих в курортной зоне «Баварский лес».

Информация по группирующей переменной формируется из ответов респондентов на вопрос анкеты № 4: «Какие заведения/ мероприятия Вы часто посещаете во время отдыха?» В качестве ответа на этот вопрос респондентам предлагается выбрать один или несколько вариантов из 11 предложенных ответов. В качестве ответа № 7 предлагается вариант «дискотеки».

При занесении в файл данных SPSS ответов на многовариантные вопросы создается несколько дихотомических переменных (см. раздел 2.2 «Виды кодировки данных»). В рассматриваемом примере вопрос анкеты № 44 представлен в файле данных SPSS в виде семи переменных (рис. 7.2).

 

В рассматриваемом примере дискриминантного анализа в качестве группирующей переменной используется переменная с именем «q_44_7» и меткой «Посещение дискотек». Метка этой переменной имеет два значения: «1» — «да» и «2» — «нет», которые разделяют опрашиваемых туристов на две группы: посещающие и не посещающие дискотеки. Ответы респондентов, которые затруднились или не захотели отвечать на этот вопрос («98», «99»), не участвуют в исследовании, о чем есть пометка в столбце «Missing».

В качестве дискриминационных переменных в рассматриваемом примере используются социально-демографические признаки туристов: пол, возраст, образование и доход семьи (рис. 7.3).

Переменная с именем «s_J» и меткой «Пол» имеет всего два значения («1» — «мужчины», «2» — женщины), т.е. она является дихотомической.

Переменная с именем «s_2a» и меткой «Возраст» является метрической переменной. Ответы на соответствующий вопрос анкеты выражаются в числах, поэтому числовые коды значений метки переменной отсутствуют, о чем говорит отметка «None» в столбце «Values».

Переменная с именем «s_4» и меткой «Образование» является порядковой переменной. Значения меток этой переменной относятся к 7 категориям, соответствующим уровням иерархии системы образования в Германии.

 

Переменная с именем «s_9» и меткой «Доход семьи» также является порядковой. Значения этой переменной представлены 9 категориями туристов по уровню дохода семьи: «1» — «до 500 евро», «2» — «от 500 до 900 евро», «3» — «от 900 до 1250 евро», «4» — «от 1250 до 1800 евро»... «9» — «свыше 3800 евро» в неделю.

Как отмечалось выше, не все из выбранных дискриминационных переменных в действительности могут выступать в качестве отличительных признаков исследуемых групп. Если они таковыми не являются, они должны быть исключены из дискриминантной модели. В целом при выполнении дискриминантного анализа решаются следующие задачи:

• Оценивается выбор дискриминационных переменных.

• Строится дискриминантная модель.

• Оценивается точность прогнозов на основе построенной дискриминантной модели.

7.2. КОМАНДЫ SPSS НА ВЫПОЛНЕНИЕ ДИСКРИМИНАНТНОГО АНАЛИЗА

Дискриминантный анализ, как и кластерный, относится к классификационным видам анализа. Для задания процедуры его выполнения в меню методов анализа, предлагаемых пакетом SPSS, следует выбрать группу методов «Classify», которая имеет собственное меню, включающее некоторые виды кластерного анализа и дискриминантный анализ (рис. 7.4).

 

При выборе меню «Analyze > Classify > Discriminant» открывается диалоговое окно «Дискриминантный анализ», в котором формируется задание на выполнение дискриминантного анализа (рис. 7.5).

 

В левом поле диалогового окна «Дискриминантный анализ» находится список меток всех переменных, занесенных в исходный файл данных. Из этого списка следует выбрать метки независимых переменных дискриминантной модели и при помощи кнопки со стрелкой поочередно перенести их в правое поле окна «Independents». В рассматриваемом примере это метки переменных: «Пол», «Возраст», «Образование» и «Доход семьи».

Затем из списка всех меток переменных в левом поле диалогового окна «Дискриминантный анализ» следует выбрать метку группирующей переменной и при помощи кнопки со стрелкой перенести ее в правое поле «Group ng Variable». В рассматриваемом примере это метка переменной «Посещение дискотек».

После осуществления переноса метки группирующей переменной в поле «Grouping Variable» в этом поле появляется имя группирующей переменной («q_44_ 5») и активизируется кнопка «Define Range» («Определить область»). При нажатии этой кнопки открывается одноименное вспомогательное диалоговое окно (рис. 7.6).

 

Во вспомогательном диалоговом окне «Define Range» следует определить минимальное и максимальное значения числовых кодов исследуемых групп. В рассматриваемом примере исследуемых групп только две: «1» — «туристы, посещающие дискотеки» и «2» — «туристы, не посещающие дискотеки». После нажатия кнопки «Continue» (см. рис. 7.6) осуществляется возврат в главное диалоговое окно «Дискриминантный анализ» (см. рис. 7.5).

В главном диалоговом окне «Дискриминантный анализ» следует указать метод построения дискриминантной модели. Возможен выбор пошагового метода («Use stepwise method») (см. рис. 7.5), который предполагает поэтапное включение независимых переменных в дискриминантную модель. В результате применения этого метода создается несколько дискриминантных моделей по количеству независимых переменных. В рассматриваемом примере выбран метод «Enter independents together» (см. рис. 7.5). Этот метод предполагает одновременное включение в дискриминантную модель всех заданных независимых переменных.

При нажатии кнопки «Statistics» в главном диалоговом окне «Дискриминантный анализ» открывается вспомогательное диалоговое окно «Статистические показатели» (рис. 7.7).

 

В диалоговом окне «Статистические показатели» можно задать команды на расчет различных статистических показателей в процессе выполнения процедуры дискриминантного анализа. В рассматриваемом примере в поле «Descriptives» («Описательные статистические методы») поставлены отметки напротив команд «Means» и «Univariate A NOVAs».

В результате выполнения команды «Means» рассчитываются средние значения дискриминационных переменных для каждой исследуемой группы. Результаты выполнения этой команды будут представлены далее (см. табл. 7.2).

В результате выполнения команды «Univariate ANOVAs» («Одномерные тесты ANOVA») производится тест на равенство средних значений дискриминационных переменных в исследуемых группах (см. подраздел 3 «Сравнение средних величин в SPSS»). Результаты выполнения этой команды будут представлены далее (см. табл. 7.2 и 7.3).

В рассматриваемом примере в поле «Matrices»(«Таблицы») диалогового окна «Статистические показатели» поставлена отметка напротив команды «Withi i-groups corretauon» (см. рис. 7.7). В результате выполнения этой команды на экран компьютера выводится таблица «Объединенные матрицы внутри групп», содержащая данные о корреляционных связях между дискриминационными переменными (см. далее табл. 7.5).

Также в рассматриваемом примере в поле «Function Coefficients» диалогового окна «Статистические показатели» поставлена отметка напротив команды «Unstandardized» (см. рис. 7.7). Это означает, что при построении дискриминантной функции будут использованы нестандартизированные коэффициенты. Значения нестандарт!жированных коэффициентов дискриминантной функции в рассматриваемом примере будут представлены далее (см. табл. 7.10).

При нажатии кнопки «Continue» в диалоговом окне «Статистические показатели» данное окно закрывается и осуществляется возврат в главное диалоговое окно «Дискриминантный анализ» (см. рис. 7.5). При нажатии кнопки «Classify» е главном диалоговом окне «Дискриминантный анализ» открывается вспомогательное диалоговое окно «Классификация» (рис. 7.8).

 

В диалоговом окне «Классификация» задаются условия и форма представления классификации объектов исследования, т.е. распределения их по группам. В рассматриваемом примере речь идет о разделении туристов на две группы: «посещающие дискотеки» и «не посещающие дискотеки».

В поле «Plots» («Графики») диалогового окна «Классификация» можно задать построение графиков, иллюстрирующих результаты классификации. В рассматриваемом примере поставлена отметка напротив команды «Separate-groups» («Разделенные группы») (см. рис. 7.8). В результате выполнения этой команды на экран выводятся графики распределения дискриминантной функции для каждой исследуемой группы. Результаты выполнения этой команды будут представлены далее (см. табл. 7.9 и 7.10).

В поле «Display» диалогового окна «Классификация» задается форма представления результатов классификации. В рассматриваемом примере отмечена команда «Casewise results» («Результаты отдельно по каждому наблюдению»). Таким образом, на экран выводятся результаты классификации отдельно по каждому респонденту, а именно к какой группе и с какой вероятностью он может быть причислен исходя из значения дискриминантной функции.

Следует ограничить число респондентов, по которым представляются результаты классификации. Это можно сделать при помощи команды «Lim teases to first...» («Ограничить наблюдения по первым...»). В нашем примере задано ограничение по первым 20 респондентам (см. рис. 7.8). Результаты классификации по первым 20 респондентам будут представлены далее (см. табл. 7.12).

В поле «Display» диалогового окна «Классификация» также поставлена отметка напротив команды «Summary table» («Сводная таблица»). В результате выполнения этой команды на экран компьютера выводится сводная таблица результатов классификации (см. далее табл. 7.13).

При нажатии кнопки «Continue» в диалоговом окне «Классификация» данное окно закрывается и осуществляется возврат в главное диалоговое окно «Дискриминантный анализ» (см. рис. 7.5). При нажатии кнопки «Save» («Сохранить») в диалоговом окне «Дискриминантный анализ» открывается одноименное вспомогательное диалоговое окно, в котором можно задать команды на сохранение результатов дискриминантного анализа в виде новых переменных в исходном файле данных, В рассматриваемом примере такие операции не производятся. Запуск процедуры выполнения дискриминантного анализа осуществляется путем нажатия кнопки «ОК» в главном диалоговом окне «Дискриминантный анализ».

7.3. ОЦЕНКА ВЫБОРА ДИСКРИМИНАЦИОННЫХ ПЕРЕМЕННЫХ

Оценка выбора дискриминационных переменных представляет собой первый этап интерпретации результатов дискриминантного анализа. Представление результатов анализа начинается с обзора действительных и пропущенных значений, который выводится на экран компьютера в виде таблицы «Анализ обработанных наблюдений» (табл. 7.1).

 

В нашем пример

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...