§ 3. Основные этапы факторного анализа
В ходе исследования с использованием разведочного ФА можно выделить три различных этапа: 1) сбор эмпирических данных и подготовка корреляционной (ковариационной) матрицы; 2) выделение первоначальных (ортогональных) факторов; 3) вращение факторной структуры и содержательная интерпретация результатов ФА. Остановимся на них подробнее. 1. Сбор эмпирических данных в психологическом исследовании разведочного плана всегда опосредован использованием какой-либо измерительной процедуры, в ходе которой испытуемый оценивает измеряемый объект (стимул) по ряду предложенных исследователем характеристик. На этом этапе очень важно, чтобы исследователем был предложен достаточно большой набор характеристик, всесторонне описывающих измеряемый объект. Подбор важных и разнообразных характеристик и одновременно исключение лишних и несущественных — это достаточно трудное дело, требующее от исследователя опыта, знания литературы и, в известной степени, интуиции. Именно продуманный и удачный подбор оцениваемых характеристик определяет в конечном счете успех в выделении существенных и значимых факторов, стоящих за ними — это основное, о чем нельзя забывать на данном этапе. Иначе говоря, из случайного набора характеристик объекта невозможно выделить такие факторы, которые будут закономерно и содержательно определять его оценку испытуемыми. Понятно, что с первого раза, априорно бывает трудно подобрать нужные характеристики. Поэтому еще раз напомним, что разведочное исследование с помощью ФА — это длительный и интеративный процесс, когда результаты предыдущего анализа позволяют оценить допущенные ошибки и скорректировать процедуру последующего исследования.
Второе существенное замечание возникает в связи с постулатом линейности. В случае, когда связь между психологическими характеристиками оказывается существенно нелинейной, базисная размерность искомого факторного пространства возрастает, и это приводит к ложному решению. Преодоление этой трудности может идти двумя путями. Во-первых, можно использовать коэффициент криволинейной корреляции (по Пирсону, например), а во-вторых, следует избегать тех психологических переменных, которые имеют между собой явно нелинейные связи. На данном этапе нельзя не коснуться вопроса о необходимом уровне измерения, поскольку он в первую очередь связан с использованием конкретного метода измерения. Вычислительные алгоритмы ФА требуют, чтобы измерения наблюдаемых переменных были проведены не ниже, чем по шкале интервалов. Это требование, к сожалению, выполняется далеко не всегда, что, впрочем, связано не столько с неосведомленностью исследователя, сколько с ограниченностью выбора измерительного метода и/или его адекватностью конкретной задаче или даже процедуре исследования. Реалии практики использования ФА в психологии таковы, что в подавляющем большинстве работ применяется один из вариантов метода балльной оценки, который, как известно, дает шкалу порядка. Налицо явное ограничение в использовании ФА. При решении данной проблемы следует иметь в виду следующее. Во-первых, стоит уделить максимальное внимание проработке процедурных моментов в использовании метода балльной оценки, чтобы выйти за установление только порядковых отношений и максимально " приблизиться" к шкале интервалов. Во-вторых, следует помнить, что математическая процедура ФА оказывается достаточно устойчивой к разного рода измерительным некорректностям при оценке коэффициентов корреляции между переменными. И наконец, в самой математической статистике существуют различные подходы к решению данной проблемы (Дж. Ким, Ч. Мьюллер, 1989), и для более качественной (не строго метрической) трактовки результатов ФА указанное ограничение приобретает не слишком принципиальное значение.
Достаточно важен вопрос о количестве используемых переменных или, более операционально, о том, сколько переменных должно приходиться на один гипотетический фактор. Вслед за Терстоуном многие авторы считают, что в разведочном ФА на один фактор должно приходиться не менее трех переменных. Для конфирматорного ФА эта пропорция меньше и, как правило, исследователи ограничиваются двумя переменными. Если исследователя интересует оценка надежности получаемых факторных нагрузок, существуют и более строгие оценки количества необходимых переменных (Дж. Ким, Ч. Мьюллер, 1989). Формальный итог первого этапа — получение матрицы смешения и на ее основе — корреляционной матрицы. Матрица смешения — это таблица, куда заносятся результаты измерения наблюдаемых переменных: в столбцах матрицы (по числу переменных) представлены оценки испытуемых (или одного испытуемого) каждой из переменной; строки матрицы — это различные наблюдения каждой переменной. Если задача исследователя — построить факторное пространство для одного испытуемого, то нужно обеспечить множественность таких наблюдений (например, повторить их несколько раз). В том случае, когда строится групповое факторное пространство, достаточно получить по одной оценке от каждого испытуемого. Для последующего расчета по этим данным корреляционной матрицы с достаточно достоверными коэффициентами корреляции следует обеспечить необходимое число наблюдений, т. е. количество строк в матрице смешения. Обычно не следует планировать менее 11—12 наблюдений. Корреляционная матрица (матрица попарных корреляций между переменными) рассчитывается, как правило, с использованием коэффициента линейной корреляции Пирсона. Часто возникает вопрос о возможности и правомерности использовать другие меры сходства (сопряженнности) между переменными, основанные на ранговой (порядковой) статистике. Понятно, что данный вопрос возникает всегда, когда исследователь работает с номинальными или порядковыми данными. В строгом смысле ответ будет отрицательным. Однако следует принять во внимание два соображения. Во-первых, показано, что при достаточном числе наблюдений коэффициент линейной корреляции Пирсона достаточно устойчив к использованию при расчетах результатов порядковых измерений. Во-вторых, как было отмечено выше, если перед исследователем стоит задача не столько количественного, сколько качественного анализа данных, то такое эвристическое использование ФА считается вполне оправданным.
Еще один тонкий вопрос, связанный с построением матрицы попарных корреляций связан с тем, какую матрицу использовать в ФА — корреляционную или ковариационную? Для начала напомним соответствующие формулы. Коэффициент ковариации
между двумя переменными х и у, а коэффициент корреляции: rxy = Cov/sxsy, (4)
где n — количество наблюдений, xi и yi — значения переменных х и у; Х и Y — средние арифметические значения переменных х и у по ряду наблюдений; σ x и σ y — средние квадратические отклонения переменных х и у по ряду наблюдений. Таким образом очевидно, что коэффициент корреляции — это тот же коэффициент ковариации, только нормированный по среднему квадратическому отклонению или, как еще говорят, выраженный в единицах среднего квадратического отклонения переменных. Из этого следуют и " рецепты" по применению в ФА корреляционной или ковариационной матриц: 1) если все переменные выражены в одних и тех же единицах измерения, то нет большого различия, какую из матриц факторизовать; 2) если метрики переменных заметно отличаются (единицы измерения значительно неоднородны и дисперсии переменных заметно отличаются), то целесообразно использовать анализ корреляционной матрицы; 3) ковариационные матрицы предпочтительнее, когда необходимо провести сравнение результатов ФА (факторных структур) в двух различных выборках, полученных в одном и том же исследовании, например, когда требуется оценить повторяемость какого-либо интересного результата.
2. Следующий важнейший этап ФА — собственнофакторизация матрицы корреляций (ковариации) или выделение первоначальных (ортогональных) факторов. В настоящее время — это полностью компьютеризованная процедура, которую можно найти во всех современных статистических программах. Одним из первых, кто предложил формально-математическое решение проблемы возможности факторизации корреляционной матрицы, был Л. Терстоун. В матричной форме его известное уравнение выглядит следующим образом (подробнее см.: Я. Окунь, 1974, с. 43-49):
где ||R|| — редуцированная корреляционная матрица; ||F|| — редуцированная матрица факторных нагрузок; ||F’|| — транспонированная матрица факторных нагрузок. Поясним, что редуцированная корреляционная матрица — это матрица попарных корреляций наблюдаемых переменных, где на главной диагонали лежат не единицы (как в полной матрице корреляций), а значения, соответствующие влиянию только общих для этих переменных факторов и называемые общностями. Аналогичным образом, редуцированная матрица факторных нагрузок или факторная матрица (формальная цель ФА) представляет собой факторные нагрузки только общих факторов. Основная проблема, стоящая при решении уравнения (3), заключается в том, что значения общностей в редуцированной корреляционной матрице неизвестны, а для начала вычислений их необходимо иметь. На первый взгляд неразрешимая проблема решается таким образом: до начала вычислений задаются некоторые приблизительные значения общностей (например, максимальный коэффициент корреляции по столбцу), а затем на последующих стадиях вычислений, когда уже имеются предварительные величины вычисленных факторных нагрузок, они уточняются. Таким образом, очевидно, что вычислительные алгоритмы ФА представляют собой последовательность итеративных* вычислений, где результаты каждого последующего шага определяются результатами предыдущих. С известной долей упрощения можно считать, что различные алгоритмы факторизации корреляционной матрицы в основном и отличаются тем, как конкретно решается данная проблема. * Итерация — это математический термин, означающий результат применения какой-либо математической операции, получающийся в серии аналогичных операций.
Для людей, неискушенных в проблемах математической статистики, но решающих с помощью ФА свою задачу, более важен основной смысл процедуры факторизации, заключающийся в переходах от матрицы смешения к корреляционной матрице и далее к матрице факторных нагрузок и построению факторных диаграмм (рис. 2).
Пользуясь данным рисунком, еще раз подчеркнем важную особенность ФА — это способ понижения размерности, сжатия объема данных. Обратите внимание, что исходная матрица смешения достаточно велика например, при условии 20-ти наблюдений каждой переменной она содержит 20 х 6 = 120 измерений. Конечный результат анализа — это всего лишь 2 x 6 = 12 чисел или построенная по матрице факторных нагрузок компактная факторная диаграмма. Таким образом, при адекватном использовании ФА как метода многомерного измерения мы можем получить 10-кратную компрессию исходной информации и наглядность результатов ее анализа. Напомним, что главная цель выделения первичных факторов в разведочном ФА состоит в определении минимального числа общих факторов, которые удовлетворительно воспроизводят (объясняют) корреляции между наблюдаемыми переменными. Основная стратегия при выделении факторов незначительно отличается в разных методах. Она заключается в оценке гипотезы о минимальном числе общих факторов, которые оптимально воспроизводят имеющиеся корреляции. Если нет каких-либо предположений о числе факторов (в ряде программ оно может быть задано прямо), то начинают с однофакторной модели. Эта гипотеза о достаточности одного фактора оценивается с помощью используемого критерия оптимальности соответствия данной однофакторной модели исходной корреляционной матрице. Если расхождение статистически значимо, то на следующем шаге оценивается модель с двумя факторами и т. д. Такой процесс подгонки модели под данные осуществляется до тех пор, пока с точки зрения используемого критерия соответствия расхождение не станет минимальным и будет оцениваться как случайное. В современных компьютерных статистических программах используются различные методы факторизации корреляционной матрицы. Нам представляется, что, хотя для исследователя данная проблема не представляет прямого интереса, тем не менее она важна, поскольку от выбора метода факторизации в определенной мере зависят результаты расчета факторных нагрузок. В силу специфики нашего изложения основ ФА мы ограничимся лишь перечислением этих методов, снабдив его очень краткими комментариями и отошлем читателя для более глубокого знакомства к специальной литературе, требующей некоторых познаний в математике (Дж. Ким, Ч. Мьюллер, 1989): Метод главных факторов (или главных осей) — наиболее старый и часто используемый в различных предметных областях. Метод наименьших квадратов сводится к минимизации остаточной корреляции после выделения определенного числа факторов и к оценке качества соответствия вычисленных и наблюдаемых коэффициентов корреляции по критерию минимума суммы квадратов отклонений. Метод максимального правдоподобия: специфика данного метода состоит в том, что в случае большой выборки (большого количества наблюдений каждой переменной) он позволяет получить статистический критерий значимости полученного факторного решения. Альфа-факторный анализ был разработан специально для анализа психологических данных, и поэтому его выводы носят в основном психометрический, а не статистический характер. В альфа-факторном анализе минимальное количество общих факторов оценивается по величинам собственных значений факторов и коэффициентов обобщенности а, которые должны быть больше 1 и 0, соответственно. Факторизация образов (или анализ образов). В отличие от классического ФА в анализе образов предполагается, что общность каждой переменной определяется не как функция гипотетических факторов, а как линейная регрессия всех остальных переменных. В табл. 1 представлены сравнительные результаты факторизации корреляционной матрицы (Дж. Ким, Ч. Мьюллер, 1989, с. 10), с использованием 4-х различных методов. Видно, что полученные результаты могут различаться, даже если не обращать внимание на знаки факторных нагрузок (об этом чуть ниже). Таблица 1
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|