Главная | Обратная связь | Поможем написать вашу работу!

Объединение данных различных тестов

Для предсказания практических критериев часто может потребоваться не один, а несколько тестов. Большинство критериев являются комплексными, и их меры зависят от целого ряда различных свойств. Если бы для измерения такого критерия нужно было создать один тест, он получился бы крайне неоднородным. Однако, как уже отмечалось, относительно однородный тест, измеряющий, главным образом, одно свойство, более удовлетворителен, так как дает более однозначные результаты (глава 5). Поэтому обычно предпочтительней пользоваться серией из нескольких относительно однородных тестов, каждый из которых нацелен на какой-то один аспект критерия, чем одним тестом, представляющим собой мешанину самых разнородных заданий.

Когда несколько специально подобранных тестов применяются вместе для предсказания одного-единственного критерия, такую совокупность тестов называют тестовой батареей (test battery). Главная проблема, возникающая при использовании таких батарей, касается способа объединения показателей но отдельным тестам при выработке решения в каждом индивидуальном случае. Для этой цели обращаются к двум основным видам процедур, а именно использованию уравнения множественной регрессии и анализу профиля { profile analysis). Когда тесты применяются в интенсивном исследовании индивидуальных случаев, например при уточнении клинического диагноза, консультировании или при оценке руководителей высшего звена, проводящий тестирование специалист по большей части пользуется показателями теста, не прибегая к их статистическому анализу. Составляя заключение или давая рекомендации, он интерпретирует конкретный набор показателей и объединяет результаты отдельных тестов, опираясь на свою проницательность, прошлый опыт и теоретические соображения.

Уравнение множественной регрессии. Уравнение множественной регрессии позволяет получить числовую оценку прогнозируемого критерия для каждого испытуемого на основе его показателей по всем тестам батареи. Следующее уравнение регрессии иллюстрирует применение этой процедуры для предсказания успеваемости старшеклассника по математическим дисциплинам на основе его показателей по вербальному (V), числовому (N) и логическому (R) тестам:

Успехи в математике = 0,21 V + 0,2 W + 0,32 R + 1,35.

В этом примере тестовые показатели и оценка критерия выражаются в станайнах, Но для этой цели можно было бы использовать любую другую шкалу показателей.

180

Часть 2. Технические и методологические принципы

В приведенном выше уравнении выраженный в станайнах показатель ученика по каждому из трех тестов умножается на соответствующие веса, заданные в этом уравнении. Сумма трех произведений плюс константа (1,35) дает прогнозируемое положение ученика (в шкале станайнов) по математике.

Предположим, Бетти Джонс получила следующие показатели в станайнах:

Вербальный тест: 6 Числовой тест: 4 Логический тест: 8

Ожидаемые успехи по математике у этой ученицы определяются следующим образом:

Успехи в математике = (0,21) (6) + (0,21) (4) + (0,32) (8) + 1,35 = 6,01.

Итак, прогнозируемый станайн Бетти примерно равен 6. Напомним (глава 3), что станайн 5 соответствует среднему уровню выполнения критериальной деятельности. Значит, Бетти, вероятно, будет иметь по математике оценки несколько выше среднего. Ее очень высокий результат по логическому тесту (/? = 8) и превышающий средний уровень результат по вербальному тесту (V - 6) компенсируют невысокую скорость и точность вычислений (N = 4).

Конкретные вычислительные процедуры применительно к уравнениям регрессии можно найти в учебниках по статистике для психологов (например, D. С. Howell, 1997; Runyon, & Haber, 1991). По существу, такое уравнение основано на корреляции каждого теста с критерием и корреляциях тестов между собой. Очевидно, что тесты, сильнее коррелирующие с критерием, должны получить больший вес. Столь же важно, однако, учитывать корреляцию каждого теста с другими тестами батареи. Высокая корреляция указывает на ненужное дублирование одного теста другим, ибо это означает, что тесты в значительной мере направлены на один и тот же аспект критерия. Включение двух таких тестов не повышает существенно валидности всей батареи, даже если оба они тесно коррелируют с критерием. В этом случае один из этих тестов столь же эффективен, как и пара, поэтому в батарее следует оставить только один тест.

Однако даже после того, как случаи наиболее выраженного дублирования тестов в батарее устраняются, оставшиеся тесты все равно будут в той или иной степени коррелировать друг с другом. Для максимизации прогнозирующей силы тесты, вносящие более «уникальный» вклад в полную батарею, должны получать больший вес по сравнению с тестами, частично дублирующими функции других тестов батареи. При расчете коэффициентов уравнения множественной регрессии каждый тест получает вес, прямо пропорциональный его корреляции с критерием и обратно пропорциональный корреляции с другими тестами. Это значит, что максимальный вес получит тест, обладающий наибольшей валидностью и в наименьшей степени дублирующий остальную часть батареи.

Валидность полной батареи можно найти путем вычисления коэффициента множественной корреляции (R) между входящими в нее тестами и критерием. Этот вид корреляции дает оценку максимальной предсказуемостной эффективности, которой можно добиться от данной тестовой батареи при условии, что каждый входящий в нее тест получает оптимальный — с точки зрения предсказания критерия — вес. Оптимальные веса как раз и определяются по уравнению регрессии.

Глава 6. Валидность: измерение и интерпретация

181

Следует иметь в виду, что эти веса являются оптимальными только для конкретной выборки, по результатам обследования которой они были найдены. Поскольку в используемых при определении весов коэффициентах корреляции всегда присутствуют случайные (несистематические) ошибки, весовые коэффициенты регрессии могут меняться от выборки к выборке. Поэтому батарею следует подвергнуть перекрестной валидизации, коррелируя прогнозируемые показатели критерия с его фактическими показателями в новой выборке. Для оценки степени естественной убыли (shrinkage) множественной корреляции, которой можно ожидать при применении уравнения регрессии к другой выборке, существуют специальные формулы, но, если есть возможность, предпочтительней провести эмпирическую проверку. В целом же, чем больше выборка, по которой определялись веса, тем меньшей будет эта естественная убыль.¹

В определенных ситуациях прогностическую валидность батареи можно повысить, включая в уравнение регрессии переменную, которая представляет тест, имеющий нулевую корреляцию с критерием и высокую корреляцию с одним из тестов батареи. Такая необычная ситуация возникает, когда тест, не коррелирующий с критерием, действует как переменная-подавитель (suppressor variable), устраняющая или гасящая нерелевантную дисперсию показателей коррелирующего с ним теста. Например, понимание читаемого текста может тесно коррелировать с показателями теста математических или механических способностей, так как выполнение заданий этих тестов требует понимания сложных письменных инструкций. Даже если понимание текста не имеет отношения к прогнозируемой трудовой деятельности, оно, будучи необходимым для выполнения тестов, вносит дисперсию ошибок в результаты и снижает прогностическую валидность этих тестов. Проведя тест на понимание читаемого и включив его показатели в уравнение регрессии, мы устраним эту дисперсию ошибок и повысим валидность батареи. Переменная-подавитель входит в уравнение регрессии с отрицательным знаком. Поэтому чем выше показатель конкретного человека по тесту понимания читаемого текста, тем большая величина вычитается из его показателя по тесту математических или механических способностей. Однако в любой ситуации для исключения нерелевантной дисперсии предпочтительней использовать более прямую процедуру пересмотра теста, чем косвенный способ статистического устранения такой дисперсии с помощью переменной-подавителя. И только в тех случаях, когда внесение изменений в тест невозможно или недопустимо, следует рассмотреть вариант использования переменных-подавителей. В таких случаях эффект переменной-подавителя нужно всегда проверять на новой выборке.

Анализ профиля и критические показатели. В дополнение к анализу индивидуальных профилей, применяемому в клиническом обследовании, паттерн, или конфигурацию тестовых показателей, полученных с помощью батареи для отбора персонала, можно оценивать на основе множественного критерия, представленного набором критических показателей. Если коротко, то этот способ заключается в установлении минимального критического показателя по каждому тесту батареи. Когда применяется

При определенных условиях в качестве весовых коэффициентов регрессии предпочтительней использовать «удельные веса» или другие альтернативы. Краткий обзор исследований различных схем взвешивания см. в Dunnette & Borman (1979).

182

Часть 2. Технические и методологические принципы

строгий вариант этого метода, всякий, кто не достигает такого минимального уровня хотя бы по одному из тестов, считается не прошедшим тестирования. При выборе тестов и установлении критических показателей, подходящих для определенной профессии, обычно исходят не только из величины коэффициентов валидности тестов. Если бы в расчет принимались только тесты со значимыми коэффициентами валидности, то могли оказаться неучтенными существенные навыки или способности, которыми должны обладать все представители определенной профессии. Поэтому необходимо рассматривать и те способности, которые должны быть хорошо развиты у тестируемых как единой профессиональной группы, даже если индивидуальные различия между ними, наблюдающиеся выше критериального минимума, никак не связаны с успешностью работы. Кроме того, представители некоторых профессий могут представлять собой настолько однородную группу по ключевой переменной, что диапазон индивидуальных различий оказывается слишком узким, чтобы обеспечить значимую корреляцию между показателями теста и критерием.

Наиболее полной иллюстрацией применения метода множественных критических показателей может служить Батарея тестов общих способностей (GATBy, разработанная Службой занятости США для целей профконсультирования и проф-просвещения в ее региональных отделах (U. S. Department of Labor, 1970). Девять показателей способностей, которые дает эта батарея и которые рассматриваются применительно к каждой профессии, были выбраны на основе корреляции с критерием, среднего и стандартного отклонения показателей представителей конкретных профессий, а также качественных оценок специалиста по анализу трудовых операций.

Наиболее сильный аргумент в пользу применения множественных критических показателей, а не уравнения регрессии, основывается на возможности существования компенсирующих показателей (compensatory scores). Другими словами, серьезная недостаточность в одном навыке может остаться незамеченной в суммарном показателе индивидуума по тестовой батарее вследствие высокого показателя по другому тесту. Если эта недостаточность относится к навыку, который является решающим для выполнения определенной работы, отобранный кандидат потерпит неудачу, независимо от его способностей в других областях. Однако такой ситуации можно избежать, установив один или несколько критических навыков, необходимых в определенной профессии, и применяя критический показатель только в соответствующих тестах. В большинстве же тестов обычно предпочтительнее сохранять актуальный, фактический показатель, поскольку чем выше тестовый показатель конкретного человека, тем выше, в общем, будет эффективность его работы. Для большинства профессий связь между прогнозирующим показателем и критериальной деятельностью носит линейный характер. Следует добавить, что именно широкие исследования с использованием батареи GATB снабдили нас надежными данными о линейности такой связи (Coward, & Sackett, 1990; Hartigan, & Wigdor, 1989; Hawk, 1970). При этих условиях отбор персонала на основе фактической величины тестовых показателей обеспечивает более высокую эффективность работы, чем отбор на основе превышения минимальных критических показателей.

¹ Эта широко используемая тестовая батарея рассматривается в главе 17, в связи с применением тестов в сфере промышленности и управления.

Глава 6. Валидность: измерение И интерпретация

183

Предыдущая 18 19 20 21 22 23 242526 27 28 29 30 31 32 33 Следующая

Воспользуйтесь поиском по сайту: