Методы предсказания критерия
Текущая и прогнозирующая валидизация. Методы установления валидности через предсказание критерия показывают эффективность теста в том, что касается прогнозирования выполнения индивидуумом точно определенной деятельности. Измерение критерия, относительно которого устанавливается валидность тестовых показателей, может производиться почти одновременно с ними или же через установленный промежуток времени. В зависимости от временных отношений между критерием и тестом Стандарты тестирования (1985) различают текущую и прогностическую валидности. Термин «прогнозирование» может использоваться как в широком смысле, означая предсказание по данному тесту в отношении любой критериальной ситуации, так и в более узком смысле предсказания в пределах некоторого временного интервала. В последнем смысле он и используется в выражении «прогностическая валидность». Информация, получаемая при прогнозирующей валидизации, особенно важна для тестов, используемых при отборе и распределении персонала. Прием на работу, отбор учащихся в колледжи или профессиональные училища, направление военнослужащих на курсы специальной подготовки — вот примеры ситуаций, требующих для принятия решений сведений о прогностической валидности используемых тестов. Сюда же можно отнести применение тестов в профотборе для отсеивания лиц, склонных в стрессовых ситуациях к эмоциональным расстройствам, и в психиатрической клинике — для назначения курса лечения, наиболее подходящего тем или иным пациентам. В ряде случаев текущая валидность используется просто как заместитель прогностической валидности. На практике, для проведения прогнозирующей валидизации часто не хватает времени или не удается сформировать предварительную выборку, соответствующую целям тестирования. Поэтому в качестве компромиссного решения тесты проводятся на группе, для которой уже имеются данные по критерию. Например, тестовые показатели студентов колледжа могут сравниваться с их средней успеваемостью за период до момента тестирования, а тестовые показатели служащих — с их текущими производственными успехами.
140 Часть 2. Технические и методологические принципы Вместе с тем в определенных областях применения психологических тестов текущая валидность в наибольшей степени отвечает существу решаемых задач. Логическое различие между текущей и прогнозирующей валидизацией основано не на времени, а на целях тестирования. Текущая валидизация в полной мере применима к тестам, используемым для диагноза существующего положения дел, а не для предсказания будущих результатов. Это различие можно проиллюстрировать, задав два вопроса: «Является ли Смит достаточно квалифицированным летчиком?» и «Есть ли у Смита предпосылки к тому, чтобы стать квалифицированным летчиком?» Первый вопрос требует текущей валидизации соответствующего теста, второй — прогнозирующей валидизации. Поскольку критерий для текущей валидизации всегда доступен во время тестирования, позволительно спросить, какую функцию в подобных ситуациях выполняет сам тест? В основном, такие тесты являются более простым, быстрым и дешевым заменителем критериальных данных. Например, если сбор данных о критерии требует постоянного наблюдения больного в стационаре в течение двух недель, то тест, позволяющий отделить норму от патологии и сомнительных случаев, мог бы заметно сократить число людей, занятых диагностическим наблюдением. Ухудшение критерия. При определении валидности теста необходимо соблюдать меры предосторожности, с тем чтобы результаты теста не сказывались на положении тестируемого относительно выбранного критерия. Например, если преподавателю колледжа или мастеру на заводе станет известно, что данный студент или рабочий плохо справился с соответствующим тестом способностей, то это может плохо сказаться на оценке их деятельности. И наоборот, слишком высокие результаты по тесту могли бы подтолкнуть преподавателя или начальника к искусственному завышению академических оценок студентов или разряда рабочих соответственно. Такие влияния, очевидно, повышают корреляцию между показателями теста и критерием, которая, увы, не отражает действительного положения вещей.
Этот возможный источник ошибки при валидизации теста называют ухудшением или порчей критерия, поскольку оценки критерия «портятся» осведомленностью оценщика о тестовых показателях. Чтобы предотвратить действие такой ошибки, совершенно необходимо, чтобы лицам, производящим оценку критерия, ничего не было известно о тестовых результатах испытуемого. По этой причине тестовые показатели, используемые при «тестировании теста», должны держаться в строгом секрете. Порой трудно убедить преподавателей, работодателей, военное начальство и других официальных лиц в необходимости такой меры предосторожности. Стремясь использовать всю доступную информацию для принятия практических решений, эти люди могут не понимать того, что показателями теста нельзя пользоваться до тех пор, пока не будут получены критериальные данные и не будет проверена его валидность. Меры критерия валидизации. Множество критериев, относительно которых может проводиться валидизация теста, соответствует множеству конкретных целей и областей его применения. Любой метод оценки поведения в любой ситуации мог бы дать критериальную меру для какой-то определенной цели тестирования. Однако критерии, относительно которых определяется приводимая в руководствах валидность тестов, можно разбить на несколько общих категорий. Для валидизации тестов интеллекта чаще всего используются тот или иной показатель учебных достижений Глава 5. Валидность: основные понятия 141 (academic achievement). Вот почему такие тесты иногда более точно характеризовали как средства измерения способности к обучению. В качестве конкретных показателей, используемых в роли меры критерия, выступают школьные оценки, показатели тестов достижений, сведения о переводе в следующий класс и об окончании школы, особые отличия и поощрения, а также интеллектуальные рейтинги учащихся, составляемые педагогами. Поскольку на эти рейтинги в значительной степени влияет результативность учебной деятельности каждого учащегося, постольку их, вероятно, можно отнести к категории мер критерия учебных достижений.
Различные показатели академических успехов использовались в, качестве критериальных данных на всех уровнях обучения — от младших классов школы до колледжа и аспирантуры. Хотя их использовали главным образом для валидизации тестов общего интеллекта, они также служили критериями для некоторых тестов личности и комплексных батарей способностей. Например, при валидизации разнообразных тестов, предназначенных для отбора абитуриентов, общим критерием являлся средневзвешенный балл первокурсника. Эта мера представляет собой среднее из оценок по всем курсам первого года обучения, каждая из которых получает весовой коэффициент, соответствующий числу экзаменационных вопросов по курсу, за который она была получена. Часто используемой разновидностью критерия академических достижений для неучащихся взрослых является объем полученного ими образования. Предполагается, что, в общем, люди с более высоким интеллектом продолжают свое образование, а менее интеллектуальные прекращают его раньше. Соображение, положенное в основу этого критерия, заключается в том, что образовательная лестница служит инструментом отбора с прогрессивно повышающимися требованиями, отсеивая на каждой ступени неспособных продолжать обучение. Хотя не подлежит сомнению, что, скажем выпускники колледжа составляют группу, отобранную в соответствии с более высо кими образовательными требованиями, чем окончившие начальную школу, связ] между объемом образования и способностью к обучению весьма далека от полной Экономические, социальные, мотивационные и другие неинтеллектуальные факторь могут влиять на продолжение человеком своего образования, особенно высшего. Кро ме того, при такой текущей валидизации трудно решить, что является причиной, а чт< следствием. В какой степени полученные различия в показателях теста интеллект есть просто результат разницы в образовании? И насколько точно тест мог бы предска зать индивидуальные различия в успехах при дальнейшем обучении? На эти вопрос! можно ответить только в том случае, когда тест проводится до получения критериалг ных данных, как при прогнозирующей валидизации.
При разработке тестов специальных способностей в основу критерия валидизаци часто кладут эффективность специальной подготовки (performance in specialized tra ning). Например, валидность тестов механических способностей может устанавл* ваться относительно конечных результатов производственного обучения. Различнь: курсы бизнес-школ (машинописи, бухгалтерского учета и т. д.) обеспечивают крит(рии для тестов способностей в этих областях деятельности. Аналогично этому, р1 зультаты обучения в музыкальных или художественных училищах всегда использ! вались при валидизации тестов музыкальных и изобразительных способностей. Д.г ряда тестов профессиональных способностей валидизация проводилась относителы успешности обучения на юридическом, терапевтическом, стоматологическом и друп факультетах университета. В случае изготавливаемых по особому заказу тестов, пре, 142 Часть 2. Технические и методологические принципы назначенных для использования в узкоспециальной программе тестирования, личные дела слушателей и курсантов часто служат источником критериальных данных. Яркий пример — валидизация тестов для отбора курсантов военных летных училищ относительно результатов начальной летной подготовки. Успешность выполнения программы специального обучения обычно используется и при валидизации других тестов, предназначенных для отбора военных и промышленных специалистов. Среди показателей выполнения программы обучения, используемых в качестве критерия, можно упомянуть показатели тестов достижений, проводимых по завершении курсов, официально присваиваемые разряды и звания, оценки инструкторов и успешное окончание курсов в противоположность отчислению с них. Валидность комплексных батарей способностей часто устанавливалась относительно оценок по специальным предметам, проходимым в школе или в колледже. Например, показатели по тесту вербального понимания могут сравниваться с оценками по курсам родного языка, показатели по тесту пространственных представлений — с оценками по геометрии, и т. д.
В связи с использованием данных профессионального обучения в качестве мер критерия, полезно различать промежуточные и конечные критерии. При разработке теста для отбора курсантов военных летных училищ или теста медицинских способностей, например, конечными критериями были бы выполнение боевых заданий летчиком и достижение положительных результатов практикующим врачом соответственно. Очевидно, для получения таких критериальных данных потребовалось бы много времени. Сомнительно к тому же, что в реальной деятельности вообще можно получить действительно конечный критерий. Даже если бы такой конечный критерий в итоге оказался в нашем распоряжении, он, вероятно, подвергался действию множества неконтролируемых факторов, что сделало бы его относительно бесполезным. Например, было бы трудно оценить относительную степень успеха врачей различных специальностей, имеющих практику в разных частях страны. По этим причинам в качестве критериальных мер часто используются такие промежуточные критерии, как данные о результативности обучения на той или иной стадии. Наилучшие во многих отношениях меры критерия валидизации основаны на последующем выполнении реальной деятельности (job performance). В какой-то мере этот критерий использовался при валидизации тестов общего интеллекта и личности, но в значительно большей степени — при валидизации тестов специальных способностей. Кроме того, он обычно применяется для валидизации изготавливаемых по особому заказу тестов, касающихся отбора кадров для профессий, входящих в специальный перечень (авиадиспетчеры, операторы АЭС, инкассаторы и т. д.). Большинство мер выполнения профессиональной деятельности, не являясь, вероятно, конечными критериями, обеспечивают по крайней мере надежные промежуточные критерии для многих целей тестирования. В этом отношении они предпочтительнее данных о прохождении специального обучения. Вместе с тем при измерении выполнения той или иной работы не удается в такой степени стандартизовать условия, как в случае профессионального обучения. Более того, поскольку в этом случае требуется более длительный контроль за работающими, использование критерия выполнения реальной деятельности, вероятно, влечет за собой сокращение выборки валидизации. Ввиду того, что работники, занимающие номинально одинаковые должности, в разных организациях выполняют фактически неодинаковые функции, в руководстве к тесту вместе с данными о валидности относительно критерия реальной деятельности следует указать не Глава 5. Валидность: основные понятия 14.J только использованные при валидизации конкретные меры этого критерия, но и дать краткую характеристику обязанностей, выполнявшихся этими работниками. Валидизация методом контрастных групп (contrastedgroups) обычно требует композиционного критерия, который отражает накапливающиеся и неконтролируемые селективные влияния повседневной жизни. Этот критерий, в конечном счете, основан на сохранении принадлежности индивидуума к конкретной группе в противоположность выбыванию из нее. Например, валидность теста музыкальных или механических способностей может проверяться сравнением показателей учащихся, зачисленных соответственно в музыкальную школу или на инженерно-механический факультет университета, с показателями тех, кто не выдержал требований этих учебных заведений. Разумеется, контрастные группы могут комплектоваться по любому критерию, такому как школьные оценки, рейтинги или выполнение нормы выработки, путем простого выбора крайних участков распределения соответствующих критериальных мер. Однако включаемые в данную категорию контрастные группы — это особые группы, которые становятся различными постепенно, под действием многочисленных требований повседневной жизни. В этом случае критерий оказывается более комплексным и менее поддающимся определению, чем ранее рассмотренные. Метод контрастных групп довольно часто применяется при валидизации тестов личности. Так, при установлении валидности теста социальных качеств, можно было бы сравнить результаты тестирования торговых и административных работников, с одной стороны, с результатами тестирования конторских служащих и инженеров — с другой. Такое сравнение основывается на предположении; что те, кто выбрал профессии в сфере торговли или управления и продолжает там работать, отличаются как группа по своим социальным качествам от тех, кто предпочитает конторскую работу или инженерное дело. Аналогично, можно было бы сравнить тех студентов колледжа, кто принимал активное участие во внепрограммных мероприятиях, с теми, кто в течение сопоставимого периода пребывания в колледже ни разу в них не участвовал. Группы представителей различных профессий часто использовались при разработке и валидизации тестов интересов, таких как Бланк профессиональных интересов Стронга (SVIB), а также при подготовке шкал аттитюдов. Для определения валидности шкал аттитюдов иногда использовались группы, сформированные по политическому, религиозному, географическому и иным признакам, в отношении которых твердо известно, что они отражают противоположные точки зрения по определенным вопросам. При эмпирической валидизации предметно-ориентированных тестов, в добавление к обычным методам валидизации по содержанию использовалось несколько адаптации метода контрастных групп (Hambleton, 1984b). С этой целью группы, различающиеся по объему соответствующего обучения, сравнивались по результатам выполнения теста. При дихотомической оценке владения предметом проводился анализ четырех-клеточных таблиц, в котором доля «зачетных» (pass) и «незачетных» (fail) показателей в необученной группе сравнивается с долей таких показателей в обученной группе (Ра-nell, & Laabs, 1979). Аналогичные сравнения могут делаться и в тех случаях, когда тест предъявляется школьникам классом младше и классом старше того класса, в котором проходят конкретное понятие или формируется конкретное умение, оцениваемое Данным тестом. Если доступны показатели за несколько разных периодов обучения, можно вычислить корреляцию между фактическим выполнением и объемом обучения. 144 Часть 2. Технические и методологические принципы При разработке некоторых тестов личности психиатрический диагноз (psychiatric diagnosis) используется и в качестве основания отбора заданий, и в качестве доказательства валидности теста. Такой диагноз может служить удовлетворительным критерием при условии, что он основан на длительном наблюдении и полной истории болезни, а не на беглом собеседовании или осмотре. В последнем случае на психиатрический диагноз можно положиться не больше чем на результат самого теста, и такой диагноз следует рассматривать не как критериальную меру, а как показатель или предсказатель, валидность которого еще должна быть установлена. В связи с другими категориями критерия уже упоминались рейтинги, или субъективные оценки (ratings), даваемые школьными учителями, инструкторами специализированных курсов, мастерами на производстве. К ним можно добавить отзывы офицеров о действии подчиненных в штатных ситуациях, оценки учеников со стороны школьной администрации, оценки товарищей по работе, по классу, по клубу и т. д. Обсуждавшиеся до сих пор субъективные оценки представлялись лишь как вспомогательное средство получения информации о таких критериях, как академические достижения, эффективность специальной подготовки или успехи в работе. Теперь мы обращаемся к использованию субъективных оценок в качестве ядра критериальной меры. При таких условиях именно они задают значение критерия. Более того, такие оценки не ограничиваются описанием конкретных достижений, но включают личное суждение наблюдателя в отношении любого из множества свойств, на измерение которых ориентирован тест. Так, участников выборки валидизации наблюдатели могут ранжировать по таким признакам, как доминантность, искусность, оригинальность, лидерство или честность. Подобные оценки использовались при валидизации почти всех типов тестов. Они особенно полезны в плане обеспечения критериев для тестов личности, поскольку установление объективных критериев в этой области связано с огромными трудностями. Это справедливо в отношении социальных качеств, так как их оценка основывается на личных контактах и потому может служить наиболее логически обоснованным критерием. Хотя эти оценки не свободны от ошибок, свойственных всем субъективным суждениям, они представляют собой ценный источник критериальных данных при условии их получения в тщательно контролируемых условиях. Способы повышения точности субъективных оценок и сокращения общих типов ошибок будут рассмотрены в главе 16. Наконец, корреляции между новым тестом и ранее доступными тестами (previously available tests) часто приводятся в качестве доказательства валидности. Если новый тест представляет собой сокращенный или упрощенный вариант уже существующего теста, то последний можно с полным основанием считать критериальной мерой. Так, валидизация бланкового теста (типа «бумага—карандаш») может быть осуществлена относительно более сложно организованного и отнимающего много времени теста действия, валидность которого уже установлена. Или, скажем, валидность группового теста может устанавливаться относительно индивидуального теста. Тесты Стэн-форд—Бине, например, не раз служили критерием при валидизации групповых тестов. В таких ситуациях новый тест можно считать в лучшем случае грубой аппроксимацией ранее существующего. Следует отметить, что если новый тест не является более простым или более коротким заменителем ранее доступного теста, то использование последнего в качестве критерия недопустимо. Глава 5. Валидность: основные понятия 145 Существенное совершенствование конструирования тестов в 1980-е и 1990-е гг. привлекло внимание к анализу критерия (criterion analysis). Это именно тот аспект работы по созданию теста, которым обычно пренебрегали в традиционных исследованиях тестов. На протяжении многих лет раздавались отдельные голоса, убеждавшие в необходимости систематических исследований критериев валидизации, однако практическое воплощение этих призывов было весьма скудным (L. R.James, 1973; Tenopyr, 1986). Даже в хорошо спланированных проектах, предполагавших тщательный анализ конкретного вида трудовой деятельности с целью получения ориентиров для разработки теста, результаты этого анализа практически не оказывали влияния на выбор меры критерия, используемого при последующей валидизации созданных вариантов теста. Обычно в качестве критерия принималось «то, что есть», и потому он часто был представлен одним общим показателем эффективности работы участников выборки валидизации, основанном на субъективных оценках начальства или на документах учета выработки. В настоящее время широко признается, что валидность теста может быть наиболее эффективно исследована путем идентификации основных конструктов в выполнении определенной работы и последующего подбора или разработки тестов, показатели которых оценивают эти необходимые конструкты (J. P. Campbell, 1990 a; J. P. Campbell, McHenry, & Wise, 1990; L. V.Jones, & Applebaum, 1989; Messick, 1995). Замечательный пример применения всестороннего исследования критерия в качестве первого этапа разработки тестовой батареи дает Проект отбора и распределения специалистов сухопутных войск США (U. S. Аппу ' s Selection and Classification Project), больше известный под названием «Проект Л» (J. P. Campbell, 1990b). Вследствие его общей значимости для применения тестов в сфере производства и управления этот крупномасштабный, семилетний проект более подробно рассматривается в главе 17. Обобщение валидности. Прогностическая критериальная валидность (criterion - prediction validity) часто используется в локальных исследованиях валидизации, целью которых является оценка эффективности теста для какой-то конкретной программы. Этого подхода придерживаются в тех случаях, когда, например, некая компания хочет оценить тест для отбора кандидатов на одно из своих рабочих мест или когда некий колледж хочет выяснить, насколько хорошо тест академических способностей может предсказывать освоение определенного учебного курса его студентами. Прогностическую критериальную валидность можно лучше всего охарактеризовать как практическую валидность теста для строго определенной цели. Когда в исследованиях валидизации на выборках работников промышленности показатели стандартизованных тестов способностей впервые попытались скоррели-ровать с результатами выполнения предположительно родственных видов работы, была обнаружена значительная вариация коэффициентов валидности (Ghiselli, 1959, 1966). Аналогичная вариабельность коэффициентов валидности наблюдалась и тогда, когда критериями служили оценки по различным учебным предметам (G. К. Bennett, Seashore, & Wesman, 1984). Такие результаты привели к общему пессимизму в отношении обобщимости валидности теста на различные ситуации. До середины 1970-х гг. «ситуационная специфичность» психологических требований обычно считалась серьезным ограничением применимости стандартизованных тестов в профотборе. Однако Шмидт, Хантер и их коллеги с помощью тонкого статистического анализа этой проблемы показали, что большая часть дисперсии полученных коэффициентов 146 Часть 2. Технические и методологические принципы валидности может быть просто статистическим артефактом, возникающим вследствие малого объема выборки, ненадежности критерия и ограничения диапазона изменчивости в выборках работников.1 Выборки работников предприятий, доступные исследователям при валидизации тестов, обычно слишком малы, чтобы дать устойчивую оценку корреляции между прогнозирующим показателем и критерием. По той же причине получаемые коэффициенты могут оказаться слишком низкими, чтобы достичь статистической значимости в используемой для валидизации выборке, и потому не пригодными в качестве доказательства валидности теста. По имеющимся оценкам примерно половина выборок работников промышленных предприятий, используемых в исследованиях валидности, включает не более 40-50 человек (Schmidt, Hunter, & Urry, 1976). При таких малых выборках валидизации через предсказание критерия технически не осуществима. Применяя свои недавно разработанные методы анализа к данным многих выборок, извлеченных из большой совокупности работников промышленности, Шмидт, Хан-тер и их сотрудники сумели показать, что валидность тестов вербальных, числовых и логических способностей можно распространить на значительно более широкий круг профессий, чем считалось ранее. Было доказано, что дисперсия коэффициентов валидности, обычно обнаруживавшаяся в более ранних исследованиях валидизации на выборках работников промышленности, не превышала величины случайной изменчивости. Этот вывод остается справедливым, даже когда специфические функции работников, казалось бы, существенно различаются в зависимости от места и характера работы. В конечном счете, успешное выполнение самых разных профессиональных задач во многом зависит от общего ядра когнитивных умений. Включенные в эти исследования тесты охватывали, главным образом, содержание и умения того типа, которые выборочно проверяются традиционными тестами интеллекта и академических способностей. Может показаться, что этот кластер когнитивных умений и знаний должен обладать значительной прогнозирующей силой в отношении выполнения разнообразной учебной и профессиональной деятельности, спрос на которую существует в обществах с передовой технологией. Однако более точных решений при отборе персонала обычно удается достичь при рассмотрении показателей по двум-трем широким когнитивным кластерам, предпочтительно дополненных замерами трудовых навыков предназначенных для выполнения конкретных профессиональных задач (Hartigan, & Wigdor, 1989; L. L. Wise, McHenry, & Campbell, 1990; Zeidner, & Johnson, 1991). Метаанализ. Статистические методы, используемые при изучении пределов обоб-щимости валидности, по существу дают нам способ объединения данных из различных исследований. С их помощью можно объединять данные прошлых и настоящих исследований, проведенных в одном или в разных местах, а также привлекать информацию из доступных публикаций. Хотя эта группа методов была внедрена в психологические исследования и впервые названа метаанализом (meta - analysis) в 1970-х гг. 1 Эта работа была частью длительной программы исследований, результаты которых отражены во многих статьях и монографиях. К числу наиболее важных с точки зрения обсуждаемого здесь вопроса относятся следующие публикации: Pearlman, Schmidt, & Hunter (1980), Schmidt, Gast-Rosenberg, & Hunter (1980), Schmidt & Hunter (1977), Schmidt, Hunter, & Pearlman (1981), Schmidt, Hunter, Pearl-man, & Shane (1979). г лава 5. Валидность: основные понятия 147 (Glass, 1976; Schmidt, & Hunter, 1977), лежащие в их основе вычислительные процедуры использовались уже в течение нескольких десятилетий, особенно в других науках (Hartigan, & Wigdor, 1989, chap. 6). Метаанализ получил растущее признание в психологии как возможная замена традиционных литературных обзоров (Lipsey, & Wilson, 1993; Schmidt, 1992). Такие обзоры, как правило, содержали информацию о тех исследованиях, в которых получены статистически значимые результаты, касающиеся, например, различий между средними контрольных и экспериментальных групп или корреляций между тестовыми показателями и другими переменными. При таком подходе многообещающие позитивные результаты часто терялись в силу того, что используемые в отдельных исследованиях выборки были слишком малы, чтобы обеспечить получение значимых различий. Благодаря объединению опубликованных данных нескольких исследований и приписыванию им весов (насколько это возможно) на основе релевантных методологических и вещественных признаков каждого исследования, метаанализ может выявить важные позитивные результаты. Дополнительное преимущество метаанализа состоит в том, что он допускает вычисление величины эффектов (effect sizes). И по теоретическим, и по практическим соображениям оценка величины различия или корреляции гораздо полезнее простой демонстрации их статистически значимого отличия от нуля. Два последних десятилетия XX в. свидетельствовали о быстром росте числа мета-аналитических исследований почти во всех областях психологии. Приложения метаанализа в исследованиях проблем профотбора и распределения персонала, вероятно, привлекли самое широкое внимание (см. главу 17). Интерес к метаанализу неуклонно растет и, соответственно, постоянно совершенствуются его процедуры. Хотя некоторые приемы метаанализа считаются спорными, основные результаты, получаемые с помощью разных его процедур, практически не различаются.1
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|