Общий обзор и интеграция понятий
Сравнение методов валидизации. Мы рассмотрели несколько способов постановки вопроса «Насколько валиден данный тест?» Чтобы четче выделить отличительные признаки разных методов установления валидности, применим каждый из них по очереди к тесту, состоящему из 50 систематизированных арифметических задач. В табл. 5-2 представлены 4 возможных способа использования этого теста и соответствующие им методы валидизации. Из таблицы видно, что выбор метода валидизации зависит от последующего использования тестовых показателей. Валидность одного и того же теста в зависимости от цели его применения должна устанавливаться разными способами. Если тест достижений используется для предсказания дальнейших успехов на более высоком уровне обучения, как в случае отбора старшеклассников при их приеме в колледж, то валидность этого теста нужно оценивать относитель- Таблица 5-2 Валидизации одного арифметического теста для разных целей
Глава 5. Валидность: основные понятия
159 но такого критерия, как успешность обучения в колледже, а не относительно содержания данного школьного курса. Инклюзивность валидизации конструктов. Примеры в табл. 5-2 подчеркивают различия между разными типами методов валидизации. Дальнейшее изучение этих методов, однако, показывает, что устанавливаемые с их помощью содержательная, прогностическая и конструктная валидности не соответствуют строго разграниченным или логически скоординированными категориям. Напротив, конструктная валидность — это широкое понятие, включающее другие типы валидности. Все обсуждавшиеся выше конкретные способы анализа содержания и оценки связей показателей теста с критерием можно было бы, кроме того, отнести и к категории способов идентификации конструкта. Например, корреляции теста механических способностей с успешностью обучения на специализированных курсах и с выполнением различного рода работ позволяет нам лучше понять конструкт, измеряемый данным тестом. Идентификацию этого конструкта можно дополнительно подкрепить сравнением показателей контрастных групп успешно и неуспешно работающих. Валидность относительно разнообразных практических критериев обычно приводится в руководствах к тесту с тем, чтобы будущему пользователю легче было понять, что измеряет тест. Даже не будучи заинтересован в предсказании какого-либо из использованных конкретных критериев, он по их списку сможет составить себе представление об области поведения, выборочно проверяемой данным тестом. Если мы разовьем эту мысль немного дальше, то увидим, что всякое использование теста и любое истолкование тестовых показателей предполагает наличие конструктной валидности, — факт, который получает все большее признание (J. P. Campbell, 1990a; Guion, 1991; Messick, 1980b, 1988,1989; Tenopyr, 1986). Поскольку тесты редко, если вообще когда-либо, используют в условиях, идентичных тем, в которых собирались данные для их валидизации, это неизбежно предполагает некоторую степень обобщаемое™ результатов. Смысл, вкладываемый в тестовые показатели при их интерпретации, всегда опирается на конструкты, которые могут сильно различаться по ширине обобщения на области поведения, популяции и условия.
Мессик (Messick, 1980b, 1989) приводит убедительные аргументы в пользу того, чтобы сохранить термин «валидность» { validity), коль скоро им обозначается обоснованность смысловой интерпретации теста, только за конструктной валидностью. Другим методам обоснования теста, с которыми традиционно связывался этот термин, считает Мессик, следует подобрать более точно описывающие их сущность названия. И тогда содержательную валидность можно было бы заменить на «содержательную релевантность» { content relevance) и «содержательное покрытие» { content coverage) — Для спецификации и репрезентативности содержания теста относительно проверяемой предметной (или поведенческой) области соответственно. А критериальную валидность — заменить на «прогностическую полезность» { predictive utility) и «диагностическую полезность», чтобы эти термины соответствовали прогностической и текущей валидизации. Эти более точные, в плане описания, обозначения несомненно способствуют лучшему пониманию того, что в действительности достигается различными Мегодами валидизации. Тем не менее выделение различных типов валидизации полезно в качестве дополнительных опознавательных признаков тестов различного назначения. Поэтому об использованных типах валидизации следует сообщать в руко-°Дствах к тестам в легкоузнаваемой форме. 160 Часть 2. Технические и методологические принципы С другой стороны, даже когда непосредственная прикладная задача направлена на описание содержания (как в образовательном тестировании) или на предсказание критерия (как в профотборе), использование конструктов подходящей широты эффективнее применения мер конкретного выполнения теста. Исследования используемых в тестировании критериев делают все более очевидным тот факт, что и меры критерия и показатели теста можно более эффективно выразить в виде пары согласованных конструктов. Более того, изучение причинных отношений между конструктами, как при моделировании структурными уравнениями, получает признание в качестве важного вклада в понимание того, как и почему работают тесты.1
Валидизация в процессе конструирования теста. Все шире признается, что разработка валидного теста требует применения многих методов, используемых последовательно, на разных этапах конструирования теста (Anastasi, 1986а; Guion, 1991; Jackson, 1970,1973; N. G. Peterson et al., 1990). Таким образом валидность теста создается постепенно, начиная с первого шага в его разработке, а вовсе не на последних этапах, как при традиционной валидизации относительно критерия. Процесс валидизации начинается с формулирования детальных определений черты, свойства или конструкта на основе психологической теории, предшествующих исследований или систематического наблюдения и анализа релевантной области поведения. Затем, в соответствии с определениями конструкта, готовят задания теста. За этим следует их эмпирический анализ, с отбором наиболее эффективных, или валидных, заданий из исходной совокупности. Далее могут проводиться различные виды внутреннего анализа, включая статистический анализ кластеров заданий или субтестов. Заключительный этап включает в себя валидизацию различных показателей и их интерпретируемых комбинаций посредством статистического анализа, но уже относительно внешних, реальных критериев. Практически любые сведения, собранные в процессе разработки или использования теста, имеют отношение к его валидности и могут оказаться полезными. Данные о внутренней согласованности и ретестовой надежности, несомненно, помогают определить однородность конструкта и его временную устойчивость. Нормы могут способствовать дополнительной детализации описания конструкта, особенно если они включают нормативные данные для подгрупп, сформированных по возрасту, полу или другим демографическим переменным, влияющим на биографию конкретного человека и тем самым на результаты теста. Кроме того, после всех испытаний теста и получения разрешения на его практическое использование смысловая интерпретация его показателей может уточняться и обогащаться благодаря постепенному накоплению клинических наблюдений и выполнению специальных исследовательских проектов.2
Индивидуальные и социальные последствия тестирования. Некоторые психомет-ристы предлагали включить в понятие валидности теста дополнительный признак, а именно последствия (consequences) тестирования для конкретных людей и для общества в целом. Известным сторонником такого расширения понятия валидности является Мессик (Messick, 1980b, 1988, 1989, 1995). Особо выделяются непродуманные 1 Пример возможного применения этих более тонких методов валидизации тестов можно найти в L. A. King & D. W. King (1990). 2 Об удачном применении этой комплексной модели валидизации теста см. Elliott (1990b, chap. 9)- Глава 5. Валидность: основные понятия 161 заранее последствия целевого применения тестов, которое может причинить вред отдельным лицам и членам определенных этнических или других групп с отличающийся от большинства историей жизни. Превосходный анализ проблем согласования различных целей и ценностей при оценивании претендентов на рабочие места иллюстрируется отчетом временно созванного Национальным научно-исследовательским советом (National Research Council) комитета экспертов, который с необычайной основательностью изучил эту ситуацию (Hartigan, & Wigdor, 1989 — см. особенно chaps. 13 и 14). Этические и социальные последствия использования тестов бесспорно требуют самого широкого внимания. Некоторое ознакомление с этими проблемами дает глава 18. Их более специальные аспекты рассматриваются в главе 6, в связи с вопросом «необъективности тестов» (test bias). Однако, как отмечают другие психометристы (например, Cole, & Moss, 1989), включение этих вопросов в понятие валидности вряд ли будет самым эффективным способом их разрешения. На них невозможно ответить, опираясь только на эмпирические данные и статистический анализ. Да и вряд ли следует маскировать привлекательные для нас ценности статистическими манипуляциями. Эти вопросы нужно открыто формулировать и обсуждать как самостоятельную, объективную цель, рассматриваемую в дополнение к сугубо эмпирической и статистически доказанной валидности использования конкретного теста. Взвешенное решение, касающееся согласования конфликтующих целей, достигается методами, пригодными для преобразования систем ценностей (Mullen, & Roth, 1991; Zeichmeister, & Johnson, 1992).' Такие методы требуют специального разбирательства, систематических дискуссий, разрешения конфликтов и достижения компромиссов, причем должно быть обеспечено соразмерное представительство сторонников различных систем ценностей. Объединение эмпирических, статистически подкрепляемых процедур определения валидности с оцениванием социальных и этических последствий применения конкретного теста только затрудняет и затемняет решение.
Один вывод, который напрашивается при рассмотрении этой трудной и важной проблемы, — дополнительное подтверждение главной роли пользователя тестов, о чем уже говорилось в главе 1. Когда требуется переоценка ценностей, особенно в индивидуальных случаях, на пользователей тестов возлагается еще большая ответственность, ибо они могут контролировать последствия тестирования и при выборе подходящих тестов, и при интерпретации результатов. Толерантность к широкому спектру ценностей и социальная чувствительность пользователя могут в значительной мере способствовать правильному использованию тестов, причем не только с научной, но и с этической точки зрения.2 См. также Arkes (1993), где эта проблема освещается более широко. Попутно можно отметить, что новый подход к психологии в целом предполагает построение «дискурсивной психологии», в которой проблемы изучаются как посредством их обсуждения между людьми в повседневной жизни, так и традиционными экспериментальными методами (см., например, Наггё & Stearns, 1995; J. Smith, Harre, & Van Langenhove, 1995).
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|