Статистический анализ систеиатичесиой ошибки теста
Проблема. Если мы хотим использовать тесты для прогнозирования результатов в каких-то будущих ситуациях, скажем для предсказания академической успеваемости абитуриента или успешности работы кандидата на определенную должность, нам нужны тесты с высокой прогностической валидностью относительно специфического критерия. Это требование обычно упускают из вида при разработке так называемых культурно-свободных тестов (обсуждаемых далее в главах 9 и 12). Стремясь включить в такие тесты только функции, общие для разных культур или субкультур, мы можем отобрать содержание, которое имеет мало отношения к какому-либо из прогнозируемых критериев. Лучшим решением было бы подобрать релевантное критерию содержание, а затем исследовать возможные популяционные различия в эффективности теста относительно намеченной цели. Коэффициенты валидности, весовые коэффициенты регрессии и критические показатели могут меняться в зависимости от биографических данных тестируемых. Эти величины следует поэтому проверять в подгруппах, для которых есть основание ожидать влияния таких данных. Такого рода возможные различия между подгруппами можно было бы признать особым случаем роли переменных-модераторов, обсуждавшихся в предыдущем разделе. И следует напомнить, что поиск значимых и устойчивых эффектов модераторов дал неутешительные результаты. В данном разделе мы рассмотрим конкретные приложения этого вида анализа к различным группам меньшинств в США. Заметим, однако, что прогностические характеристики тестовых показателей меньше зависят от различий в культурах, если тест внутренне связан с критериальной деятельностью. Если вербальный тест используется для прогноза невербальной профессиональной деятельности, он может случайно оказаться валидным в одной культурной группе вследствие традиционных ассоциаций прошлого опыта работы в такой культуре. Между тем в группе с иными культурными традициями этот тест может полностью потерять свою валидность. С другой стороны, тест, который выборочно проверяет само критериальное поведение или измеряет необходимые для работы навыки, вероятно, будет сохранять свою валидность в различных группах.
Начиная с середины 1960-х гг. происходит быстрое накопление данных исследований, посвященных возможным этническим различиям в прогностическом значении тестовых показателей.1 Подавляющее большинство исследований, проведенных на сегодняшний день, касались афроамериканцев, и лишь в некоторых из них затрагивались другие этнические меньшинства. Изучавшиеся проблемы обычно объединяются под общей рубрикой: систематическая ошибка теста (test bias). В данном контексте термин «систематическая ошибка» употребляется в твердо установившемся статистическом смысле, для обозначения постоянной, или систематической, ошибки в противоположность случайной ошибке. Тот же самый смысл мы вкладываем в выражение смещенная (т. е. необъективная, пристрастная) выборка, противополагая ее случайной выборке. Главные вопросы, поставленные в связи с систематической ошибкой 1 Из псей этой обширной литературы можно упомянуть лишь несколько репрезентативных исследований. В том, что касается общей характеристики данной проблемы и анализа ее многочисленных аспектов, мы рекомендуем следующие работы: N. S. Cole & Moss (1989), Hunter, Schmidt, & Rauschenberger (1977), С. R. Reynolds & Brown (1984). Глава 6. Валидность: измерение и интерпретация 189 теста, имеют отношение к коэффициенту валидности (систематическая ошибка наклона) и к соотношению между групповыми средними по тесту и по критерию (систематическая ошибка интерцепта). Эти вопросы будут рассмотрены в двух следующих разделах.
Систематическая ошибка наклона. Чтобы облегчить понимание технических аспектов систематической ошибки теста, начнем с диаграммы рассеяния, или двумерного распределения (см. главу 4, особенно рис. 4-3). Правда, в данном случае по горизонтальной оси (X) откладываются тестовые показатели, а по вертикальной (У) — критериальные показатели, такие как средняя успеваемость в колледже или индекс производительности труда. Напомним, что «палочки», изображающие положение каждого индивидуума относительно теста и критерия, в своей совокупности показывают направление и общую величину корреляции между этими двумя переменными. Линия наилучшего согласия, проведенная через множество кодировочных «палочек», называется линией регрессии, а ее уравнение — уравнением регрессии. В этом примере уравнение регрессии содержит только один прогнозирующий показатель. Уравнения множественной регрессии, о которых говорилось выше, содержат несколько прогнозирующих показателей, но принцип остается тем же самым. Когда и тестовые, и критериальные показатели выражены в виде стандартных показателей { SD = 1,00), угловой коэффициент (или попросту — «наклон») линии регрессии равен коэффициенту корреляции. По этой причине, когда тест дает значимо различающиеся коэффициенты валидности в двух группах, это различие называют систематической ошибкой наклона. Этот вид групповых различий часто описывают как «дифференциальную валидность». Некоторые исследователи используют также термин «одно-групповая валидность» { single - group validity) по отношению к тесту, коэффициент валидности которого достигает статистической значимости в одной группе, но оказывается незначимым в другой. На рис. 6-5 дается схематическое изображение линий регрессии для нескольких двумерных распределений.1 Эллипсами обозначены области, в границах которых сосредоточены закодированные «палочками» представители каждой выборки. Случай 1 соответствует двумерным распределениям двух групп с различными средними прогнозирующего (тестового) показателя, но с идентичными линиями регрессии между предиктором (тестом) и критерием. В данном случае тест не дает систематической ошибки, так как любой данный тестовый показатель (X) соответствует одинаковому критериальному показателю в обеих группах. Случай 2 иллюстрирует систематическую ошибку наклона, с более низким коэффициентом валидности для группы меньшинства.
В исследованиях дифференциальной валидности общей помехой часто оказывается значительно меньшее количество испытуемых в выборке меньшинства, чем в Показанный на рис. 6-5 тип анализа систематической ошибки получил название «модель Клири», поскольку был применен Клири (Cleary, 1968) в широко цитируемом исследовании показателей Геста академических способностей Совета колледжей у студентов из различных меньшинств. Подходящие математические процедуры разработали Галликсен и Уилкс (Gulliksen & Wilks, 1950), а ламфрис (Humphreys, 1952) предложил применить их для сравнения групп, различающихся по этнической принадлежности и полу. Диаграммы на рис. 6-5 взяты (с некоторыми упрощениями) из Исследования М. Гордона (М. A. Gordon, 1953), проведенного под руководством Хамфриса в воен-Чо-воздушных силах США. 190 Часть 2. Технические и методологические принципы Рис. 6-5. Систематические ошибки наклона и интерцепта при прогнозировании критериальных показателей. Эллипсами выделены области, в которые попадают члены каждой группы при построении диаграммы рассеяния тестовых показателе]! относительно результатов критериальной деятельности. (Случаи 1, 2 и 4 взяты — с некоторыми изменениями — из работы М. A. Gordon, 1953, р. 3) выборке большинства. При этих условиях один и тот же коэффициент валидиости может оказаться статистически значимым в выборке большинства и незначимым в выборке меньшинства (так называемая одно-групповая валидность). При выборке в 100 человек, например, коэффициент корреляции 0,27 значим на уровне 0,01, тогда как при 30 испытуемых тот же коэффициент далек от минимальной величины, необходимой для достижения значимости даже на уровне 0,05. По этой причине в исследованиях дифференциальной валидиости рекомендуется определять не статистическую значимость коэффициентов валидиости раздельно для каждой группы, а оценивать статистическую значимость различий между такими коэффициентами (Humphreys, 1973). В противном случае можно было бы легко «доказать», что тест валиден, скажем, для нас, белых, и не валиден для черных. Все, что для этого потребовалось бы, — это достаточно большая группа белых и относительно небольшая группа черных!
Глава 6. Валидность: измерение и интерпретация 191 Более топкий статистический анализ результатов 19 опубликованных исследований, в которых сообщаются коэффициенты валидности для выборок работающего белого и черного населения США, подвергает серьезному сомнению выводы некоторых более ранних исследований (Schmidt, Berner, & Hunter, 1973). Учитывая найденные величины валидности и объемы выборок в каждом исследовании, удалось наглядно доказать, что различия коэффициентов валидности, обнаруженные между выборками черного и белого населения, не отличаются от случайных. Этот вывод был подтвержден результатами последующего, более широкого анализа, охватывающего 39 исследований (Hunter, Schmidt, & Hunter, 1979). Тема различающейся валидности тестов для претендентов на получение работы из основной группы населения и меньшинств вызывала непрекращающиеся дискуссии на протяжении более десятка лет. Некоторые исследователи отмечали, что полученные здесь результаты, из-за методологических недостатков, просто не позволяли делать каких-то определенных выводов. Примечательно, однако, что в хорошо спланированных, крупномасштабных исследованиях на выборках работников промышленности (J. T. Campbell, Crooks, Ma-honey, & Rock, 1973) и личного состава вооруженных сил (Maier, & Fuchs, 1973) никаких данных в подтверждение дифференциальной валидности получено не было. В общем, чем совершеннее исследование в методологическом отношении, тем менее вероятно обнаружить в нем дифференциальную валидность. Сходные результаты были получены в многочисленных исследованиях черных и белых студентов колледжей (Breland, 1979). Коэффициенты валидности проводимого Советом колледжей Теста академических способностей и других тестов, по результатам которых осуществляется прием в колледж, обычно столь же высоки для черных, как и для белых абитуриентов, а иногда и выше. Это соотношение обнаруживается при анализе выборок черных и белых студентов, обучающихся как в одних колледжах, так и раздельно. Изучая совершенно иной уровень образования, Митчелл (В. С. Mitchell, 1967) исследовал валидность двух тестов готовности к школьному обучению относительно показателей первоклассников по тесту достижений на конец учебного года. В больших выборках протестированных черных и белых детей валидность как общих показателей, так и показателей по субтестам оказалась почти одинаковой для этих двух этнических групп, несмотря на обнаружившуюся тенденцию быть несколько выше у черных детей. Если обобщить сказанное, то исчерпывающие научные обзоры и критический анализ опубликованных исследований не дали оснований для поддержки гипотезы о том, что тесты способностей менее валидны для черных, чем для белых при прогнозировании результатов учебной или профессиональной деятельности (Hunter, Schmidt, & Rauschenberger, 1984; Linn, 1978).
Хотя сопоставимых исследований, проведенных с другими меньшинствами, значительно меньше, сходные результаты были получены для испаноязычных американцев применительно как к образовательному тестированию, так и к тестированию при приеме па работу (Breland, 1979; Duran, 1983, 1989; Pennock-Roman, 1990; Schmidt, Pearlman, & Hunter, 1980). Однако в отношении испаноязычных американцев интерпретация тестовых показателей осложняется варьированием степени двуязычия и влиянием социокультурных (связанных с исторической родиной) переменных; и то и Другое сказывается не только на выполнении тестов, но и на академических и профессиональных достижениях. При этих условиях вряд ли можно надеяться, что все это не Повлияет на прогностическую валидность. В четко спланированном обзоре опублико-Ванных исследований использования тестов при приеме в колледж, Дюран (Duran, 192 Часть 2. Технические и методологические принципы 1983) отметил, что изменение тестов не дает перспективного решения этих проблем среди испаноязычных студентов; скорее здесь нужны прямые исследования и решения. Тем не менее тестовые показатели следует интерпретировать с учетом всей информации о биографических переменных, действующих как модераторы в индивидуальных случаях. Более того, любые обобщения в отношении испаноязычных американцев должны принимать в расчет возможные различия между подгруппами: пуэрториканцами, мексиканцами и т. д. Систематическая ошибка интерцепта. Даже когда тест дает одинаковые коэффициенты валидности для двух групп, он может тем не менее обнаружить систематическую ошибку интерцепта. Интерцепт — это отрезок, отсекаемый линией регрессии на координатной оси. Тест показывает систематическую ошибку интерцепта, если систематически занижает или завышает предсказуемое выполнение критерия для конкретной группы. Вернемся к случаю 1 на рис. 6-5, в котором выборки меньшинства и большинства показывают идентичные регрессии. В этих условиях нет ни ошибки наклона, ни ошибки интерцепта. Когда группы значимо различаются по средним показателям теста, они обнаруживают соответствующие различия и в выполнении критериальной деятельности. В случае 3 линии регрессии двух групп имеют один и тот же наклон, но разные интерцепты. Здесь у группы меньшинства (А) более высокий интерцепт, чем у группы большинства (В), т. е. линия регрессии меньшинства пересекает ось У выше, чем линия регрессии большинства. Несмотря на то что коэффициенты валидности, вычисленные в каждой группе, равны, любой тестовый показатель (X) будет соответствовать в этих двух группах различным критериальным показателям, что показано на рисунке точками Y и YB. Таким образом, один и тот же тестовый показатель имеет разное прогнозирующее значение для этих групп. Психологи, которых беспокоит возможная несправедливость тестов по отношению к представителям разных меньшинств, как раз и имеют в виду ситуацию, представленную случаем 3. Заметим, что в этом случае большинство превосходит группы меньшинств по результатам тестирования, но и большинство, и меньшинства одинаково хорошо выполняют критериальную деятельность. Тем самым отбор всех претендентов на основе критического тестового показателя, установленного для группы большинства, несправедливо дискриминировал бы меньшинство. При этих условиях применение регрессии, построенной по данным большинства, к обеим группам приводит к недооценке предсказываемого выполнения критерия представителями группы меньшинства. Подобная ситуация, по-видимому, может возникнуть, когда значительная часть дисперсии показателей теста не имеет отношения к прогнозируемому критерию и характеризует функции, в которых большинство превосходит данное меньшинство. Полный анализ выполняемой работы и удовлетворительная валидность тестов служат мерами, предохраняющими от выбора такого теста. Проблема систематической ошибки интерцепта имеет самое непосредственное отношение к тому, что в народе называют «честностью теста» (testfairness). Хотя выражения «честность теста» и «необъективность теста» (в смысле систематической ошибки) употребляются как равнозначные и настолько широкие, что охватывают все аспекты тестирования культурных меньшинств, уже стало привычным отождествлять честность (или нечестность) теста с систематической ошибкой интерцепта. Такого употребления придерживались авторы «Единых нормативов по методам отбора наемных работников» (Uniform Guidelines on Employee Selection Procedures, 1978). В разделе «Честность» (14 В) основное положение сформулировано следующим образом: Глава 6. Валчдность: измерение и интерпретация В тех случаях, когда для представителей одной расовой, половой или этнической группы типично получать в ходе отбора более низкие показатели по сравнению с представителями другой группы, и эти различия в показателях не отражаются на различиях в мере выполнения работы, использование данной процедуры отбора может несправедливо лишать возможностей членов группы, получающей относительно низкие показатели. Однако эмпирические исследования существующей практики использования тестов либо свидетельствовали об отсутствии значимой систематической ошибки ин-терцепта, либо чаще выявляли слабую тенденцию противоположного направления, представленную случаем 4 на рис. 6-5. Здесь у группы большинства (В) более высокий интерцепт, чем у группы меньшинства (А). При этих условиях применение регрессии и критического показателя, построенным по данным большинства, к обеим группам ведет к переоценке предсказываемого выполнения критериальной деятельности членами группы меньшинства и тем самым к несправедливой дискриминации группы большинства. Такие результаты были получены в исследованиях предсказания успеваемости в колледже (Breland, 1979; Duran, 1983; Zeidner, 1987) и юридической школе (Linn, 1975), успешности освоения программ подготовки специалистов в сухопутных и военно-воздушных силах (М. A. Gordon, 1953; Maier, & Fuchs, 1973; С. W. Shore, & Marion, 1972), а также широкого множества производственных критериев (см. обзор в Hunter etal., 1984). Как было доказано математически, случай 4 (рис. 6-5) имеет место, если две группы различаются по одной или нескольким дополнительным переменным (additional variables), которые положительно коррелирует как с тестом, так и с критерием (Linn, & Werts, 1971; Reilly, 1973). Несколько завышенный прогноз является статистическим артефактом учета только одного предиктора зараз. С добавлением предикторов к тестовой батарее это завышение уменьшается, — факт, который получил эмпирическое подтверждение в различных совокупностях, от студентов-юристов и конторских служащих до питомцев детских садов (см. Hunter et al., 1984). Интересно отметить, что те же результаты были получены при сравнении групп, различавшихся по образовательному или социоэкономическому уровню. Армейская классификационная батарея завышала прогнозируемое выполнение программы обучения военной специальности для тех, кто был отчислен из старших классов школы, и занижала его для выпускников колледжей (Maier, 1972). Аналогично этому, заниженный прогноз успеваемости по результатам тестов академических способностей имел место для студентов, у которых профессиональное положение отцов было достаточно высоко, и завышенный прогноз — для студентов, чьи отцы занимали более низкое профессиональное положение (Hewer, 1965). Во всех этих исследованиях сравнение групп с высокими и низкими тестовыми показателями либо вообще не обнаруживало значимого различия в интерцепте, либо выявляло небольшую систематическую ошибку в пользу группы с более низкими показателями по тестам. Модели принятия решений для честного использования тестов. Постепенно фокус исследований начал перемещаться от оценивания систематической ошибки тестов к Разработке стратегий отбора для честного использования тестов в работе с культурными меньшинствами. Если стратегия отбора строится исходя из регрессионной модели (см. модель Клири), иллюстрация которой дана на рис. 6-5, людей будут выбирать (при приеме в колледж, на работу и т. д.) исключительно на основе их прогнозируе- 194 Часть 2. Технические и методологические принципы мых показателей критериальной деятельности. Такая стратегия будет максимизировать общий результат критериальной деятельности, безотносительно к другим целям процесса отбора. Согласно этой стратегии, честным использованием тестов при отборе будет их использование, опирающееся только на наилучшую оценку выполнения критерия для каждого конкретного человека. Предлагали и другие модели принятия решения, имевшие своей целью отбор большей доли лиц из группы с низкими тестовыми показателями. Эта цель соответствует задаче, которую обычно определяют в таких терминах, как «позитивные действия»1 или ослабление «неблагоприятного воздействия» процесса отбора. Во время внедрения этих альтернативных моделей казалось, что они руководствуются методами, совершенно отличными от тех, которые предполагает регрессионная модель.2 Однако позднее было показано, что все эти модели можно выразить в виде вариантов одной общей модели (Darlington, 1971; Gross, & Su, 1975; Petersen, & Novick,1976). Различия между ними допускают объяснение исходя из ценностных суждений, имплицитно содержащихся в каждой модели. Роль ценностей в стратегиях принятия решений уже обсуждалась в этой главе (см. рис. 6-2). Напомним, что приписывание относительной полезности результату каждого решения требует оценки степени благоприятности или неблагоприятности такого результата. Эти субъективные оценки, вместе с вероятностью каждого результата, используют при вычислении общей ожидаемой полезности (EU) стратегии. Основанный на теории принятия решений анализ честного использования тестов показал, что предложенные модели различаются своим определением честности, — в той мере, в какой они имплицитно придают различную ценность принятию и отвергайте потенциальных успехов и неудач внутри совокупностей меньшинств и большинства. Модели ожидаемой полезности выражают основные социальные ценности в явном виде. Этот подход обязывает открыто формулировать оценки полезностей, которые невозможно получить статистическими методами, ибо они предполагают широкое обсуждение и последовательное приближение к балансу конфликтующих целей (N. S. Cole, & Moss, 1989; Darlington, 1976; Messick, 1989). К числу таких целей относятся обеспечение равенства возможностей для всех людей, максимизация успеха и продуктивности, увеличение демографического разнообразия рабочей силы (по крайней мере, для некоторых профессий) и расширение преференциального режима для групп, поставленных в невыгодное положение несправедливыми действиями в прошлом. Наконец, следует особо подчеркнуть, что статистические корректировки тестовых баллов, критических показателей и формул предсказания вряд ли можно рассматривать как перспективные средства исправления последствий социальной несправедливости. Использование статистических манипуляций, маскирующих различия пока- ' В Америке политическая программа, направленная на ликвидацию расовой дискриминации. — Примеч. пауч. ред. 2 Литература по разнообразным моделям принятия решений для честного использования тестов весьма обширна и в большинстве своем посвящена техническим вопросам. Что касается краткого изложения характерных особенностей и последствий применения разных моделей, см. Bond (1981), Dunnet-te & Borman (1979, pp. 497-500), Gross & Su (1975, p. 350-351), C. R. Reynolds (1982). Более полные пояснения можно найти в Hunter & Schmidt (1976) и Hunter et al. (1977). Глава б. Б^лидность: измерение и интерпретация 195 зателей путем установления отдельных норм для подгрупп или рас1, по всей видимости, все же наносит вред конкретным людям вследствие распределения их по рабочим местам или образовательным программам, для которых они не подходят из-за отсутствия необходимых навыков или знаний. Результатом часто становится плохая работа или учеба, что не только сказывается на Я-концепции человека и его отношении к делу, но может способствовать поддержанию социального стереотипа в отношении представителей некоторой культурной или этнической группы как плохих работников, нерадивых студентов и т. п. Более конструктивные решения предлагаются в рамках других подходов, уже обсуждавшихся в этой главе. Один из них показан на примере тестирования комплекса способностей и стратегий распределения, позволяющих максимально использовать многообразные паттерны способностей, сформировавшиеся под влиянием разных культурных истоков. Более широкое рассмотрение релевантных черт личности, мотивации и аттитюдов также облегчает прогнозирование трудовых или учебных достижений. Еще один подход основан на применении адаптивных программ типа индивидуализированного обучения. Чтобы такие программы максимально соответствовали индивидуальным особенностям, тесты должны как можно полнее и точнее определять наличный уровень развития необходимых способностей у каждого их участника. Общие, комплексные модели принятия решений создают условия для объединения разных подходов и систем ценностей и для оценивания результирующей эффективности каждого решения. ' см., например, D. С. Brown (1994), L. S. Gottfredson (1994), Sackett & Wilk (1994). АНАЛИЗ ЗАДАНИЙ Знакомство с основными понятиями и методами анализа заданий, равно как и с другими аспектами конструирования тестов, может помочь пользователям в оценке выпускаемых тестов. Кроме того, анализ заданий особенно важен при составлении неформальных, локальных тестов, наподобие вариантов опросов или контрольных работ, которые учитель готовит для использования в своем классе. Знание ряда общих принципов и правил составления эффективных заданий, вместе с овладением наиболее простыми статистическими методами их анализа, может существенно повысить качество таких классных тестов и сделать их пригодными для применения даже в небольших группах. В заданиях может анализироваться как их качественная сторона, т. е. их содержание и форма, так и количественная, т. е. их статистические свойства. Качественный анализ включает рассмотрение содержательной валидности (обсуждавшейся в главе 5) и оценивание заданий с точки зрения эффективных методов их составления. Количественный анализ предполагает главным образом измерение трудности и различительной способности заданий. Валидность и надежность любого теста в конечном счете зависят от характеристик входящих в него заданий. Высокую валидность и надежность можно заложить в тест заранее, на этапе анализа заданий. Тест можно значительно улучшить, удаляя, добавляя, заменяя или пересматривая отдельные задания. Анализ заданий позволяет сократить тест и в то же время повысить его валидность и надежность. При прочих равных условиях более длинный тест валиднее и надежнее короткого. Влияние увеличения или сокращения теста на коэффициент надежности обсуждалось в главе 4, где также была приведена формула Спирмена—Брауна для оценивания этого влияния. Эти предполагаемые (оцениваемые с помощью формулы Спирмена—Брауна) изменения надежности теста происходят в тех случаях, когда изымаемые задания равноценны оставшимся или когда добавляемые задания равноценны уже имеющимся в его составе. Аналогичные изменения валидности теста возникают в результате удаления или добавления заданий равноценной валидности. Все такие оценки изменения надежности или валидности относятся к увеличению или сокращению теста путем случайною отбора заданий, проводимого без их анализа. Когда же сокращение теста идет за счет исключения наименее удовлетворительных заданий, короткий тест может оказаться более валидным и надежным, чем его первоначальная полная версия. Глава 7. Анализ заданий 197 Трудность заданий Процент справившихся с заданием. Для большинства целей тестирования трудность задания определяется в единицах процента (или доли) лиц, давших на него правильный ответ. Чем легче задание, тем выше этот процент. Слово, значение которого правильно указало 70 % выборки стандартизации (р = 0,70), считается более легким, чем слово, которое знают только 15 % (р = 0,15). Обычно задания располагаются в порядке нарастания трудности, так, чтобы тестируемый начинал с относительно легких заданий и затем переходил ко все более сложным. Такое расположение дает тестируемому больше уверенности в своих силах и снижает вероятность того, что он, затратив много времени на задания, которые для него слишком трудны, пропустит те, которые ему по силам. В процессе конструирования теста основным оправданием измерения трудности заданий служит требование подбора заданий подходящего уровня сложности. Большинство стандартизованных тестов способностей создается с расчетом на получение для каждого тестируемого как можно более точной оценки его уровня достижений в области конкретной способности. Согласно такой цели, если ни один тестируемый не справляется с предложенным заданием, то оно оказывается просто лишним грузом в данном тесте. То же можно сказать и о заданиях, с которыми справляются все. Ни те ни другие не дают никакой информации об индивидуальных различиях. А поскольку такие задания не влияют на изменчивость тестовых показателей, они не вносят никакого вклада в надежность или валидность теста. Чем ближе трудность задания к 1,00 или к 0, тем менее дифференцированную информацию о тестируемых можно получить с его помощью. И наоборот, чем ближе уровень трудности задания к 0,50, тем больше разграничений можно сделать с его помощью. Предположим, что из 100 тестируемых 50 справились и 50 не справились с заданием (р = 0,50). Это задание позволяет нам провести попарное различие между каждым, кто справился и кто не справился с ним, что дает 50 х 50 = 2500 парных сравнений, или двоичных единиц (битов) различительной информации. Задание, с которым справляется 70 % тестируемых, дает 70 х х 30 = 2100 битов информации; когда с заданием справляется 90 % тестируемых, оно дает 90 х 10 = 900 битов информации; когда же с ним справляются все 100 %, оно дает 100 х 0 = 0 битов информации, т. е. абсолютно неинформативно. Те же соотношения остаются в силе и для более трудных заданий, с которыми справляется менее 50 % тестируемых. Тогда, в целях максимизации различительной способности теста, казалось бы, следует подбирать все его задания на уровне трудности 0,50. Решение, однако, осложняется тем обстоятельством, что в рамках одного теста задания имеют тенденцию коррелировать друг с другом. Чем однороднее тест, тем выше эти корреляции. В предельном случае, если бы все задания имели уровень трудности 0,50 и полностью коррелировали между собой, с каждым заданием в итоге справились бы одни и те же 50 человек из 100. Следовательно, половина тестируемых получила бы высший показатель, а другая Половина — нулевой. По причине корреляции заданий между собой, их лучше всего °тбирать таким образом, чтобы уровень трудности отдельных заданий имел некоторый умеренный разброс, но в среднем составлял 0,50. Кроме того, чем выше взаимо-КоРреляции заданий (или корреляции заданий с суммарным показателем), тем шире Должен быть их разброс по уровню трудности. 198 Часть 2. Технические и методологические принципы Еще одно соображение, принимаемое в расчет при выборе подходящего уровня трудности заданий, касается вероятности угадывания ответа в заданиях с множественным выбором. Чтобы учесть возможность выбора определенной частью тестируемых правильного ответа путем угадывания, требуемая доля правильных ответов устанавливается выше той, которую можно было бы ожидать в случае задания со свободным ответом. Например, для задания с выбором из 5 вариантов средняя доля правильных ответов должна составлять примерно 0,69 (Lord, 1952). Интервальные шкалы. Процент лиц, справившихся с заданием, выражает его трудность в единицах порядковой шкалы, т. е. правильно указывает ранговый порядок, или относительную трудность заданий. Если, к примеру, с заданиями 1,2 и 3 справляется соответственно 30 %, 20 % и 10 % тестируемых, то мы можем заключить, что задание 1 — самое легкое, а задание 3 — самое трудное из этих трех. Но мы не можем утверждать, что различие в трудности между заданиями 1 и 2 то же, что и между заданиями 2 и 3. Равные разности процентов соответствовали бы равным различиям в трудности заданий только при прямоугольном распределении, в котором случаи равномерно распределены по всему диапазону. Эта проблема аналогична той, с которой мы встретились в связи с процентильными показателями, также основанными на процентах случаев. Напомним из главы 3, что процентильные показатели не представляют собой равных единиц и меняются по величине при переходе от центра к краям распределения (рис. 3-4). Если исходить из нормального распределения свойства, измеряемого любым данным заданием, то уровень трудности задания можно выразить в единицах шкалы равных интервалов, пользуясь таблицей значений плотности нормального распределения. В главе 3 мы видели, например, что при нормальном распределении примерно 34 % случаев попадает в интервал между средним и величиной, равной +1ст или -1о (рис. 3-3). С учетом этой информации рассмотрим рис. 7-1, показывающий уровень трудности задания, с которым справились 84 % тестируемых. Поскольку правой («верхней») части распределения соответствуют лица, справившиеся с заданием, а левой («нижней») — не справившиеся с ним, эти 84 % включают в себя всю правую половину (50 %) и часть (34 %) левой половины (50 + 34 = 84). Следовательно, это задание Рис. 7-1. Соотношение между процентом справившихся с заданием и его сложностью, выраженной в единицах нормального распределения Глава 7. Анализ заданий У9 (по уровню трудности) находится на 1а ниже среднего, как и показано на рис. 7-1. Задание, выполненное только 16 % тестируемых, находилось бы на 1а выше среднего по своей сложности, так как в область справа от этой точки попадает 16 % случаев (50 — 34 = 16). Задание, с которым справились точно 50 % тестируемых, находилось бы в точке, соответствующей среднему нормального распределения, и получило бы нулевое значение по этой шкале. Таким образом, задания выше среднего уровня сложности оцениваются положительными величинами, а задания ниже среднего уровня сложности — отрицательными величинами. Стандартную оценку трудности, соответствующую любому проценту справившихся с заданием лиц, можно найти по таблице значений плотности нормального распределения, имеющейся в любом типовом учебнике по статистике. Абсолютное шкалирование по Тёрстоуну. Индексы трудности задания, выраженные в процентах или единицах нормальной кривой (т. е. в единицах стандартного отклонения), ограничены диапазоном проявления изучаемой способности в выборке, на которой они вычислялись. Для некоторых целей тестирования, однако, нужна мера трудности заданий, пригодная для разных выборок, варьирующих по уровню способности. Например, в образовательных тестах достижений бесспорным преимуществом была бы возможность сравнивать в единой шкале показатель ребенка при переходе из класса в класс на протяжении какого-то периода обучения. При всем этом явно нереальной задачей было бы пытаться шкалировать входящие в них задания, предназначенные для всех классов, путем предъявления этих заданий какой-то одной группе, поскольку одни из них оказались бы слишком трудными, а другие — слишком легкими почти для каждого члена такой группы. Другим примером могут служить крупномасштабные программы тестирования, требующие множества эквивалентных форм для разновременного проведения теста, такие как программы приема в высшие учебные заведения. Эта проблема рассматривалась в главе 3 постольку, поскольку она затрагивает интерпретацию совокупных показателей, получаемых с помощью таких инструментов, как Тест академической оценки (Scholastic Assessment Test). Предложенное решение проблемы состояло в том, чтобы использовать фиксированную эталонную группу для определения нулевой точки и единиц шкалы, а затем все последующие показатели переводить в такую шкалу. Это преобразование требует набора анкерных, или связующих заданий, которые включаются в состав тестов, проводимых в любой паре групп. Такие задания составляют минитест в том смысле, что они являются репрезентативным — по форме и содержанию — отображением полного теста. Для разных пар групп могут использоваться свои, отличные от других, наборы связующих заданий. Каждая новая форма теста связывается с одной или двумя более ранними его формами, а те, в свою очередь, с другими формами посредством цепи таких минитестов, тянущейся назад вплоть до исходной эталонной группы. Тем же общим методом можно воспользоваться для измерения трудности отдельных заданий в единой шкале, применимой к любому числу взаимосвязанны
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|