Методы описания содержания
Сущность. Методы установления валидности через описание содержания, по существу, заключаются в систематической проверке содержания теста на соответствие репрезентативной выборке измеряемой области поведения. Такая процедура валиди-зации обычно применяется к тестам, предназначенным для измерения того, насколько человек овладел конкретными навыками или учебным предметом. Может создаться впечатление, что для установления валидности любого такого теста достаточно было бы простого просмотра его содержания. Например, тест на умножение, правописание или бухгалтерские навыки, казалось бы, должен быть валидным по определению, если состоит из заданий на умножение, правописание или ведение бухгалтерских операций соответственно. Решение, однако, не столь просто, как это может показаться. Сразу же возникает проблема формирования выборки заданий, адекватно отражающих всю оцениваемую предметную область. Поэтому тестируемая область поведения сначала должна быть подвергнута систематическому анализу, с тем чтобы существовала уверенность в полном и пропорциональном охвате ее главных аспектов заданиями теста. Например, тест можно легко перегрузить теми аспектами исследуемой области, по которым проще составить объективные задания. Поэтому рассматриваемую предметную область следует описывать заранее, и как можно полнее, а не определять после того, как тест уже составлен. Правильно построенные образовательные тесты должны охватывать цели обучения, а не только его конкретные темы. Содержание, следовательно, необходимо определять достаточно широко, включая в него помимо знания фактической: материала такие важнейшие цели обучения, как применение изученных правил v объяснение фактов. Кроме того, валидность больше зависит от релевантности тестовых ответов индивидуума рассматриваемой сфере поведения, чем от очевидной ре левантности содержания тестовых заданий. Простая проверка содержания теста мо жет и не выявить те процессы, которые действительно обеспечивают выполнение тес та испытуемыми.
Важно также избежать неоправданных обобщений в отношении области поведе ния, выборочно проверяемой тестом. Если, например, орфографический тест с мно жественным выбором ответов измеряет способность распознавать правильно и непра вильно написанные слова, то из этого не следует, что он также измеряет способност правильно написать диктант, частоту орфографических ошибок в сочинении и други аспекты умения писать без орфографических ошибок (Ahlstrom, 1964; Knoell, & Наг ris, 1952). Еще одна трудность возникает в связи с возможным влиянием посторонни факторов на показатели теста. Например, на результаты экзаменационного теста п математике или механике может чрезмерно повлиять способность понимать словес ные инструкции или скорость выполнения простых, стандартных задач. Конкретные методы. Содержательная валидность теста обеспечивается с самог начала благодаря отбору соответствующих заданий. Что касается образовательны тестов, подготовке их заданий предшествует полный систематический просмотр ее ответствующих учебников и учебных программ, а также консультации со специал! стами по данному предмету. На основе собранной таким путем информации составлг 136 Часть 2. Технические и методологические принципы ется спецификация теста (test specif ications)1 для составителей заданий. В ней указывается охватываемые тестом области содержания или темы, проверяемые учебные цели-задачи или способы действия, а также относительное значение отдельных тем и способов. В заключение должно быть указано требуемое число заданий каждого типа по каждой теме. Например, тест для оценки умения читать может включать понимание лексики в контексте, дословное понимание содержания и умение делать правильные выводы из приведенной информации. Кроме того, он может предполагать выборочную проверку материала из разных источников, таких как рассказы, стихи, газетные статьи или инструкции по эксплуатации оборудования. Тест по математике может охватывать вычислительные навыки, решение словесно сформулированных задач и применение усвоенных способов решения в новых и непривычных условиях.
Данные о содержательной валидности, приводимые в руководстве к тесту учебных достижений, должны сопровождаться описанием тех методов, которыми обеспечивались целесообразный отбор и репрезентативность содержания теста проверяемой предметной области. Если в процессе конструирования теста принимали участие специалисты по данному предмету, следует указать их количество и профессиональную квалификацию. Если они выступали в роли экспертов при классификации заданий, необходимо привести дававшиеся им указания и коэффициент согласованности их мнений. Поскольку программы и содержание курсов со временем меняются, особенно желательно указать дату обращения к экспертам. Следует также сообщить число и характер проанализированных при подготовке теста программ и учебников, с указанием года издания. Содержательная валидизация тестов учебных достижений обычно дополняется рядом эмпирических методов. И суммарный показатель, и выполнение отдельных заданий можно скорректировать относительно шкалы успеваемости. В общем, сохраняются те задания теста, которые показывают наибольший прирост процента учащихся, переходящих с более низких на более высокие уровни успеваемости. Другие дополнительные методы, когда они уместны, включают анализ типичных ошибок при выполнении учащимися теста и наблюдение за способами их работы. В последнем случае тестирование ведется в индивидуальном порядке, причем ученика просят при решении каждой задачи «рассуждать вслух». Существенность скоростного фактора может контролироваться по количеству тестируемых, не успевающих закончить тест, или с помощью одного из более тонких методов, обсуждавшихся в главе 4. Чтобы обнаружить возможное нежелательное влияние способности понять инструкцию на выполнение теста, можно вычислить коэффициент корреляции между показателями по данному тесту и показателями теста на понимание прочитанного. С другой стороны, если тест предназначен для оценки понимания текста, вопросы, относящиеся к содержанию еще не прочитанного отрывка, покажут, насколько испытуемый в состоянии на них ответить, исходя лишь из имеющихся у него предварительных знаний или пользуясь другими нерелевантными источниками информации (Scherich, & Наппа, 1977).
Области применения методов содержательной валидизации. Содержательная валидизация, особенно если она подкреплена такими эмпирическими проверками, как обсуждавшиеся выше, служит адекватным средством оценивания тестов достижений. Она позволяет ответить на два основных вопроса, касающихся валидности тес- ' Иначе говоря, техническое задание на разработку теста. — Примеч. науч. ред. Глава 5. Валидность: основные понятия 1Л/ тов учебных и профессиональных достижений: 1) охватывает ли тест репрезентативную выборку конкретных навыков и знаний и 2) свободно ли выполнение теста от влияния посторонних факторов? Валидизация по содержанию особенно подходит для предметно-ориентированных тестов, описанных в главе 3. Поскольку выполнение таких тестов интерпретируется с точки зрения содержания предметной области или деятельности, совершенно очевидно, что содержательная валидизация является первейшим условием их эффективного использования. Однако и данные о других типах валидности не будут лишними, если мы хотим получить полную оценку эффективности таких тестов (см. Hambleton, 1984b). Содержательная валидизация применима и к некоторым тестам, предназначенным для отбора и распределения профессиональных кадров, рассматриваемым в главе 17. Этот тип валидизации подходит в тех случаях, когда тест представляет собой выборочную проверку реальных рабочих операций или как-то иначе требует применения таких профессиональных навыков и знаний. В подобных случаях для доказательства близкого сходства между профессиональной деятельностью и тестом должен проводиться полный анализ содержания работы. Ясное, последовательное изложение применения этих методов валидизации в ходе разработки теста чтения для промышленности дано в одной из классических статей в этой области исследований (Schoenfeldt, Schoenfeldt, Acker, & Perlson, 1976). Работая в тесном контакте с занимающими разные должности лицами и их непосредственными начальниками, исследователи подробно изучили требования к чтению на нижних ступеньках служебной лестницы крупной промышленной компании с точки зрения содержания и уровня понимания. И только затем составлялись задания теста, которые полностью отвечали этим требованиям. Такой подход широко используется при разработке тестов для отбора государственных служащих как на федеральном уровне, так и на уровне штата (Hardt Eyde, Primoff, & Tordy, 1981; Menne, McCarthy, & Menne, 1976; Primoff, & Eyde, 1988 Tordy, Eyde, Primoff, & Hardt, 1976).
С другой стороны, для тестов способностей и личности содержательная валидизация обычно не подходит и может даже уводить в сторону от правильного пути. Хот* рассмотрение релевантности и репрезентативности содержания должно быть состав ной частью начальных этапов конструирования любого теста, окончательная валиди зация тестов способностей и личности требует эмпирической верификации с помо щью методов, описанных в последующих разделах. Эти тесты не имеют того внутрен него сходства с выборочно оцениваемыми ими областями поведения, какое присущ" тестам достижений. Следовательно, анализ их содержания может разве что выявит] гипотезы, приведшие составителя к выбору определенного типа содержания для из мерения заданного свойства. Такие гипотезы нужно еще эмпирически подтвердить чтобы установить валидность оцениваемого теста. В отличие от тестов достижений тесты способностей и личности не опираются н; конкретный курс обучения или на общность предшествующего жизненного опыте исходя из которых отбирается содержание теста достижений. Отсюда, способы вы полнения разными людьми одних и тех же заданий в тестах способностей и личностр равно как и используемые ими при этом психологические процессы, могут существен но отличаться друг от друга. Таким образом, вполне возможно, что тот же самый тес У разных людей будет измерять различные функции, а это значит, что проверко содержания теста фактически невозможно установить, какие психологические фуь кции им измеряются. Так, выпускники колледжа могут решить некоторую задач?
138 Часть 2. Технические и методологические принципы используя словесные формулировки или математические формулы, тогда как механик, возможно, придет к тому же решению путем пространственной визуализации. Или, например, тест, измеряющий способность к арифметическим рассуждениям у тех, кто только что перешел в среднюю школу, при предъявлении его студентам колледжа скорее всего выявит лишь индивидуальные различия в скорости вычислений. Очевидная валидность. Содержательную валидность не следует смешивать с очевидной валидностью (face validity). Последняя, собственно, и не является валидно-стью в терминологическом смысле, ибо относится не к тому, что тест на самом деле измеряет, а к тому, что он при первом рассмотрении якобы измеряет. Очевидная валидность имеет отношение к тому, насколько тест «выглядит обоснованным» (т. е. валидным) для тех, кто его проходит, для тех, кто принимает ответственное решение о его использовании, да и вообще для всех неспециалистов. По существу, вопрос очевидной валидности касается «раппорта» и «паблик рилейшнз», т. е. налаживания взаимоотношений с тестируемыми и с общественностью. Хотя обычное употребление термина «валидность» в данной связи может вводить в заблуждение, сама по себе очевидная валидность — желательное свойство тестов. Например, когда тесты, первоначально предназначавшиеся для детей и разрабатывавшиеся применительно к школьной обстановке, вследствие их расширения впервые проводили на взрослых, те часто относились к таким тестам враждебно и критично именно из-за отсутствия очевидной валидности. В самом деле, если содержание теста представляется странным, неуместным, глупым или детским, результатом будет ухудшение сотрудничества, независимо от фактической валидности теста. Одной только объективной валидности теста явно недостаточно, особенно при тестировании взрослых. Очевидная валидность нужна тестам и для того, чтобы они эффективно функционировали в практических ситуациях. Она также влияет на степень приемлемости теста при вынесении законодательных и судебных решений, равно как и на оценку тестов широкой общественностью. В новаторскую систематическую программу исследования тестирования как оно видится тестируемому (упоминавшуюся в главе 1) Барух Нево и его коллеги включили и изучение очевидной валидности (В. Nevo, 1985, 1992; В. Nevo, & Sfez, 1985). Сначала они привлекли внимание ученых к малому количеству исследований очевидной валидности, несмотря на ее возможный вклад в господствующее отношение к тестам. Затем они предложили количественную оценку очевидной валидности на основе оценок пригодности теста для его подразумеваемого применения, полученных от проходящих тестирование и других заинтересованных (но неискушенных в психометрике) лиц. Разработанные ими методы можно также использовать при оценивании отдельных заданий теста или, напротив, полных тестовых батарей. Опубликованные этими исследователями иллюстративные данные основывались на анализе ответов на Опросник обратной связи с экзаменуемым (Examinee Feedback Questionnaire), заполненный 1385 израильскими студентами, сдававшими вступительные экзамены в университет в форме шести письменных тестов. Результаты показали многообещающую согласованность ответов экзаменуемых, хорошую ретестовую надежность и дифференциацию тестов и подгрупп респондентов, планирующих специализацию в разных областях. Было рекомендовано регулярно сообщать в руководствах к тестам качественные и количественные данные, касающиеся очевидной валидности. Глава 5. Валидиость: основные понятия 13» Очевидную валидность часто удается повысить простой переформулировкой заданий теста так, чтобы они выглядели уместными и правдоподобными в той конкретной обстановке, где предполагается использовать тест. Например, если тест, состоящий из простых арифметических задач, предназначен для квалифицированных рабочих механического цеха, то в условиях задач должны фигурировать машины или станки, а не количество апельсинов, которое можно купить на 86 центов, или иные предметы и персонажи из школьного задачника. Точно так же задания арифметического теста для военно-морского персонала можно сформулировать в морских терминах, не внося никакого изменения в измеряемые функции. Разумеется, очевидную валидность ни в коем случае нельзя считать заменой объективно устанавливаемой валидности. Нельзя рассчитывать на то, что улучшение очевидной валидности теста повысит его объективную валидность. Вместе с тем неправильно думать, что видоизменение теста, повышающее его очевидную валидность, никак не сказывается на его объективной валидности. Поэтому валидность теста в его окончательной форме всегда необходимо проверить заново, причем прямыми методами.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|