Главная | Обратная связь | Поможем написать вашу работу!

Оценка надежности в тестировании владения предметом и критические показатели

В главе 3 речь шла о том, что предметно-ориентированные тесты обычно (хотя и не всегда) оценивают выполнение с точки зрения совершенного владения (мастерства, квалификации), а не степени достижения. Статистическим следствием этого является снижение вариативности (изменчивости) показателей тестируемых. Теоретически, если обучение каждого индивидуума продолжать до полного овладения конкретным навыком или умением, вариативность упадет до нуля. В одном из предыдущих разделов этой главы объяснялось, что любая корреляция, и коэффициент надежности в том числе, зависит от диапазона изменчивости результатов в группе, на которой она вычисляется. С уменьшением вариативности выборочных данных падает и величина коэффициента корреляции. Следовательно, было бы неправильно оценивать надежность большинства предметно-ориентированных тестов обычными методами, применяя их к группе лиц уже после того, как они достигли заранее установленного уровня владения знаниями, умениями и навыками. При этих условиях даже тесты с высокой

Более точные оценки можно получить при использовании фактических коэффициентов надежное^ и стандартных отклонений, рассчитываемых в каждой возрастной группе. В этом случае минимальные значимые различия между вербальным и невербальным IQ на 5 %-ном уровне, согласно руковод ству по WIAS - R, колеблются от 8,83 до 12,04. Тем не менее большая их часть близка к 10 единицам

132

Часть 2. Технические и методологические принципы

временной устойчивостью и внутренней согласованностью могли бы дать коэффициент надежности, близкий к нулю.

Это кажущееся препятствие на пути оценивания надежности таких тестов появляется тогда, когда упускают из виду специфическое назначение предметно-ориентированных тестов. Фактически, эти тесты используют, в основном, для различения тех, кто уже приобрел требуемые для определенной деятельности знания, умения и навыки, от тех, кому это пока не удалось сделать. Конкретные цели проведения таких тестов могут широко варьироваться — от выдачи водительских прав или назначения на должность до перехода на следующую ступень в программе индивидуального обучения или зачисления на определенный университетский курс. Тем не менее во всех таких ситуациях сам факт использования теста предполагает ожидание вариативности результатов его выполнения. Значительная доля этой вариативности отражает индивидуальные различия в результатах предшествующего обучения выполнению соответствующих функций.

Специально для оценки надежности предметно-ориентированных тестов было разработано больше дюжины различных методов (Berk, 1984b; Brennan, 1984; Subkoviak, 1984). Некоторые из этих методов подходят для простых решений типа «владеет/не владеет», при которых все ошибки классификации считаются в равной степени серьезными, независимо от того, насколько они отклоняются от критического показателя. В таких условиях можно провести тест и ретест с параллельными формами, чтобы найти процент лиц, для которых одинаковое решение принимается в обоих случаях. Эти данные можно подвергнуть дальнейшему анализу, вычисляя коэффициенты согласия и определяя их уровни значимости. Другие методы учитывают фактические показатели по двум тестированиям, и позволяют получить числовые характеристики, отражающие отклонение каждого индивидуального показателя в ту или иную сторону от любого заданного значения критического показателя. При выборе конкретного метода следует принимать в расчет характер и области применения теста, положение критических показателей и другие психометрические характеристики используемого теста. Соответствующие соображения широко рассмотрены в специальной литературе (см. Berk, 1984a; Feldt, & Brennan, 1989).

5 ВАЛИДНОСТЬ:

ОСНОВНЫЕ ПОНЯТИЯ

Валидность теста — понятие, относящееся к тому, что тест измеряет и насколько хорошо он это делает. Валидность любого теста говорит нам о том, какие выводы можно сделать из полученных по нему показателей. В этой связи следует предостеречь от принятия названия теста за отличительный признак того, что им измеряется. Названия тестов выполняют функцию коротких, удобных опознавательных признаков, и только. По большей части эти названия слишком широки и расплывчаты, чтобы по ним можно было установить, к какой именно области поведения относится тот или иной тест. Правда, в последнее время наметилась тенденция давать тестам более конкретные и эмпирически обоснованные названия. Установить, какое свойство измеряет данный тест, можно лишь на основе изучения объективной информации и эмпирических операций, применявшихся при установления его валидности. Да и сами сведения о валидности теста невозможно представить в общих чертах. Ни о каком тесте нельзя сказать, что он имеет «высокую» или «низкую» валидность вообще. Его валидность должна устанавливаться в отношении того конкретного применения, ради которого он выбирается.

В принципе, все методы определения валидности теста имеют дело с тем, как выполнение теста соотносится с другими независимо наблюдаемыми фактами исследуемых характеристик поведения. Существуют многочисленные методы исследования подобных соотношений, описанные к тому же под различными названиями. Их традиционные названия отражают разные аспекты валидности, равно как и особый интерес к отдельным областям применения тестов. Вместе с развитием тестов и расширением сферы их применения видоизменялись и понятия валидности (Anastasi, 1986a; Mes-sick, 1988,1989).

Предыдущая 11 12 13 14 15 16 171819 20 21 22 23 24 25 26 Следующая

Воспользуйтесь поиском по сайту: