Интерпретация предметно-ориентированных тестов
Природа и направления использования. Подход к тестированию, вызвавший волну активности, особенно в сфере образования, вначале был назван «критериально-ориентированным тестированием» { criterion - referenced testing). Этот термин, впервые предложенный Р. Гласером (R. Glaser, 1963), употребляется до сих пор, причем Достаточно вольно, и различные авторы определяют его по-разному. Кроме того, появился ряд альтернативных терминов: содержательно- (content -), предметно- (domain -) и задачно- (objective -) ориентированное тестирование. Они иногда употребляются как синонимы термина «критериально-ориентированное тестирование», а иногда с Целью подчеркнуть несколько иные смысловые акценты. Постепенно первоначальное название «критериально-ориентированное тестирование» было вытеснено из обращения более точными описательными терминами. В этой книге предпочтение отдано одному из таких терминов — «предметно-ориентированное тестирование» (domainal erenced testing), который и будет употребляться впредь. 94 Часть 2. Технические и методологические принципы Для предметно-ориентированного тестирования типично использовать в качестве интерпретационной системы отсчета не заранее оговоренную совокупность людей, а строго определенную содержательную область. В этом отношении оно с самого начала противопоставлялось обычному, ориентированному на нормы тестированию, в котором показатель каждого конкретного человека интерпретируется посредством сравнения с показателями, полученными другими людьми по тому же тесту. При предметно-ориентированном тестировании, например, выполнение теста испытуемым описывается в единицах освоенных арифметических операций, объема словаря, уровня трудности доступного пониманию текста (от комиксов до литературной классики) или вероятности достижения определенного уровня выполнения деятельности в соответствии с внешним (профессиональным или образовательным) критерием.
До сих пор предметно-ориентированное тестирование находило применение главным образом в некоторых педагогических новшествах, и прежде всего, в программированном обучении, компьютеризованной профессиональной подготовке и других обучающих системах с выбором индивидуального темпа обучения. Во всех таких системах тестирование тесно интегрировано с обучением и проводится до, во время и после выполнения каждого учебного задания для проверки необходимых для обучения умений, выявления возможных трудностей усвоения материала и выбора последующих обучающих процедур (Nitko, 1989). В другом ракурсе предметно-ориентированные тесты использовались в широких инспекторских проверках качества образования, таких как Национальная программа оценки прогресса в образовании (National Assessment of Educational Progress) (E. G.Johnson, 1992; Messick, Beaton, & Lord, 1983; F. B. Womer, 1970). Кроме того, они оказались полезными в удовлетворении запросов учебной отчетности. Еще одной иллюстрацией применения предметно-ориентированного тестирования могут служить экзамены на право вождения автомобиля или управление самолетом. Родственной областью является проверка профессиональной квалификации, где оценивается владение небольшим числом строго определенных профессиональных навыков, как это имеет место во многих военных специальностях (Maier, & Hirshfeld, 1978; Swezey, & Pearlstein, 1975). Наконец, отметим, что знакомство с принципами предметно-ориентированного тестирования может способствовать усовершенствованию традиционных, неформальных тестов, составляемых учителями для использования в своем классе. Лиин и Гронлунд (Linn, & Gronlund, 1995) разработали полезное руководство по составлению и проведению таких тестов с простым и хорошо построенным введением в предметно-ориентированное тестирование. Краткое, но превосходное обсуждение главных ограничений предметно-ориентированных тестов дано в работе Ибела (Ebel, 1972). Всестороннее рассмотрение многих специальных вопросов конструирования и оценивания таких тестов можно найти в руководстве под редакцией Берка (Berk, 1984a).
Значение содержания. Главным отличительным признаком предметно-ориентированного тестирования (как бы оно ни определялось и под каким бы названием ни выступало) является интерпретация выполнения теста с точки зрения его смыслового содержания. Упор делается на то, что тестируемые могут делать и что они знают, а не на то, как они выглядят на фоне других. Главное требование, которое необходимо соблюдать при конструировании теста этого типа, состоит в четком определении об- Глава 3. Нормы и смысловое значение тестовых показателей 95 ласти знаний или умений, которые предполагается оценивать с его помощью. Если мы хотим, чтобы показатели такого теста обладали поддающимся передаче значением, необходимо выбрать содержательную область, признаваемую всеми как важную. Выбранная область подразделяется затем на небольшие единицы, определяемые в терминах выполняемой деятельности. В контексте школьного обучения такие единицы соответствуют определяемым на поведенческом уровне учебным целям типа «умножить трехзначное число на двузначное» или «указать слово, в котором ошибочно написана буква е в суффиксе ян». В программах индивидуализированного обучения число таких целей-задач может достигать нескольких сотен по одному только учебному предмету. После того как все учебные цели сформулированы, нужно составить конкретные задания, обеспечивающие выборочную проверку достижения каждой из этих целей. По общему признанию, процедура эта достаточно трудна и поглощает много времени. Но без тщательной спецификации и контроля содержания заданий результаты предметно-ориентированного тестирования легко могут превратиться в чуждую и не поддающуюся интерпретации мешанину цифр. Возможный компромисс состоит в том, чтобы выявить и определить основные понятия, принципы, методы или учебные цели, прибегнув к помощи экспертов; затем каждую из определенных таким образом значимых областей можно тщательно проверить с помощью набора подходящих тестовых заданий. Безусловно, степень специфичности, с которой должны оцениваться области поведения, варьирует в зависимости от характера и цели теста (Ро-pham, 1984; Roid, 1984).
Предметно-ориентированное тестирование, при правильном применении, лучше всего приспособлено для проверки базовых умений и навыков (таких, как навыки чтения и оперирования числами) на элементарных уровнях. В этих областях учебные цели-задачи обычно можно упорядочить в иерархическую последовательность, когда приобретение более элементарных навыков является предпосылкой для формирования навыков более высокого уровня.1 Однако применительно к более высоким уровням знаний в сравнительно мало структурированных областях практически невозможно, да и нежелательно, формулировать такие цели с предельной конкретностью. На этих уровнях как само содержание, так и последовательность его усвоения, вероятно, должны определяться более гибко. С другой стороны, делая акцент на содержании при интерпретации тестовых показателей, предметно-ориентированное тестирование может оказать благотворное влияние на тестирование в целом. От такого подхода выиграла бы, например, интерпретация показателей тестов интеллекта. Если выполнение ребенком теста интеллекта описывать исходя из специфических интеллектуальных умений и знаний, предполагаемых набором тестовых заданий, то это могло бы помочь в преодолении тех недоразумений и неправильных представлений, которыми к настоящему времени оброс традиционный IQ Однако, когда предметно-ориентированный подход формулируется в этих общих выражениях, он равносилен интерпретированию тестовых показателей в свете подтвержденной валидности конкретного теста, а не в единицах каких-то туманных внутренних сущностей. Разумеется, такая интерпретация может комбинироваться с показателями, ориентированными на статистические нормы.
В идеале такие тесты описываются симплексной моделью шкалы Гуттмана (см. Popham, & Husek. 1969), так же как и порядковые шкалы Пиаже, обсуждаемые в главе 9. 96 Часть 2. Технические и методологические принципы Тестирование овладения знаниями, умениями и навыками. Вторым важным признаком, обычно связываемым с предметно-ориентированным тестированием, является способ проверки овладения предметом. По существу, этот способ дает оценку по принципу «все или ничего», показывая, достиг или не достиг испытуемый заранее установленного уровня владения определенным предметом. При тестировании базовых умений и навыков этот уровень предполагает почти совершенное владение (требуя, например, правильного выполения 80-85 % всех заданий). Возможно также применение трехступенчатой шкалы, фиксирующей совершенное владение, невладение и промежуточный («критический») интервал, или интервал неопределенности. В связи с индивидуализацией обучения некоторые педагоги пришли к убеждению, что при условии достаточного количества времени и адекватных методов обучения почти каждый может полностью справиться с поставленными перед ним учебными целями-задачами. В этом случае индивидуальные различия будут проявляться скорее во времени научения, чем в конечном результате, как при традиционном образовательном тестировании (Carroll, 1963, 1970; Cooley, & Glaser, 1969; Gagne, 1965). Из этого следует, что при тестировании овладения предметом индивидуальные различия в выполнении теста не представляют никакого или почти никакого интереса. В результате, предметно-ориентированные тесты в том виде, как они обычно конструируются, минимизируют индивидуальные различия в выполнении теста после соответствующего обучения. Тестирование овладения предметом систематически используется в упоминавшихся выше программах индивидуализированного обучения. На этих же принципах построены регулярно издаваемые предметно-ориентированные тесты базовых умений и навыков, пригодные для младших и средних классов школы. При конструировании таких тестов встают два важных вопроса: 1) Сколько заданий нужно включить в тест для надежной оценки достижения каждой из конкретных учебных целей? 2) Какая доля заданий должна быть выполнена правильно для надежного установления владения предметом? На начальных этапах развития предметно-ориентированного тестирования ответы на эти вопросы опирались на субъективное мнение. Со временем, однако, был достигнут существенный прогресс в разработке статистических методов, позволяющих давать на них объективные, эмпирически обоснованные ответы (Berk, 1984a; R. L. Ferguson, & Novick, 1973; Hambleton, 1884a, 1989; Hambleton, & Novick, 1973). Несколько примеров помогут наглядно представить характер и диапазон этих разработок.
Эти два вопроса — о количестве заданий и граничных значениях показателя — можно объединить в одну гипотезу, поддающуюся проверке в рамках теории принятия решения и последовательного анализа (Hambleton, 1984a; Wald, 1947). Конкретно, мы хотим проверить гипотезу о том, что тестируемый достиг конкретной учебной цели или, иначе говоря, требуемого уровня владения определенным предметом, представленным набором заданий теста. Последовательный анализ состоит в проведении наблюдений, по одному за раз, и решении после каждого из них, следует ли 1) принять гипотезу, 2) отклонить гипотезу или 3) продолжать наблюдения. Таким образом, число наблюдений (в данном случае, число заданий), необходимых для получения надежного вывода, само определяется в процессе тестирования. Вместо того чтобы работать с фиксированным, заранее установленным числом заданий, экзаменуемый продолжает выполнять тест до тех пор, пока не будет принято решение о владении или невладении предметом. В этот момент тестирование прекращается, и учащийся либо переводится на следующий уровень обучения, либо возвращается к неосвоенному Глава 3- Нормы и смысловое значение тестовых показателей 97 уровню для дополнительного изучения. С учетом описанных выше в этой главе возможностей компьютеров, такие последовательные процедуры принятия решений стали практически осуществимыми и могут сокращать суммарное время тестирования, обеспечивая надежные оценки овладения той или иной предметной областью. Некоторые исследователи изучают возможности оценивания владения предметом на основе байесовских методов, позволяющих учитывать косвенные данные и идеально подходящих для принятия решений такого рода, которые требуются при тестировании уровня овладения знаниями, умениями и навыками. Из-за большого количества конкретных учебных целей, достижение которых должно оцениваться, в предметно-ориентированных тестах на каждую такую цель обычно приходиться лишь небольшое число заданий. Для дополнения этой ограниченной информации и были разработаны методы, учитывающие косвенные данные о прежних достижениях ученика, а также о результатах тестирования других учащихся (R. L. Ferguson, & Novick, 1973; Hambleton, 1984a; Hambleton, & Novick, 1973). Когда невозможно применение индивидуально адаптируемых методик, граничные значения показателей могут устанавливаться эмпирически, на основе анализа показателей по данному тесту, получаемых подходящими группами до и после обучения. В этом случае граничное значение выбирается таким образом, чтобы наилучшим образом дифференцировать получивших и не получивших соответствующее обучение (Panell, & Laabs, 1979; L. A. Shepard, 1984). В специфических ситуациях требуется дополнительный анализ на предмет оценки относительной серьезности «прохождения» теста теми, кто не обучался, и, напротив, «непрохождения» теста теми, кто получил требуемое обучение. Граничное значение показателя можно было бы соответственно повысить или понизить, чтобы привести в соответствие с последствиями ошибочной классификации. Связь с тестированием, ориентированным на нормы. За пределами базовых умений и навыков тестирование владения предметом неприменимо или недостаточно. В более сложных и менее структурированных областях не существует предела достижений. Конкретный человек может почти неограниченно совершенствовать такие функции, как понимание, критическое мышление, предчувствие и оригинальность. Кроме того, усвоение содержания может идти различными путями в зависимости от способностей, интересов и целей человека, а также от местных образовательных возможностей. При этих условиях совершенное владение нереально, да и не нужно. Вот почему в таких случаях обычно применяется ориентированное на нормы оценивание степени образованности или квалификации. Некоторые издаваемые тесты построены таким образом, что допускают как предметно-ориентированное, так и ориентированное на статистические нормы применение. Примером могут служить стэнфордские диагностические тесты чтения и математики. Обеспечивая соответствующие нормы на каждом уровне, эти тесты позволяют проводить качественный анализ достижения ребенком детализированных учебных целей. Следует заметить, что предметно-ориентированное тестирование вовсе не так ново и не столь уж сильно отличается от ориентированного на статистические нормы тестирования, как полагают некоторые из его сторонников. Оценка индивидуального выполнения теста в абсолютных единицах, таких как буквенные отметки { lettergrades) или процент правильных ответов, несомненно, намного старше нормативной интерпретации. Еще до введения термина «критериально-ориентированное тестирова- 08 Часть 2. Технические и методологические принципы нис» делались попытки более точно описать выполнение теста с точки зрения его содержания (Ebel, 1962; J. С. Flanagan, 1962; Nitko, 1984, p. 14-16). Другие примеры можно найти среди первых шкал для оценивания качества почерка, сочинений или рисунков на основе сопоставления образцов работы индивидуума с набором стандартных образцов. Более того, как заметил Ибел (Ebel, 1972), в педагогике понятие овладения (mastery) чем-либо — в смысле усвоения определенных учебных единиц по принципу «все или ничего» — достигло значительной популярности в 1920-1930-х гг., но позднее от него отказались. Нормативная основа имплицитно присутствует во всяком тестировании, независимо от того, как выражаются показатели теста (Angoff, 1974; Nitko, 1984). Сам выбор содержания или навыков, подлежащих измерению, определяется знанием специалиста, чего можно ожидать от людей на определенном уровне их развития или обучения. Такой выбор предполагает наличие сведений о том, как другие действовали в подобных ситуациях. Кроме того, устанавливая единые граничные значения показателя на континууме умения, тестирование овладения предметом не устраняет индивидуальных различий. Например, если уровень понимания текста задается формулировкой «умение понять содержание газеты "Нью-Йорк Тайме"», то все еще остается достаточно места для значительных индивидуальных различий в степени понимания. Применяя критический балл для дихотомизации выполнения теста, мы просто игнорируем индивидуальные различия, сохраняющиеся в рамках двух устанавливаемых категорий, и тем самым отбрасываем потенциально полезную информацию.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|