Главная | Обратная связь | Поможем написать вашу работу!

Поисковые исследования в области разработки заданий

Быстрое расширение использования компьютеров в 1980-е и 1990-е гг., в сочетании с достижениями когнитивной психологии, стимулировало широкие исследования в рамках новых подходов к разработке заданий. Традиционно составление заданий было скорее искусством, чем наукой. Даже при идеальных условиях составите-

¹ «Золотым правилом» принято называть библейскую заповедь: «Во всем, как хотите, чтобы дрУ^гиепоступали р вами, поступайте и вы с ними». — Примеч. науч. ред.

² Подготовленное Комитетом по психологическим тестам и психологическому оцениванию АПА, ^эТ° заявление было одобрено соответствующими отделениями АПА и Советом представителей.

Глава 7. Анализ заданий 225

лям заданий давались инструкции, которые определяли лишь форму задания и охватываемое им содержание. Все еще распространена практика, когда разработчики опираются на предварительную эмпирическую проверку заданий, чтобы оценить их уровень трудности и различительную способность. Есть ли какой-то способ предсказать эти статистики задания до его предварительной проверки, только на основе анализа физических или семантических свойств стимулов? Или, что еще лучше, можно ли конструировать задания с требуемым уровнем трудности и различительной силы? Может ли систематическое манипулирование характеристиками стимула предопределять востребование заданиями теста определенных когнитивных процессов? Все это вопросы, исследование которых непрерывно ведется как экспериментальными, так и математическими методами (Bejar, 1985,1991; Carroll, 1987; Embretson, 1985a, 1985b, 1991,1994,1995; Freedle, 1990).

Востребование, или запрос тестовыми стимулами определенных когнитивных процессов может исследоваться посредством методик декомпозиции задачи, разработанных в когнитивной психологии. Они позволяют устанавливать связи различных свойств задания со скоростью его выполнения и допускаемыми ошибками. Несколько таких исследований было проведено с пространственными заданиями (Embretson, 1994; Pellegrino, Mumaw, & Shute, 1985). Например, предъявляемые в тесте пространственных аналогий стимулы можно классифицировать относительно: 1) сложности, или количества отдельных элементов, которые должны быть распознаны (например, форма, размер, положение), и 2) преобразований, или числа способов, какими стимул изменяется в подлежащей оцениванию паре. В некоторых типах задач на пространственное воображение, требующих от тестируемого выбрать определенные части, из которых можно сложить заданную целую фигуру, эти части могут быть просто разнесенными в пространстве, смещенными, повернутыми или измененными сочетанием этих способов.

Предметом других исследований были семантические характеристики вербальных стимулов. Например, в тестах вербального рассуждения задания могут конструироваться в соответствии с известными логическими принципами и законами (Col-berg, 1985; Colberg, Nester, & Trattner, 1985; Scheuneman, Geritz, & Embretson, 1991; K. Sheehan, & Mislevy, 1989; Shye, 1988). Такая процедура могла бы гарантировать, что только один из вариантов ответа является в подлинном смысле правильным и что различные логические отношения представлены в выборке заданий в заранее заданной пропорции. Кроме того, эта процедура дала бы возможность манипулировать логической сложностью задания, связь которой с его уровнем трудности можно было бы затем исследовать эмпирически. Некоторые исследователи экспериментировали с конструированием символических (в частности, буквенных) последовательностей, предназначенных для тестирования индуктивного рассуждения (Butterfield et al., 1985). Сначала был разработан полный набор правил для систематического конструирования таких последовательностей. Затем были сформулированы гипотезы в отношении операций, выполняемых людьми, пытающимися понять заложенные в них закономерности. Наконец, эти гипотезы проверяли в ходе эмпирических исследований трудности заданий на завершение последовательностей.

Эмбретсон (Embretson, 1994) предлагает радикальные изменения в анализе заданий и усовершенствование процесса их разработки. Весь процесс начинается с определения подлежащих оценке конструктов, после чего строится когнитивная модель для Конструируемого теста. Подробные характеристики этой когнитивной модели обес-

226

Часть 2. Технические и методологические принципы

печивают спецификацию для создания заданий. Затем проводится эмпирическая ва-лидизация заданий, чтобы установить их фактическое соответствие теоретической когнитивной модели в ее практических приложениях. Полная процедура иллюстрируется разработкой Обучающего теста пространственной способности (Spatial Learning Ability Test), который измеряет не только исходный уровень пространственной способности, но и ее видоизменяемость после стандартизованного обучения.

Исследования предсказания трудности задания по физическим и семантическим свойствам стимулов не только помогает разработчикам заданий создавать эффективные тесты, но и подводит к автоматизированному, компьютерному конструированию заданий. Разумеется, детальную спецификацию задания можно без особого труда включить в машинную программу (см., например, Butterfield et al., 1985; Embretson, 1994). Бесспорно и то, что потенциальные преимущества этих развивающихся методов конструирования тестов впечатляют. И все же не следует ожидать слишком много от какого-то одного, пусть самого современного, подхода. Например, весьма вероятно, что тест может полно и эффективно измерять ряд четко идентифицированных конструктов и тем не менее не обладать высокой прогностической валидностью в некоторых важных областях его предполагаемого использования. По этой причине необходимо учитывать оба аспекта валидизации конструкта, которые Эмбретсон (Embretson, 1983) обозначает как репрезентацию конструкта и номотетический диапазон. Декомпозиция задачи дает информацию о репрезентации конструкта; определение номотетического диапазона требует изучения связей тестовых показателей в сети других, внешних переменных, включая и меры критерия. Другое предостережение против чрезмерной универсализации относится к необходимости обладать знанием релевантного содержания для эффективного выполнения задач в любой предметной области или сфере мастерства. Способы обработки информации часто связаны с содержанием, и потому не могут эффективно оцениваться в отсутствие соответствующего содержания.

В заключение отметим, что упоминавшиеся в этом разделе новаторские методы, при их правильном применении, могут внести существенный вклад в систематическое и управляемое конструирование тестовых заданий. Более того, благодаря идентификации измеряемых тестом конструктов, эти методы могут значительно улучшить наше понимание причин того, почему конкретные тесты предсказывают выполнение в критериальных ситуациях. Дополнительное преимущество касается диагностического использования тестов, поскольку источник сильных и слабых сторон индивидуума можно в этом случае связать с конкретными когнитивными процессами. Все это достойные цели, однако их практическая реализация еще требует значительных исследований оставшихся нерешенными проблем (см., например, Wainer, 1993 а). В настоящее время ведется большая исследовательская работа в области разработки заданий, допускающих идентификацию когнитивных процессов отдельных респондентов при решении конкретных задач (Willson, 1994). Анализ типов ошибок, совершаемых испытуемыми, открывает многообещающие пути к достижению этой цели (Kulikowich, & Alexander, 1994).

ТЕСТИРОВАНИЕ СПОСОБНОСТЕЙ

ИНДИВИДУАЛЬНЫЕ ТЕСТЫ

Во второй части мы познакомились с основными принципами психологического тестирования и теперь можем применить их для оценки конкретных тестов. Мы уже знаем, какие вопросы задать по поводу каждого теста и где искать на них ответы. Руководства по тестам и Ежегодники психических измерений (Mental Measurements Yearbooks) входят в число главных источников, к которым можно обратиться за получением информации в отношении любого из упоминаемых здесь тестов.¹

Оставшиеся части книги преследуют двоякую цель. Во-первых, они предоставляют возможность проследить за применением принципов тестирования в широком множестве тестов. Во-вторых, познакомить читателя с некоторыми из наиболее характерных тестов в каждой из основных областей их применения, не пытаясь при этом дать их исчерпывающий обзор. Такой обзор не составляет цели данной работы и скорее всего устарел бы еще до выхода книги в свет из-за той быстроты, с какой появляются новые тесты или их пересмотренные версии. По этим причинам в каждой разновидности тестов обсуждаются лишь несколько наиболее типичных, выбранных либо из-за их общеупотребительности, либо из-за того, что они иллюстрируют важные достижения в процедуре тестирования. При этом тестирование способностей рассматривается в части 3, тестирование личности — в части 4 и применение тестирования в разных средах, или контекстах — в части 5. Если не оговорено особо, следует иметь в виду, что все данные об обсуждаемых в этой книге тестах берутся из руководств по конкретным тестам или специальных приложений, которыми издатели снабжают те или иные тесты. Читатели, желающие самостоятельно провести критический разбор какого-то конкретного теста, могут воспользоваться схемой оценки теста, предложенной в Study Guide к этому учебнику (Urbina, 1997). Более подробные указания для этого даны в Стандартах тестирования (Testing Standard) (AERA, APA,NCME, 1985)-

Обсуждаемые в этой и следующей главах виды тестов, традиционно называемые «тестами интеллекта», ведут свое происхождение от шкал Бине. Такие тесты предназначены для использования в достаточно разнообразных ситуациях, а их валидность

¹ Десятитомная серия Test Critiques (Keyser & Sweetland, 1984-1994) служит другим полезным источником информации и критических оценок в отношении сотен тестов.

Глава 8. Индивидуальные способности

229

устанавливается с применением относительно широких критериев (см. L. R. Aiken, 1996). Как правило, они дают один суммарный показатель, такой как традиционный /(2 или индекс общего уровня выполнения теста обследуемым. Кроме того, они"обычно дают показатели по отдельным субтестам или их группам, оценивающие более узко определяемые способности (aptitudes). Поскольку валидность большей части тестов интеллекта устанавливалась относительно мер учебных достижений, их часто называют тестами академических способностей или академического интеллекта. Тесты интеллекта нередко используют в качестве инструментов предварительного отсеивания, после которого уже с меньшим числом кандидатов проводят тесты специальных способностей. Такая практика особенно распространена в тестировании нормальных подростков и взрослых при консультировании по вопросам обучения или выбора профессии, подборе кадров и решении других схожих задач. Еще одной областью широкого применения тестов общего интеллекта является клиническое тестирование, особенно в той его части, которая касается распознавания и классификации лиц с умственной отсталостью. Для этих целей обычно используют индивидуальные тесты, среди которых наиболее употребительными (в противопоставлении групповым) можно назвать обсуждаемые в этой главе шкалы Стэнфорд—Бине и Векслера. Поскольку шкала Стэнфорд—Бине — это первый тест, освещаемый в данной книге, он рассматривается полнее других тестов, обсуждаемых на всем протяжении учебника. Это сделано для того, чтобы с самого начала проиллюстрировать все виды информации, принимаемой в расчет при оценивании теста. Следует, однако, отметить, что обсуждения конкретных тестов на страницах этой книги не нужно рассматривать как их критические обзоры, подобные тем, которые даются, например, в Ежегодниках психических измерений. В соответствии с целями нашего учебника предметом внимания обычно становятся особые достоинства конкретного теста или характерные особенности, отличающие его от других тестов.¹

Предыдущая 24 25 26 27 28 29 303132 33 34 35 36 37 38 39 Следующая

Воспользуйтесь поиском по сайту: