Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свой­ство.




Психологический тест включает в себя некоторую совокупность заданий, инст­рукции: испытуемому — правило работы с тестом, экспериментатору — правило организации работы испытуемого с тестом и правило работы с данными, а также теоретическое описание с указанием свойств, измеряемых тестом, шкал (топологии свойства) и метода введения шкальной оценки. Указываются также психометриче­ские параметры теста.

С теоретической точки зрения, для измерения свойства и интерпретации тесто­вого балла следует описать типичную структуру и процедуры тестирования с пози­ций взаимодействия испытуемого и экспериментатора.

Испытуемый, обладающий свойством i), должен выполнить (F1) задания теста ( ), дать ряд ответов ( ). Экспериментатор должен этот ряд ответов ( ) отобразить (F2) на «модели совокупности испытуемых», т. е. совокупности измеряемых свойств ( ), чтобы получить некоторый результат тестирования.

Тем самым существуют два типа процедур: собственно тестирование — взаимо­действие испытуемого с тестом, и интерпретация — «взаимодействие» данных ис­пытуемого с «моделью совокупности испытуемых». Получаем два отображения — F: Р —> J и F: J —> Р. Идеальная обобщенная модель теста, возникающая из процеду­ры тестирования, тем самым должна включать в себя:

1) описание вида отображения F1 и F2 (они должны быть тождественными);

2) описание топологии свойства;

3) характеристику индикаторов (ответов испытуемого) и задач .

Индикаторы являются поведенческими признаками и так же, как свойства, мо­гут быть: 1) не определены; 2) дискретны; 3) линейны; 4) многомерны. В обычном случае мы имеем дискретные индикаторы: отдельные поведенческие акты. Искусст­венным методом (суммируя индикаторы) мы образуем при интерпретации псевдо­линейное свойство, получая «сырой» балл. Возникает проблема: в каких случаях можно это делать? Кроме того, существуют некоторые отношения на множествах испытуемых и индикаторов.

Если свойство не определено, то единственное отношение, которое можно уста­новить на множестве испытуемых, — это отношение сходства.

Если свойство является точечным, то на множестве испытуемых можно ввести отношения эквивалентности (обладает свойством), неэквивалентности (не облада­ет свойством) и применить дихотомическую классификацию.

Наконец, если свойство линейное или многомерное, то испытуемых можно шка­лировать по их положению на линейном континууме или в пространстве.

Поступаем так и в отношении индикаторов. Они могут быть эквивалентны или не эквивалентны, определены или не определены, шкалированы или не шкалиро­ваны.

Следовательно, в зависимости от вида отношений, которые мы вводим на множе­стве испытуемых (определяется природой свойства) или индикаторов (определяет­ся описанием поведения и заданий), получаем разные модели теста. Кроме того, не­обходимо учесть вид отображений — F1 и F2, которые представляют собой решаю­щие правила соотнесения индикаторов со свойством. Они зависят от интерпретации процедуры тестирования. Ниже мы рассмотрим некоторые возможные модели.

Итак, возможны следующие модели теста, основанные на различной топологии измеряемого свойства.

1. Если свойство не определено, то необходимо рассматривать отношение разли­чия на множестве людей. Это отношение порождает новый класс объектов. От­сюда — тест выявляет меру сходства каждого человека с «человеком-эталоном».

2. Если свойство качественно определено, то оно рассматривается как точечное, что позволяет ограничить класс объектов — выделить людей, обладающих свой­ством, и людей, им не обладающих.

Тест позволяет в этом случае произвести дихотомическую классификацию.

3. Если свойство линейное или многомерное, то можно выявить величину свойства, характеризующую каждого человека.

Тест позволяет измерить свойство количественно.

Существует множество конкретных тестовых методик, которые можно класси­фицировать по самым разным основаниям. В настоящее время психологический тест рассматривается как набор заданий, т. е. измерительный инструмент, обнаружива­ющий свойство. Общее название для заданий — пункты теста. Испытуемому пред­лагаются варианты ответа по отношению к каждой задаче. Ответ регистрируется и считается индикатором (признаком), обнаруживающим свойство. Варианты ответа могут быть разными, но чаще используются такие: «да» — «нет», «решил» — «не решил» и др. Каждый индикатор, сочетание пунктов — ответ, соотносится с клю­чом, который приписывает индикатор определенному свойству.

В основе подобной процедуры лежит модель, предложенная еще К. Левиным [Lewin К., 1936], — поведение есть функция личности и ситуации: В= f (Р, S). Ре­шается иная задача: восстановить свойство личности по поведению в ситуации: си­туацией является пункт теста, а поведением — ответ испытуемого: Р = f (В, S). Та­ким образом, каждый индикатор свойства есть соединение поведения и ситуации:  = В & S. Тем самым личность есть производное от совокупности индикаторов: P = f( ).

Многомерный тест измеряет не одно, а несколько свойств личности, поэтому в общем случае имеется матрица вида J х Р, где каждый индикатор соотносится со свойством.

Процедура обнаружения свойств, к которой сводится тестовое измерение, завер­шается выводом суммарного балла. Такое отношение между индикаторами и тестом называется кумулятивно-аддитивной моделью. «Сырой» балл считается оценкой, характеризующей испытуемого.

Наиболее часто эту оценку считают оценкой «интенсивности» свойства. Тем са­мым явно или неявно принимается гипотеза о том, что относительная частота обна­ружения свойства прямо пропорциональна «интенсивности» свойства: у =  k (т/ п) + С, где т/п — отношение числа обнаруженных признаков к общему числу испытаний, у — «интенсивность» свойства, а k и С — некоторые константы. Очевидно, что неявным образом для измерения психологических особенностей ин­дивидов применяется интервальная шкала.

Гипотезу о наличии подобной связи называют также гипотезой эквивалентности интенсивности и экстенсивности проявления свойства.

Кумулятивную гипотезу проверяют путем корреляции результатов применения различных методик. В частности, при измерении мотивации в качестве базовой ме­тодики используется предложенный Г. Мюрреем Тест тематической апперцепции (ТАТ). Он состоит из нескольких картинок с изображением людей в определенных ситуациях. Испытуемому предлагается составить рассказ по поводу каждой ситуа­ции. Его высказывания анализируются. По известным ключевым признакам выяв­ляется связь высказываний с определенной мотивацией. Число высказываний, от­носящихся к тому или иному мотиву, характеризует величину его интенсивности. Кумулятивная гипотеза является в этом случае переводом на математический язык известной поговорки: «У кого что болит, тот о том и говорит». Считается, что коли­чество «речевых продуктов» пропорционально силе мотива. Число признаков пси­хологического свойства при этом не фиксировано, а может быть только соотнесено со средним значением по выборке. Опросники, разработанные для диагностики мотивации, сопоставляются с методикой ТАТ. При наличии высокого положительного коэффициента линейной корреляции результатов кумулятивно-аддитивная модель принимается и для обработки данных личного опросника.

Критическую оценку применения кумулятивно-аддитивной модели дал Р. Мейли [Мейли Р., 1975]. Он полагал, что и методика типа ТАТ, и опросники (особен­но — на самооценку) измеряют только вероятность наличия у испытуемого того или иного психологического свойства, а не его интенсивность.

Критика, с которой выступает Мейли, носит только качественный характер и не имеет математического или эмпирического обоснования.

Процедура суммирования баллов сама по себе не плоха и не хороша: важно вы­явить природу итоговой оценки. Суммарный балл может характеризовать близость испытуемого к некоторому типу, а с помощью оценки определяется его место на шкале порядка или интервалов. Вид интерпретации тестового балла зависит от при­нятой разработчиком модели.

Традиционные обобщенные измерительные модели теста являются математичес­кими, описывающими взаимодействие измерительного инструмента (теста) и объек­та измерения (человека). Основная особенность этих моделей: они применялись для обоснования метода обработки данных тестирования в целях выявления латентного свойства.

В отношении психологического свойства можно сделать следующие теоретичес­кие предположения. Первое, наиболее простое, заключается в том, что нам неизвестно, есть свойство или нет. Утверждение кажется парадоксальным, однако дело в том, что психическое свойство — некоторое теоретическое допущение, и если у нас нет достаточных оснований пользоваться этим понятием для объяснения по­ведения, лучше к нему не прибегать. Второй вариант допущения состоит в том, что свойство есть, но нам неизве­стна его топология: неясно, является ли это свойство точечным, линейным, многомерным и т. д. Третье возмож­ное утверждение: нам известна то­пология свойства. Свойство — одно­мерный континуум (непрерывный) и может быть измерено некоторой по­рядковой или метрической шкалой (шкала наименований не является шкалой в строгом смысле этого слова).

По отношению к взаимодействию испытуемого и теста возможны два допущения:

1) появление признака строго детер­минировано и соответственно де­терминирован тип ответа;

2) взаимодействие испытуемого и за­дания определяет вероятность по­лучения того или иного ответа.

Чаще применяется вероятностная модель (рис. 6. 4).

Множество свойств имеет определенную структуру. Традиционно полагается, что тестируемые свойства должны быть линейно независимы, хотя в общем случае это условие необязательно.

Каждое свойство имеет определенную топологию: она может быть не определе­на, а свойство — точечно, линейно, многомерно.

1. Тест измеряет свойства некоторых объектов, принадлежащих определенному множеству -совокупности потенциальных испытуемых. В руководстве к тесту ого­вариваются характеристики множества испытуемых, для которых он предназначен. Тем самым определено некоторое множество  с отношениями между его элемента­ми. Эти отношения связаны с топологией свойства. Если топология свойства не определена, то на множестве испытуемых можно вводить только отношения сход­ства, не соответствующего правилу транзитивности отношений. Если свойство яв­ляется точечным, то, согласно его определению, оно позволяет отделить испытуе­мых, обладающих свойством, от испытуемых, им не обладающих. То есть на множе­стве испытуемых можно ввести отношения эквивалентности—неэквивалентности, свидетельствующие о степени обладания свойством. Наконец, если свойство линей­ное, то испытуемых можно расположить на линейном континууме и ввести метрику.

2. Тест включает в себя множество заданий ( ) и вариантов ответов испытуемо­го ( ), которые оговорены в предлагаемой ему инструкции (решил — не решил, да — нет, хорошо — средне — плохо и т. д. ). Декартово произведение  x  =  дает нам множество индикаторов (признаков) измеряемого свойства. Индикаторы могут быть относительно свойства разнородны, однородны (т. е. на них могут быть введены отношения эквивалентности), шкалированы (область разной «силы»).

Отношения на множестве индикаторов независимы от отношений на множестве испытуемых, т. е. от топологии свойства. Это правило соответствует принципу объективности метода измерения: свойства прибора (в нашем случае — тестовых заданий) не зависят от свойств объекта.

3. Между множествами испытуемых ( ), индикаторов ( ) и свойств ( ) суще­ствуют определенные отношения, которые можно разбить на отношения измерения и интерпретации. Измерение — это творческий подход испытуемого (испытуемых) к работе с тестом, «порождение» ответов на задания (признаков).

Интерпретация заключается в том, что на основе этих признаков эксперимента­тор при работе с «ключом» теста выявляет свойства испытуемого и относит его к определенной категории (подмножеству множества испытуемых).

Отношения измерения:

1. Отображение множества свойств на множество испытуемых вида F1:  дает представление об отношении измеряемых свойств к испытуемым. Например: испытуемые могут обладать или не обладать той или иной интенсивностью свой­ства и т. д.

Каждое свойство характеризуется вектором вида < >, где Oij — ве­личина, показывающая на принадлежность свойства Рi испытуемому Oi.

Обычно Pij характеризует распределение испытуемых, на которых апробировали тест, по отношению к пространству свойств.

2. Отображение F2:  определяет процесс измерения. Каждое свойство ха­рактеризуется вектором < >, где величина, определяющая, в какой мере свойство Рj детерминирует индикатор Jk. Если описание теста сопровождается данными факторного или латентно-структурного анализа, то эта величина отража­ет «нагрузку» фактора на пункт теста.

3. Отображение F3:  позволяет оценить результат измерения и определить, какие признаки проявил испытуемый при выполнении теста. Каждый испытуемый характеризуется вектором < >, где  — величина, показывающая, в какой мере испытуемый О1, проявил признак Jk. Обычно признаки проявляются дихотоми­чески: решил — не решил, да — нет; иногда привлекаются непрерывные величины:

время решения задания, шкальная оценка и т. д.

Этот вектор характеризует ответы испытуемого на тест и подвергается процеду­ре интерпретации.

Отношения интерпретации:

1. Отображение множества  на множество  вида F3:  дает представление о первичной структуре данных. Каждый индикатор характеризуется вектором < >. При тестировании способностей этот вектор позволяет опреде­лить, какие испытуемые решили те или иные задачи.

2. Отображение множества  на множество  вида F2:  указывает на процесс интерпретации тестового балла, точнее — вектора обнаруженных признаков. Каждый индикатор характеризуется вектором < > , где Рij ве­личина, определяющая «вес» индикатора по отношению к свойству. В инструк­ции к тесту «вес» индикатора используется для подсчета накопленного балла. Он соответствует «нагрузке» фактора на пункт теста. По отображению F2 можно говорить о процедуре подсчета «сырого» балла.

3. Отображение множества  на множества  вида P1:  характеризует ин­терпретацию — приписывание свойства или определенного уровня его интенсив­ности конкретному испытуемому (группе испытуемых). Каждый испытуемый ха­рактеризуется вектором < >, где Pij — величина, определяющая, в какой мере свойство Рi, выражено у испытуемого Оi. Эта величина является ито­гом процесса интерпретации — «психологическим портретом» испытуемого. С позиции обобщенной модели основное требование к тесту заключается в том, чтобы процедуры интерпретации и измерения были тождественными. Иными словами, тождественными должны быть обратные отображения F1 и F1', F2 и F2', F3 и F3'. В противном случае результаты интерпретации будут расходиться с ре­зультатами измерения (тестирования).

Описания множеств  и видов отображения F1', F2' и F3' определяются в ходе разработки теста и включаются в теоретическое описание теста и в инструк­цию экспериментатора.

Поскольку тест направлен на измерение психического свойства (в частности, способности), то вид конкретной модели, описывающей тест, определяется тополо­гией свойства.

Рассмотрим варианты нормативной обобщенной модели теста для одномерного случая, когда измеряется только одно свойство.

1. Свойство не определено.

Если топология свойства не определена, то это означает, что множество испыту­емых нельзя (в соответствии с определением понятия «свойство») разбить на под­множества, обладающие или не обладающие свойством. Иначе: на множестве испы­туемых нельзя ввести отношения эквивалентности—неэквивалентности. Однако на множестве испытуемых можно ввести отношения толерантности (сходства). Это отношение рефлексивно, симметрично, но не транзитивно. Множество индикато­ров  нельзя характеризовать по отнесенности к свойству, так как  — множество свойств, качественно не определенных. Следовательно, каждый испытуемый харак­теризуется лишь структурой своих ответов.

Единственно возможный способ интерпретации таких результатов — выделение из множества испытуемых «эталонного испытуемого» (например, решившего все за­дачи теста). После этого производится подсчет коэффициентов сходства всех испы­туемых с «эталоном».

Назовем этот вариант модели «моделью сходств». В психологических исследова­ниях она применяется редко. Очевидно, свою роль играет стремление исследовате­лей максимально повысить мощность интерпретации данных.

2. Свойство качественно определено.

Топология свойства определена: оно является точечным. На множества испыту­емых можно ввести отношение эквивалентности—неэквивалентности (рефлексив­ное, симметричное, транзитивное), указывающее на наличие или отсутствие у них свойства. Следовательно, отображение F1:  является отображением множе­ства на точку. Вектор значений Рij характеризует индивидуальную меру выражен­ности свойства (в вероятностной интерпретации — вероятность его наличия) у ис­пытуемого. Соответственно определены все отображения F1', F2' и F3' (и обратные им). Если испытуемые обладают / не обладают свойством, то их можно разбить на основании результата тестирования на классы, имеющие и не имеющие свойства. При интерпретации данных используется следующий алгоритм: фиксируются инди­каторы, проявленные испытуемым, подсчитывается индивидуальный показатель на­личия или отсутствия у него свойства и принимается решение о его принадлежно­сти к одному из дихотомических классов — А  и (обладающих и не обладающих свойством).

Назовем эту модель моделью дихотомической классификации. Она использова­на в опросниках Личко, опросниках УНП и ряде других.

3. Свойство качественно и количественно определено. Свойство является линейным континуумом, следователь, на нем определена мет­рика. Отображение F1':  указывает на меру принадлежности испытуемых к той или иной градации свойства (точке линейного континуума).

В этом случае для подсчета величины, характеризующей принадлежность испы­туемого к определенной интенсивности свойства, применяют кумулятивно-аддитив­ную модель: число признаков, проявленных при выполнении заданий теста (с уче­том «весов»), прямо пропорционально интенсивности свойства, которым обладает испытуемый. Эта модель есть отображение F2': . Тем самым применяется сле­дующая интерпретация: фиксируются ответы испытуемого; вычисляется «сырой» балл; испытуемый обладает определенной интенсивностью свойства на основе отображения «сырого» балла на шкалу, характеризующую свойство. Эта модель — модель латентного континуума — является наиболее распространенной при тести­ровании психических свойств.

Индикаторы свойства также могут быть однородными и разнородными. В послед­нем случае они шкалируются или не шкалируются. Если индикаторы однородны, то они выявляют свойство или уровень его интенсивности с равной вероятностью. Если индикаторы разнородны, то они выявляют свойство или уровень его интенсивности с разной вероятностью. На множестве индикаторов может быть введена некоторая мера — «сила» признака: чем сильнее признак, тем с большей вероятностью он вы­являет свойство или определенный уровень его интенсивности. В этом случае для описания теста мы получаем так называемую модель Раша.

Классическая теория теста лежит в основе современной дифферен­циальной психометрики. Описание оснований этой теории содержится во многих учебниках, пособиях, практических руководствах, научных монографиях.

Конструирование тестов для изменения психологических свойств и состояний основано на шкале интервалов. Измеряемое психическое свойство считается линей­ным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения.

В основе тестирования лежит классическая теория погрешности измерений; она полностью заимствована из физики. Считается, что тест — такой же измеритель­ный прибор, как вольтметр, термометр или барометр, и результаты, которые он по­казывает, зависят от величины свойства у испытуемого, а также от самой процеду­ры измерения («качества» прибора, действий экспериментатора, внешних помех и т. д. ). Любое свойство личности имеет «истинный» показатель, а показания по те­сту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и «систематическая» погрешность, но она сводится к прибавлению (вы­читанию) константы к «истинной» величине параметра, что для интервальной шка­лы значения не имеет.

Если тест проводить много раз, то среднее будет характеристикой «истинной» величины параметра. Отсюда выводится понятие ретестовой надежности: чем тес­нее коррелируют результаты начального и повторного проведения теста, тем он на­дежнее. Стандартная погрешность измерения:

Предполагается, что существует множество заданий, которые могут репрезен­тировать измеряемое свойство. Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста. Отсюда — определение надежности теста методами параллельных форм и расщеп­ление его на эквивалентные равные части.

Задания теста должны измерять «истинное» значение свойства. Все задания оди­наково скоррелированы друг с другом. Корреляция задания с истинным показате­лем:

Поскольку в реальном монометрическом тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна.

Так, определяемая надежность теста связана с однородностью, которая выражается в корреляциях между заданиями. Надежность возрастает с увеличением одномерности теста и числа его заданий, причем довольно быстро. Стандартная надежность 0, 02 соответствует тесту длиной в 10 заданий, а при 30 заданиях она равна 0, 007.

Оценка стандартной надежности:

Для оценок надежности используется ряд показателей. Наиболее известна формула Кронбаха:

Для определения надежности методом расщепления используется формула Спирмена—Брауна.

В принципе классическая теория теста касается лишь проблемы надежности. Вся она базируется на том, что результаты выполнения разных заданий можно сумми­ровать с учетом весовых коэффициентов.

Так получается «сырой» балл

Y=å axi+c,

где xi — результат выполнения i-го задания, а — весовой коэффициент ответа, с — произвольная константа.

По поводу того, откуда возникают «ответы», в классической теории не говорится ни слова.

Несмотря на то, что проблеме валидности в классической теории теста уделяет­ся много внимания, теоретически она никак не решается. Приоритет отдан надеж­ности, что и выражено в правиле: валидность теста не может быть больше его на­дежности.

Валидность означает пригодность теста измерять то свойство, для измерения ко­торого он предназначен. Следовательно, чем больше на результат выполнения тес­та или отдельного задания влияет измеряемое свойство и чем меньше — другие пе­ременные (в том числе внешние), тем тест валидней и, добавим, надежнее, посколь­ку влияние помех на деятельность испытуемого, измеряемую валидным тестом, минимально.

Но это противоречит классической теории теста, которая основана не на дея-тельностном подходе к измерению психических свойств, а на бихевиористской па­радигме: стимул—ответ. Если же рассматривать тестирование как активное порож­дение испытуемым ответов на задания, то надежность теста будет функцией, произ­водной от валидности.

Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свой­ство.

Тест невалиден (и ненадежен), если результаты тестирования определяются вли­янием нерелевантных переменных.

 

 

Интерпретация результатов исследования, требования к интерпретации и представлению результатов исследования.

Результаты исследования, их интерпретация и обобщение

Данные исследования обработаны и представлены в той или иной форме. Применение статистических критериев уже позволило сделать вывод о принятии или отвержении статистической гипотезы H1 или Н0.

Предположим, что статистическая гипотеза о различии результатов эксперимен­тальной и контрольной групп принята. Какие выводы мы можем сделать после обра­ботки экспериментальных результатов? Итог любого исследования — преобразова­ние «сырых» данных в решение об обнаружении явления (различий в поведении двух и более групп), о статистической связи или причинной зависимости. Подтвержде­ние или опровержение статистической гипотезы о значимости обнаруженных сходств — различий, связей и должно быть интерпретировано как подтверждение (неопровержение) или опровержение экспериментальной гипотезы. Как правило, исследователь пытается подтвердить гипотезы о различиях поведения контрольной и экспериментальной групп. Нуль-гипотеза — гипотеза о тождестве групп.

При статистическом выводе возможны различные варианты решений. Исследо­ватель может принять или отвергнуть статистическую нуль-гипотезу, но она может быть объективно («на самом деле») верной или ложной. Соответственно возможны четыре исхода:

1) принятие верной нуль-гипотезы;

2) отвержение ложной нуль-ги­потезы;

3) принятие ложной нуль-гипотезы;

4) отвержение верной нуль-гипотезы.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...