Распределение частот первичных оценок по тесту 5 глава
МЫШЛЕНИЯ ПРОСТРАНСТВЕННОГО ТЕСТ — тест специальных способностей. Предложен И. С. Якиманской, В. Г. Зархиным и X. М. Кадаяс в 1991 г. Предназначен для диагностики уровня развития пространственного мышления. М. п. т. включает пять субтестов, задания которых требуют от испытуемых в процессе создания образа работы с величиной объектов (1), их формой (2), а также оперирования образами, приводящего к мысленному видоизменению положения объекта (3), его структуры (4), к одновременному изменению пространственного положения и структуры образа (5). Два вида заданий направлены на выявление процесса создания образа и три — на фиксацию типов оперирования образом. Внутри субтестов задания различаются по материалу (черчение, геометрия, рисование). Тест имеет две формы (А и Б), каждая из которых состоит из 5 видов заданий. Каждый вид заданий представлен двумя вариантами, различающимися уровнем сложности. Надежность ретестовая (3,5 мес) — 0,841 прир < 0,01. Валидность определялась: сравнением успешности выполнения заданий со школьной оценкой по геометрии (r = 0,683, р < 0,01); сопоставлением результатов выполнения заданий М. п. т. и субтеста № 8 Амтхауэра интеллекта структуры теста (r = 0,623, р < 0,01); путем сравнения результатов тестирования с успешностью выполнения стандартизированной контрольной работы по геометрии (r = 0,697, р<0,01). Доказана эквивалентность форм А и Б (r = 0,959, р < 0,01). Разработана схема качественного анализа результатов тестирования. Авторы считают, что с помощью теста можно выявить не только индивидуальные различия в содержании и структуре пространственного мышления, но и конструировать обучающие коррекционные программы с учетом всех структурных компонентов этого вида мышления, их взаимосвязи и компенсируемости.
-Н-
НАДЕЖДЫ ИНДЕКС (Hope Index) - опросник личностный, предназначен для диагностики мотивационной сферы личности, ее отношения к будущему. Разработан С. Стаатс и М. Стассен в 1986 г. Стимульный материал представляет собой бланк с перечнем 16 наиболее распространенных желаний, которые были выявлены в ходе предварительных опросов. Испытуемый должен оценить в 6-балльной Лайкерта шкале и указать в баллах от 0 до 5: 1) насколько он хочет осуществления каждого желания (от 0 — «совсем не хочу» до 5 — «хочу очень сильно»); 2) какова вероятность осуществления каждого желания (от 0 — «очень низкая» до 5 — «очень высокая»). Испытуемый может добавить к списку 1-2 желания. Общий показатель надежды представляет собой сумму баллов «желания», умноженных на количество баллов «ожидания» по каждому пункту. Шкала надежды имеет субшкалы «надежды-для-себя» (напр., иметь хорошее здоровье), «надежды-для-других» (напр., «иметь больше друзей», «понимание в семье»), «надежды-для-всех» (напр., «мир во всем мире»); по другому основанию деления — субшкалы «желание» и «ожидание». Надежда, диагностируемая по Н. и., определяется как результат взаимодействия желаемого и ожидаемого, (С.Стаатс, М. Стассен, 1986). При отом с помощью Н. и. диагностируются в первую очередь когнитивные аспекты надежды (см. Ожидаемого баланса шкала). Теоретической основой методики является концепция триады «я—другие—мир» А. Бека (1967), описывающая взаимодействие человека с окружающим миром. Надежность ретестовая Н. и. при обследовании 112 испытуемых-студентов с интервалом 9 недель составила rt = 0,62-0,74; внутренняя согласованость (при обследования 130 испытуемых студентов) —0,72-0,85. Н. и. обладает достаточновысокой валидностью. Сведений об использовании в СНГ не имеется. НАДЕЖНОСТИ КОЭФФИЦИЕНТЫ — статистические показатели надежности психологического теста.
При оценке надежности наиболее часто применяются различные виды корреляционного анализа. В качестве Н. к при характеристике надежности ретестовой используются коэффициент корреляции результатов первичного и повторного обследования, при оценке надежности параллельных форм — коэффициент корреляции результатов, полученных с помощью разных форм теста (см. Параллельные формы теста). При оценке надежности частей теста находят применение специальные коэффициенты, полученные на основе уравнений Кьюдера—Ричардсона, Спирмена—Брауна. Распространенным методом анализа надежности является расчет коэффициента «альфа». При характеристике надежности факторно-дисперсионной используются специальные методы дисперсионного анализа. Н. к., определенные на основе разных подходов, нередко существенно отличаются по своим эмпирическим значениям. Между разными моделями определения надежности могут отмечаться противоречия (см. Надежность по внутренней согласованности). Имеется ряд сложностей количественной характеристики надежности, аналогично проблемам, возникающим при анализе содержания валидности коэффициентов. Несмотря на то что количественные характеристики надежности в виде традиционного Н. к. более распространены в практике психодиагностики, нежели количественные коэффициенты при оценке валидности, о надежности теста следует (как и в случае валидности) судить на основании изучения разных аспектов. При интерпретации Н. к. обязателен учет закономерностей разных подходов к определению надежности и психологический анализ показателей проверяемого на надежность теста. НАДЕЖНОСТЬ — характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов. Н. и валидность являются важнейшими характеристиками методики как инструмента психодиагностического исследования. Результат психологического исследования обычно подвержен влиянию большого количества неучитываемых факторов (напр., эмоциональное состояние или утомление, если они не входят в круг исследуемых характеристик, освещенность, температура и другие особенности помещения, в котором проводится исследование, уровень мотивированности испытуемых на обследование и др.). Любое изменение ситуации исследования усиливает влияние одних и ослабляет воздействие других факторов на результат теста.
Общий разброс (дисперсию) результатов тестового обследования можно, таким образом, представить как результат влияния двух групп причин: изменчивости, присущей самому измеряемому свойству, и факторов нестабильности измерительной процедуры. В самом широком смысле Н. теста — это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах и в какой мере они могут быть приписаны случайным ошибкам. В более узком, методическом, смысле под Н. понимают степень согласованности результатов теста, получаемых при первичном и вторичном его применении, у одних и тех же испытуемых в различные моменты времени, с использованием разных (но сопоставимых по характеру) наборов тестовых заданий или при других изменениях условий обследования. Распределение оценок испытуемых при выполнении теста, измеряющего одно качество, в идеальном случае совпадает с нормальным распределением, и дисперсия при этом будет «истинной» (т. е. отражающей вариативность только измеряемого признака). Каждый испытуемый занимает определенное место по оценкам теста, и теоретически это место для каждого члена выборки постоянно. В рассматриваемом случае повторное выполнение теста теми же лицами должно давать распределение мест на шкале оценок, идентичное первому. Тогда методика точна и максимально надежна. Реальные оценки и ранговые места испытуемых при повторном обследовании изменяются, и их распределение в той или иной степени отличается от исходного. При этом дисперсия нового распределения выше исходного на величину дисперсии ошибки измерения. Сказанное можно выразить формулой, описывающей Н. теста как отношение «истинной» и реальной (эмпирической) дисперсии:
или
где α — надежность теста, — «истинная» дисперсия, — дисперсия ошибки; — эмпирическая дисперсия оценок теста. Как видно, Н. теста тесно связана с ошибкой измерения, которая указывает на вероятные пределы колебаний измеряемой величины под воздействием случайных посторонних факторов. Величина — служит основным показателем точности и устойчивости измерений и называется коэффициентом Н. теста (rt):
Величина ошибки измерения обратно пропорциональна показателям точности измерения (чем шире доверительный интервал, внутри которого возможно появление истинного результата у данного испытуемого, тем меньше точность измерения). Относительную долю дисперсии ошибки ()легко установить, исходя из уравнения
На практике в большинстве применяемых методик редко удается получить значения коэффициентов Н., превышающие 0,7-0,8. При rt порядка 0,8 относительная доля стандартной ошибки (см. Ошибка измерения) составляет , а эмпирическое значение отклонения тестового балла от среднего оказывается завышенным. Для коррекции эмпирического значения в практических исследованиях применяется формула:
где xt — истинное значение тестового балла, хi — эмпирический балл испытуемого, rt — коэффициент надежности, — среднее значение оценок по тесту. Напр., у испытуемого при обследовании по шкале Векслера (см. Векслера интеллекта измерения шкалы) оценка вербального интеллектуального показателя составила 107 баллов. Среднее значение х для шкалы составляет 100, а надежность rt — 0,89. При этом истинное значение xt = 0,89 • 107 + 0,1 1 • 100 = 106,2. Разновидностей характеристик Н. теста так же много, как условий, влияющих на его результаты. Наиболее широкое практическое применение находят несколько типов характеристик Н.: надежность ретестовая, надежность параллельных форм, надежность частей теста. Подчеркивается, что ни одна из существующих процедур не является идеальной с т. з. Н. Свойства Н. могут существенно изменяться при незначительных, на первый взгляд, изменениях условий проведения обследования, изменении характера заданий, они значительно варьируют в зависимости от степени сложности или трудности конкретных заданий для испытуемого. Стандартный набор сведений о психодиагностических методах обычно включает характеристики Н., относящиеся к комплексу приведенных выше типов и процедур определения. На характеристики Н., определяемые эмпирическим путем, существенно влияет характер исследуемой выборки. Особое значение здесь имеет диапазон различий в оценках и соответственно в ранговых местах отдельных испытуемых и их групп в выборке определения Н. Так, если оценки обследуемых концентрируются в узком диапазоне значений и близки друг другу, следует ожидать, что при повторном обследовании оценки также расположатся в тесной гомогенной группе. Возможные изменения ранговых мест будут внешне незначительны, и в таком случае коэффициент Н. будет завышен. Такое же неоправданное завышение коэффициента может возникнуть при анализе Н. на материале выборки, включающей контрастные группы лиц, напр, имеющих самые высокие и самые низкие оценки по тесту. Тогда эти далеко отстоящие оценки заведомо не будут перекрываться под воздействием случайных причин.
В практике психодиагностики при разработке руководств и методик обычно указывается характер групп, на которых проводилось определение Н. Коэффициенты Н. нередко рассчитываются для конкретных контингентов испытуемых, различающихся по полу, возрасту, уровню образования, профессиональной подготовке. Нередко производят расчет Н. раздельно для групп испытуемых, получивших по тесту высокий или низкий результат (см. Станфорд—Бине умственного развития шкала). Важнейшим средством повышения Н. психодиагностических методик является стандартизация процедуры обследования. При строгой регламентации процедуры обследования (обстановка и условия работы испытуемого, характер инструкции, временные ограничения, способы и особенности контакта с испытуемым, порядок предъявления элементов методики, получения оценок первичных и т. д.) существенно уменьшается дисперсия ошибки и повышается Н. теста. Если исходить из широкого понимания Н. как отражения в результате исследования удельного веса измеряемого параметра и совокупности посторонних факторов, то можно усмотреть определенную связь Н. с другой важнейшей комплексной характеристикой психодиагностической методики — валидностью. Н. — устойчивость процедуры относительно объектов исследования. Валидность — однозначность, устойчивость относительно измеряемых свойств объекта (т. е. предмета измерения). Устойчивость теста относительно объектов (испытуемых) является необходимым, но не достаточным условием его устойчивости относительно измеряемых свойств объектов. Следовательно, Н. является необходимым, но не достаточным условием валидности. Это означает, что валидность теста не может качественно и количественно превышать Н. Данное соотношение нельзя, однако, трактовать как указание на прямую пропорциональную связь характеристик валидности и Н. Повышение Н. отнюдь не сопровождается обязательным повышением валидности. Напр., у теста-опросника из одного вопроса внутренняя согласованность предельна, однако валидность у него минимальна. НАДЕЖНОСТЬ ПАРАЛЛЕЛЬНЫХ ФОРМ — характеристика надежности психодиагностической методики с помощью взаимозаменяемых форм теста (см. Параллельная форма теста). При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем — с применением аналогичных дополнительных наборов. Коэффициент надежности по типу Н. п. ф. может быть определен и другим способом, а именно: испытуемые делятся примерно на равные группы, затем одной из них предлагается форма А теста, а другой — форма Б. Через определенное время (обычно не более недели) проводится повторное тестирование, но в обратном порядке. Такая процедура обследования лишена значительной части недостатков способа определения надежности ретестовой. Так как в параллельной форме используется другой по содержанию материал, возможность тренировки и запоминания отдельных решений уменьшается. Важнейшим преимуществом данного метода является сокращение временного интервала перед повторным обследованием. Основным показателем Н. п. ф. является коэффициент корреляции между результатами первичного и повторного обследований, который позволяет оценить как временную стабильность теста (собственно надежность), так и степень соответствия результатов обеих форм теста. Если формы применяются непосредственно одна за другой, то корреляция отражает их взаимозаменяемость. Отношение между параллельными формами теста имеет сложный характер. Оба набора заданий должны не только отвечать одним и тем же требованиям, измеряя идентичные показатели и давая сходные результаты, но вместе с тем быть относительно независимыми друг от друга. На практике эта задача осуществима далеко не для всех тестовых заданий (в особенности это касается личностных методик, опросников), что существенно ограничивает сферу применения Н. п. ф. Другим недостатком характеристики надежности по типу Н. п. ф. является возможность усвоения испытуемым принципа решения, общего для основной и параллельной форм. Таким образом, в случае оценки Н. п. ф. влияние тренировки и навыка, приобретаемого при повторном обследовании, если и снижается по сравнению с характеристикой надежности ретестовой, однако не устраняется полностью. НАДЕЖНОСТЬ ПО ВНУТРЕННЕЙ СОГЛАСОВАННОСТИ — способ определения надежности, опирающийся на оценку степени выраженности интеркорреляционных связей между заданиями, составляющими тест. В данном случае истинный показатель по тесту понимается как результат, который получил бы испытуемый, если бы ему были предъявлены все возможные задания, относящиеся к черте или свойству, являющемуся объектом тестирования. Каждый конкретный тест является выборкой из генеральной совокупности заданий. Погрешность измерения отражает степень, в которой реальная выборка заданий охватывает теста заданий совокупность генеральную. Генеральная совокупность заданий порождает бесконечно большую корреляционную матрицу парных связей между заданиями. Среднее значение корреляции между заданиями для этой матрицы (rij)указывает на степень общности, внутренней согласованности заданий. Так, если, например, в тесте было бы одно задание из множества независящих друг от друга, то = 0,00. Предполагается, что все задания имеют одинаковые значения взаимной корреляции. Исходя из основных положений оценки Н. п. в. с., можно сказать, что корреляция некоторого задания с истинным показателем (rit) равна квадратному корню от его средней корреляции с другими заданиями (Дж. Наннелли, 1978):
Строго говоря, этот вывод справедлив тогда, когда количество заданий приближается к бесконечности. С точки зрения разработчика теста, соотношение rit и rij имеет важное значение, поскольку при разработке значительного количества заданий и выборе из них тех, для которых значение будет наибольшим, созданный тест будет надежным и свободным от погрешностей измерения. Аналогичные рассуждения, касающиеся взаимосвязи заданий, могут быть применены к надежности параллельных, форм тестов. В данном случае каждый из параллельных тестов рассматривается как случайная выборка из генеральной совокупности заданий. Средние значения и дисперсии тестов отличаются от истинного показателя только случайным образом. Следовательно, в приведенном выше уравнении значения для заданий могут быть заменены показателями для тестов (т. е. наборов заданий). Так как корреляции между заданиями или параллельными тестами на практике не являются идентичными, должно быть некоторое распределение их вокруг истинного значения. Если предположить, что такое распределение является нормальным (см. Нормальное распределение), можно оценить точность коэффициента надежности rij путем вычисления стандартной ошибки (см. Ошибка измерения) средней взаимной корреляции заданий или тестов в генеральной совокупности (Дж. Наннелли, 1978):
где — стандартная ошибка измерения, — стандартное отклонение корреляций заданий внутри теста и n — количество заданий в тесте. Из уравнения видно, что по мере возрастания возрастают различия между корреляциями и по мере возрастания п стандартная погрешность уменьшается, то есть чем больше заданий, тем выше точность оценки коэффициента надежности. Действительно, если предположить, что для некоторого теста равна 0,15, а количество заданий варьирует от 10 до 30, то, подставив соответствующие значения в уравнение, получим следующие погрешности: для теста из 10 заданий — 0,02; для теста из 20 заданий — 0,01; для теста из 30 заданий — 0,007. Вслед за Дж. Наннелли (1978), П. Клайн (1986) распространяет суждение о возрастании точности коэффициента надежности при увеличении состава теста и на саму величину надежности. В самом деле, поскольку истинные показатели теста определяются через меру представленности заданий генеральной совокупности, должно выполняться предположение о том, что чем больше тест, тем выше корреляция с истинным показателем. Предельным случаем будет гипотетическая ситуация, когда тест состоит из всех заданий генеральной совокупности за исключением одного. Для доказательства надежности теста, задания которого, как заранее известно, принадлежат одной генеральной совокупности, можно воспользоваться формулой Спирмена— Брауна:
где rt — надежность теста, п — количество заданий, — средняя взаимная корреляция заданий. В формуле Спирмена— Брауна показатель (см. Надежность частей теста) заменен на , что вытекает из вывода модели коэффициента надежности. Предположим, имеются три набора заданий (п = 10, 20, 30), средняя корреляция между которыми равна 0,20, тогда: для10 задании:= для 20 заданий: = для 30 заданий: = . Причем эти показатели получены для заданий, взаимная корреляция которых была низкой. Для более однородного теста из 30 заданий при - 40 получаем: Таким образом, при наличии набора однородных заданий тест будет заведомо надежным. Даже если разделить совокупность заданий на две параллельные формы по 15 пунктов, они обе также будут иметь удовлетворительную надежность. Теоретические значения коэффициента надежности при данном способе определения существенно превышают эмпирические значения надежности ретесто-вой и надежности параллельных форм. Это происходит из-за ряда допущений. Прежде всего следует указать на то, что при определении Н. п. в. с. не учитываются другие источники погрешности измерений, связанные с неконтролируемыми факторами среды, состояния и мотивации испытуемого (см. Надежность). В этой связи между Н. п. в. с. и ретестовой надежностью имеется противоречие. Ретестовая надежность может уменьшаться при увеличении состава заданий (чем больше заданий, тем выше вероятность случайного или закономерного изменения ответа при ретесте). Противоречие может быть снято за счет признания некорректности допущения о равенстве интеркорреляций между заданиями, зависимости погрешности лишь от представленности в тесте генеральной совокупности заданий. В противном случае необходимо было бы согласиться с тем, что в двух тестах, связанных общим фактором и имеющих одинаковое количество заданий, но совершенно разных по характеру выполнения и трудности, надежность будет одинаковой, что невозможно. Следует обратить внимание на невозможность определения таким способом надежности тестов скорости, так как связь каждого из заданий исследуемой генеральной совокупности не определена из-за большого количества заданий, интеркорреляции заданий могут терять смысл (см., напр., Корректурная проба). Важным аспектом оценки применимости Н. п. в. с. является парадокс, возникающий в этом случае при сочетании показателей надежности и валидности теста. Кажется, что высокая внутренняя согласованность должна быть основной целью разработчиков теста (Л. Кронбах, 1920). Такая точка зрения является довольно распространенной. Однако Р. Кэттелл (1977) обоснованно утверждает, что высокая внутренняя согласованность (особенно при изучении сложных психологических конструктов, личностных показателей) в известном смысле противостоит высокой валидности. Возникающее противоречие можно иллюстрировать следующим примером. Тест вербальных способностей может включать задания (и соответственно, субтесты) на подбор антонимов, синонимов, понимание слов, словарный запас. Предположим, что каждый из субтестов имеет высокие показатели Н. п. в. с. Однако если бы мы воспользовались только одним субтестом (например, подбором антонимов), то показатель Н. п. в. с. теста несомненно возрос бы по сравнению с полным набором субтестов, так как используется только один тип высокосогласованных заданий. Высокая надежность субтеста антонимов будет отражать тот факт, что эта выборка заданий в высокой степени коррелирует с гипотетической генеральной совокупностью заданий на антонимы. Однако этот истинный показатель отражает не вербальные способности, а только способность подбирать антонимы (т. е. валидность теста станет низкой по отношению к измерению вербальных способностей). Приведенные данные свидетельствуют о специфичности применения каждого из имеющихся подходов к характеристике надежности теста. Н. п. в. с. имеет, очевидно, в основном теоретическое значение. Как и надежность частей теста в предельном случае разбивания материала на отдельные задания, рассматриваемый способ имеет практическое значение для оценки точности коэффициента надежности, а также при характеристике некоторых тестов, состоящих из специально подобранных факторизованных заданий (см. Факторно-аналитический принцип).
НАДЕЖНОСТЬ РЕТЕСТОВАЯ — характеристика надежности психодиагностической методики, получаемая путем повторного обследования испытуемых с помощью одного и того же теста. Надежность в этом случае вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте. Коэффициент надежности (rt) соответствует коэффициенту корреляции между результатами таких обследований. При использовании интервальных шкал (см. Шкалы измерительные) применяется коэффициент корреляции произведения моментов Пирсона (см. Корреляционный анализ). Для шкал порядка в качестве меры устойчивости к перетестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла (см. Корреляция ранговая). При характеристике Н. р. особое значение имеет временной интервал между первым и вторым обследованиями. С его увеличением показатели корреляции имеют тенденцию к снижению, существенно повышается вероятность воздействия посторонних факторов — могут наступить закономерные возрастные изменения измеряемых тестом свойств, произойти различные события, влияющие на состояние и особенности развития исследуемых качеств. По этой причине при определении Н. р. стараются выбирать непродолжительные временные интервалы (до нескольких месяцев), а при обследовании детей младшего возраста эти интервалы должны быть еще меньше, поскольку возрастные изменения и развитие в этом случае происходят еще быстрее. Несмотря на указанную тенденцию, при получении характеристик теста проводятся повторные испытания и с длительным временным промежутком. Иногда они осуществляются в целях оценки валидности прогностической, элементов валидности конструктной, связанных с дифференциацией по возрастному критерию и др. Определение же Н. р. главным образом ограничивается анализом краткосрочных случайных изменений, характеризующих тест как измерительную процедуру, а не его отношение к исследуемой области поведения. Наряду с очевидной простотой Н. р. как метод определения надежности обладает существенными недостатками. Так, при повторном применении одних и тех же заданий, особенно при относительно непродолжительном временном интервале между обследованиями, у испытуемых может сформироваться навык работы с данной психодиагностической методикой, что приводит к улучшению индивидуальных результатов, хотя и не одинаково выраженному у разных лиц. Это неизбежно ведет к заметной перестановке ранговых мест отдельных испытуемых в данной выборке и, соответственно, ухудшению коэффициента надежности. Еще более заметное воздействие на результаты анализа надежности оказывает запоминание испытуемыми отдельных решений, воспроизведение в повторном обследовании предыдущей картины правильных и неправильных решений. В этом случае результаты двух предъявлений теста не будут независимыми и корреляция между ними окажется завышенной.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|