Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Стандартная ошибка измерения

Интерпретация индивидуальных показателей. Надежность теста можно выразить через стандартную ошибку измерения (SEM — сокр. от standard error ofmeasurement), называемую также стандартной ошибкой показателя. Эта мера особенно удобна для интерпретации индивидуальных показателей. Поэтому для многих целей тестирования она более полезна, чем коэффициент надежности. Зная коэффициент надежности теста, стандартную ошибку измерения легко вычислить по следующей формуле:

где SDt — стандартное отклонение показателей теста; rtt коэффициент надежности, оба вычисленные на одной группе. Например, если стандартные показатели IQ по конкретному тесту интеллекта имеют SDt =15 и коэффициент надежности rtt=0,89, то SEMIQ в этом тесте равна

Чтобы понять, о чем нам говорит стандартная ошибка показателя, предположим, что мы располагаем сотней стандартных IQ, полученных единственным ребенком, Жанет, по упомянутому выше тесту интеллекта. Вследствие разного рода случайных ошибок, обсуждавшихся в данной главе, эти показатели будут варьировать вокруг истинного показателя Жанет, подчиняясь нормальному распределению. Среднее этого распределения ста показателей можно принять за «истинный показатель» для данного использования теста, а стандартное отклонение — за соответствующую SEM. Как и любое стандартное отклонение, стандартную ошибку можно интерпретировать в единицах плотности нормального распределения (см. главу 3, рис. 3-3). Напомним, что при нормальном распределении в интервал М ± 1 σ попадает приблизительно 68 % всех случаев. Следовательно, имеется примерно 2 шанса против 1 (точнее, 68:32), что I Q Жанет по этому тесту будут колебаться в пределах ± 1 SEM или 5 единиц в обе стороны от ее истинного IQ. Если ее истинный IQ = 110, можно ожидать, что в 2/3 (68 %) случаев показанные ею результаты попадут в интервал между 105 и 115.

Когда мы хотим чувствовать себя увереннее в наших предсказаниях, мы можем выбрать более высокое соотношение шансов, чем 2:1. Из рис. 3-3 (глава 3) видно, что интервал М ± 3σ покрывает 99,7 % случаев. Обратившись к таблицам плотности нормального распределения, можно удостовериться, что интервал М ± 2,58σ включает точно 99 % случаев. Следовательно, имеется 99 шансов против 1, что IQ Жанет попадет в интервал с границами, отстоящими на 2,58 SEM или на 2,58 х 5 = 13 единиц в обе

128

Часть 2. Технические и методологические принципы

стороны от ее истинного IQ. Таким образом, можно с 99 % степенью уверенности (1 шанс ошибиться против 100) утверждать, что IQ Жанет при любом одиночном проведении этого теста будет лежать в пределах значений от 97 до 123(100— 13и 110 + + 13). Если бы Жанет предъявили 100 эквивалентных тестов, то ее IQ мог бы выйти за границы этой области значений только однажды.

Разумеется, на практике мы не располагаем истинными показателями; обычно в нашем распоряжении имеются лишь показатели, полученные при одном-единствен-ном проведении теста. В этих обстоятельствах мы можем применить выше приведенные рассуждения в обратном порядке. Если маловероятно, что полученный тестируемым показатель отклонится от его истинного показателя более чем на 2,58 SEM, мы могли бы утверждать, что этот истинный показатель должен лежать в пределах 2,58 SEM от полученного им показателя. Хотя нельзя установить вероятность справедливости этого утверждения для любого отдельного показателя, полученного конкретным испытуемым, можно сказать, что оно будет верным для 99 % всех возможных случаев. Следуя этому рассуждению, Галликсен (Gulliksen, 1950, р. 17-20) предложилисполь-зовать стандартную ошибку измерения для оценки разумных границ истинного показателя у лиц с любым полученным в единичном измерении показателем. В психологическом тестировании стало обычным интерпретировать ошибку измерения именно с точки зрения таких «разумных границ», и в этой книге она тоже будет интерпретироваться с этих позиций.1

Стандартная ошибка измерения и коэффициент надежности — это явно взаимозаменяемые способы выражения надежности теста. В отличие от коэффициента надежности ошибка измерения не зависит от изменчивости внутри группы, на которой она вычисляется. Выражаясь в единицах индивидуальных показателей, она не меняется в зависимости от того, проводятся ли измерения в однородной или неоднородной группе. С другой стороны, приводимая в единицах показателя, ошибка измерения не допускает прямого сравнения при переходе от теста к тесту. Обычные проблемы сопоставимости единиц возникают всякий раз, когда ошибка измерения сообщается в виде числа арифметических задач, количества слов словарного теста и т. п. Отсюда, если мы хотим сравнить надежность различных тестов, лучше пользоваться коэффициентами надежности. Однако для интерпретации индивидуальных показателей более подходит стандартная ошибка измерения.

Но как в отношении коэффициентов надежности, так и в отношении ошибок измерения нельзя предположить, что они остаются постоянными при изменении уровня способности в широком диапазоне. Обсуждаемые в предыдущем разделе различия в коэффициентах надежности сохраняются в тех случаях, когда ошибки измерения вычисляются для разных уровней одного и того же теста. Полное решение этой проблемы обеспечивается IRT методами анализа заданий, упоминавшимися в главе 3. Покрывая широкий диапазон тестируемой способности, эти методы позволяют выразить точность измерения теста в виде функции уровня такой способности. Метод IRT

' Предлагались и другие методы, использующие ожидаемое значение «истинного» показателя в качестве центра доверительного интервала (Dudek, 1979; Glutting, McDermott, & Stanley, 1987). При высоком коэффициенте надежности этот метод малоэффективен; когда же он низок, то и истинный показатель, и величину доверительного интервала удается рассчитать по столь же ненадежному коэффициенту надежности. Более того, можно выбрать оптимальный метод в зависимости от конкретной цели предполагаемого использования тестовых показателей (например, для долгосрочного прогноза или оценки текущих результатов).

Глава 4. Надежность

129

позволяет получить информационную, или характеристическую кривую теста (test information curve), зависящую только от включенных в данный тест заданий и дающую оценку ошибки измерения для каждого уровня способности. Более обстоятельно эти методы рассматриваются в главе 7.

Стандартная ошибка измерения (или какая-то другая числовая характеристика точности измерения) предохраняет от придания чрезмерного значения одному-един-ственному числовому показателю. Это применение SEM настолько важно, что все больше публикуемых в настоящее время тестов сопровождается информацией о показателях, но не в виде отдельных чисел, а в форме интервала показателей, внутри которого, вероятно, находится истинный показатель каждого конкретного индивидуума. Совет колледжей приводит данные о SEM и разъясняет, как ими пользоваться, не только в материалах, распространяемых среди консультантов в школах и колледжах, но и в индивидуальных заключениях по результатам SAT, рассылаемых прошедшим тестирование. SEM также включается в инструктивные материалы для того, чтобы учащиеся могли сориентироваться в отношении набранных ими тестовых баллов. Информация о стандартных ошибках измерения обеспечивается и при интерпретации результатов Письменных экзаменов для аспирантов (GRE 1995-1996 guide).

Интерпретация различий в показателях. Особенно важно учитывать надежность теста и ошибки измерения в тех случаях, когда оценивают различия между двумя показателями. Мышление, опирающееся на понятие интервала значений, которые каждый показатель может принимать в зависимости от действия случайных факторов, предостерегает против придания чрезмерного значения небольшим различиям в показателях. Подобную осторожность желательно проявлять как при сравнении показателей теста у разных людей, так и при сравнении показателей различных способностей одного человека. Аналогично этому, изменения показателей вследствие обучения или воздействия других экспериментальных переменных нужно интерпретировать с учетом ошибок измерения.

Часто возникающий по поводу тестовых показателей вопрос касается относительного положения человека в различных областях поведения и деятельности. Действительно ли у Дорис вербальные способности более выражены, чем арифметические? Есть ли основания считать, что Том более способен к работе с техникой, нежели со словом? Если при использовании одной из батарей тестов способностей Дорис получила более высокий показатель по вербальному, чем по числовому субтесту, а Том набрал больше баллов по механическому, чем по вербальному субтесту, то с какой уверенностью можно утверждать, что они могли бы иметь те же показатели при повторном тестировании с другой формой батареи? Иными словами, не могут ли полученные различия в показателях быть всего лишь результатом случайного отбора конкретных заданий в данных субтестах — вербальном, математическом и механическом? Подобные вопросы особенно важны для правильной интерпретации показателей по универсальным тестовым батареям способностей и черт личности (Anastasi, 1985а). Примеры и более подробное обсуждение проблем, которые нужно учитывать при интерпретировании индивидуального профиля показателей по таким батареям, можно найти в главах 8 и 9 (для тестов способностей) и главе 13 (для тестов личности).

В связи с растущим интересом к интерпретации профилей показателей издатели тестов разработали формы бланков, позволяющие давать оценку показателей в единицах их ошибок измерения. Примером может служить форма регистрации индиви-

130

Часть 2. Технические и методологические принципы

Рис. 4—6. Профиль показателей по Дифференциальным тестам способностей, построенный с использованием процентильных интервалов. (По данным из Individual Report, Differential Aptitude Tests, 5th ed. Copyright © 1990 by The Psychological Corporation. Воспроизведено с разрешения)

дуальных показателей для использования с Дифференциальными тестами способностей (DAT), позволяющая представлять информацию в том виде, как показано на рис. 4-6. На этом бланке процентильные показатели по каждому субтесту батареи изображены в виде процентильных интервалов — полосок с фактическим процентиль-ным показателем в центре. Длина каждой такой процентильной полоски соответствует 2 SEM, по 1 SEMb обе стороны от фактического показателя. Следовательно, вероятность того, что «истинный» показатель индивидуума заключен внутри представленного этой полоской интервала, выражается соотношением шансов 2:1 (или 68: 32). При интерпретации профилей пользователям теста рекомендуется не придавать значения различиям между показателями, чьи процентильные интервалы перекрывают друг друга, особенно если перекрытие превышает половину их длины. В профиле, приведенном на рис. 4-6, например, различие между показателями словесного и числового рассуждения, по-видимому, отражает подлинную разницу в уровне способности, чего, вероятно, нельзя сказать о различии в показателях числового и абстрактного рассуждения. Различие же между показателями абстрактного и механического рассуждения попадает в зону неопределенности.

Неплохо запомнить, что стандартная ошибка разности (двух) показателей больше ошибки измерения каждого из них в отдельности. Это вытекает из того, что на величину этой разности влияют случайные ошибки, присутствующие в обоих показателях. Зная стандартные ошибки измерения показателей, стандартную ошибку разности можно вычислить по следующей формуле:1

' Эту формулу не следует путать с формулой для вычисления стандартной ошибки разности выборочных средних, которая включает в качестве члена коэффициент корреляции в тех случаях, когда две сравниваемые переменные являются зависимыми. Ошибки измерения двух переменных — это случайные ошибки и, следовательно, независимы по предположению.

Глава 4. Надежность

131

где SEdiff — стандартная ошибка разности показателей, а ЖМ, и SEM 7 — стандартные ошибки измерения отдельных показателей. Заменяя SEM, и SEM 2 на и

соответственно, можно выразить SEdjff через коэффициенты надежности:

здесь SD — стандартное отклонение, одинаковое для тестов 1 и 2, так как показатели по ним должны быть выражены в единицах одной шкалы, чтобы их можно было сравнивать.

Можно проиллюстрировать применение этой формулы на примере вербального и невербального IQ пересмотренной шкалы интеллекта Векслера для взрослых (WAIS - R). Найденная методом расщепления надежность этих показателей равна соответственно 0,97 и 0,93. Стандартные IQ WIAS - R имеют шкалу со средним М = 100 и SD = 15. По этим данным можно вычислить стандартную ошибку разности между этими двумя показателями:

Чтобы определить максимальную величину разности между показателями, которую можно получить в силу действия чисто случайных факторов, например на уровне значимости 0,05, умножим стандартную ошибку разности 4,95 на 1,96, что даст 9,7, т. е. приблизительно 10 единиц шкалы. Следовательно, различия между вербальным и невербальным IQ WIAS - R у любого тестируемого должны быть не меньше 10 единиц, чтобы их можно было считать значимыми на уровне 0,05.'

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...