Главная | Обратная связь
МегаЛекции

Эмпирическая (критериальная), прогностическая и текущая валидность




Эмпирическая валидность – соответствие показателей тестирования с помощью ПДМ некоторому внешнему критерию, который отражает диагностируемую психическую характеристику. В качестве критерия может использоваться любой показатель, который независимо и бесспорно измеряет ту же характеристику, что и ПДМ. Выделяют следующие типы критериев: экспертный, экспериментальный, «жизненный». Изме­рение критерия, относительно которого устанавливается валидность тестовых пока­зателей, может производиться почти одновременно с ними или же через установлен­ный промежуток времени.

В зависимости от временных отношений между тестом и критерием, а также целей тестирования различают текущую и прогностическую валидности. Прогностическая валидность – соответствие сделанного на основе тестирования прогноза действительности. Термин «прогнозирование» может использоваться как в широком смысле, означая предсказание по данному тесту в отношении любой критериальной ситуа­ции, так и в более узком смысле предсказания в пределах некоторого временного ин­тервала. В последнем смысле он и используется в понятии «прогностическая ва­лидность». Информация, получаемая при прогностической валидизации, особенно важна для тестов, используемых при отборе и распределении персонала. Сюда же можно отнести применение тестов в психиатри­ческой клинике – для назначения курса лечения, наиболее подходящего тем или иным пациентам.

Текущая валидность применима к тестам, используемым для диагноза существующего положения дел, а не для предска­зания будущих результатов. Различие между текущей и прогностической валидностью можно проиллюстрировать, задав два воп­роса: «Является ли Петров достаточно квалифицированным менеджером?» и «Есть ли у Петрова предпосылки к тому, чтобы стать квалифицированным менеджером?» Первый вопрос требует текущей валидизации соответствующего теста, а второй – прогностической валидизации.

Однако в ряде случаев текущая валидность используется просто как заместитель прогности­ческой валидности. На практике, для проведения прогностической валидизации час­то не хватает времени или не удается сформировать предварительную выборку, соот­ветствующую целям тестирования. Поэтому в качестве компромиссного решения те­сты проводятся на группе, для которой уже имеются данные по критерию. Например, тестовые показатели школьников могут сравниваться с их средней успеваемо­стью за период до момента тестирования, а тестовые показатели служащих – с их текущими производственными успехами.

Конвергентная и дискрименантная валидность

Конвергентная валидность свидетельствует о том, что существует соответствие (связь) между родственными по содержанию частями одной ПДМ или между родственными по содержанию методиками. Например, если имеются две или более формы методики, диагностирующей одно и то же психическое качество, то между ними должна быть сильная связь. Такая же связь должна существовать между пунктами одной и той же шкалы.

Дискрименантная валидность свидетельствует об отсутствии соответствия (связи) между отдельными частями методики или между разными методиками, когда по замыслу исходной концепции эта связь не должна существовать. Например, если речь идет о многомерной методике, диагностирующей различные, не связанные друг с другом психические качества, то связь между ними должна быть низкой.

Оценка валидности

1. Содержательная валидность. Для определения этой валидности применяют метод экспертных оценок. В качестве экспертов (достаточно трех-пяти человек) приглашают выступить квалифицированных специалистов, особенно в той области, к которой относится психическое явление, диагностируемое посредством оцениваемой методики.

Экспертам предоставляется спецификация теста (область применения и содержание изучаемого явления), стимульный материал (совокупность тестовых заданий) и способ его оценки.

Опираясь на спецификацию теста, эксперты самостоятельно оценивают каждый пункт методики на соответствие его содержания тому аспекту (операциональному признаку) психического явления, относительно которого оно составлено. Оценка может осуществляться по 5-ти балльной системе оценивания: 5 баллов означает «полностью соответствует», 4 балла – «скорее, соответствует», 3 балла – «неоднозначно/неопределенно», 2 балла – «скорее, не соответствует», 1 балл – «полностью не соответствует».

Далее по каждому пункту методики обрабатываются результаты по совокупности всех экспертов одним из двух возможных способов:

а) рассчитывается среднее значение;

б) определяются частоты выбора (в % выражении) каждой единицы системы оценивания (каждого балла).

Если средняя экспертная оценка составляла 4-5 баллов (первый способ расчета) или 4/5 баллов выбрало 66% и более экспертов (второй способ расчета), то задание признаётся содержательно валидным. Если пункт методики не обладает такой валидностью, то он должен быть переформулирован с последующей оценкой или вовсе исключен из стимульного материала.

Можно привести в качестве примера оценку содержательной валидности шкалы социального мышления в многомерном профессионально-психологическом личностном тесте (см. § 11.1, разд. 3).

В некоторых случаях надо предусмотреть возможность контроля компетентности и добросовестности экспертов. Одним из способов такого контроля является включение в стимульный материал заданий, не соответствующих спецификации к тесту, т.е. диагностирующих какие-то иные качества, не те, для изучения которых разработана данная методика. Если эксперт оценил те или иные контрольные задания как соответствующие природе психического явления, описанной в спецификации, то ему не следует особенно доверять и необходимо исключить его бланк оценок из общей обработки результатов.

Данные о содержательной валидности, приводимые в руководстве к тесту, должны сопровождать описание того метода, который использовался для её оценки. Следует указать количество и профессиональную квалификацию экспертов, а также коэффициент согласованности их мнений.

2. Очевидная валидность. Для оценки этого вида валидности также используется метод экспертных оценок, но в качестве таковых выступают потенциальные испытуемые («люди с улицы»). Количество экспертов должно быть представительным по составу с учетом области применения методики и может варьироваться от 10 до 30 человек.

Оценка каждого пункта может осуществляться на основе 5-балльной системы оценивания по одному или одновременно двум из следующих критериев:

а) соответствие смысловым представлениям людей (задания должны быть понятны людям по смыслу): 5 баллов означает «полностью понятно», 4 балла – «пожалуй, понятно», 3 балла – «неопределенно», 2 балла – «пожалуй, не понятно», 1 балл – «полностью не понятно»;

б) соответствие опыту жизнедеятельности людей: 5 баллов означает «встречается/может встречаться», 4 балла – «пожалуй, встречается/может встречаться», 3 балла – «трудно сказать», 2 балла – «пожалуй, не имеет место», 1 балл – «никогда не имеет место»).

Далее по каждому пункту методики обрабатываются результаты всех экспертов одним из двух возможных способов, которые указаны в описании процедуры оценки содержательной валидности.

Также может использоваться другой подход. А именно: в соответствии с заданной испытуемым в пилотажном исследовании инструкцией, фиксируются их реакции в процессе тестирования и отзывы после его завершения.

Если пункт методики не обладает очевидной валидностью, то он должен быть переформулирован или исключен из стимульного материала.

3. Эмпирическая валидность.Как уже отмечалось, для оценки эмпирической валидности могут использоваться три критерия: экспертный, экспериментальный, «жизненный».

Экспертный критерий предполагает использование экспертных оценок для независимого измерения психических характеристик индивида или группы. В качестве экспертов выступают люди, которые хорошо знают тех или иных испытуемых, на выборке которых осуществляется валидизация. На каждого испытуемого должно приходиться не менее трех экспертов. Например, для валидизации методики изучения учебной мотивации испытуемыми являются школьники, а экспертами – преподаватели и родители.

Для сбора экспертных оценок формируется группа экспертов, разрабатывается схема экспертизы, бланк экспертных оценок и способ обработки результатов.

Бланк экспертных оценок должен содержать набор характеристик (для одномерной методики – не менее трех), которые фиксируют ключевые признаки диагностируемого с помощью методики психического качества на уровне внешнего проявления (поведения). В этом бланке также должна быть указана фамилия подэкспертного (испытуемого) и представлена определенная система оценивания (например, 5-балльная), с помощью которой эксперт определяет меру проявления каждой заданной характеристики у подэкспертного. В качестве примера приведем образец бланка экспертных оценок для 15 шкал из многомерного профессионально-психологического личностного теста.

Обработка результатов проводится в два этапа:

а) в каждом бланке рассчитывается среднее значение по совокупности представленных характеристик (если методика многомерная, то обработка результатов осуществляется по каждому отдельному набору характеристик, относящихся к той или иной шкале);

б) по каждому испытуемому рассчитывается среднее значение оценок, данных его экспертами по совокупности характеристик.

До проведения экспертизы или параллельно с ней проводится обследование испытуемых (подэкспертных) посредством валидизируемой методики.

Процедура оценки валидности заключается в сравнении двух рядов показателей (тестовые баллы и экспертные оценки), полученных на одной и той же выборке. В этом случае используется корреляционный анализ, а полученный коэффициент корреляции будет фактически означать коэффициент валидности. Если он варьирует от +0,7 до +0,9 (на уров­не р<0,01), то эмпирическая валидность по экспертному критерию считается высокой, а если более + 0,9, то – очень высокой.

Однако надо отметить ограничения применения данного критерия:

- нецелесообразно проводить экспертизу тех качеств, которые представлены прежде всего во внутреннем психическом плане (например, доверие) и не имеют очевидных и регулярных внешний проявлений, доступных наблюдению;

- для оценки некоторых качеств, представленных прежде всего во внутреннем плане, трудно подобрать характеристики, в которых отображается внешнее проявление этих качеств;

- высокая доля субъективности экспертов при оценке подэкспертных;

- возможно недостаточное понимание экспертами содержания оцениваемого качества.

Эти ограничения сказываются на невысоких возможностях применения экспертного критерия. Так, специальные исследования показали, что экспертные оценки учителей сами по себе имеют низкую надежность и валидность, а потому немногие педагоги могут выступить в качестве надежных экспертов. Это связано с тем, что их оценки в сильной степени подвержены субъективным искажениям (симпатиям и антипатиям, переноса отношения с успеваемости на личность ученика и др.). Впрочем, такой субъективизм характерен и для других категорий потенциальных экспертов.

В качестве экспериментального критерия часто используют тестовые показатели по аналогичным методикам, т.е. тем, которые направлены на изучение тех же психических качеств, что и оцениваемые методики. В этом случае последовательно (в один день или с интервалом в один-три дня) проводится исследование посредством двух методик на одной и той же выборке испытуемых. Затем рассчитывается коэффициент корреляции между двумя рядами тестовых показателей: по оцениваемой и аналогичной методике. Полученный коэффициент корреляции будет фактически служить коэффициентом эмпирической валидности по данному критерию. Если коэффициент корреляции составляет от +0,7 до +0,9 (на уров­не р<0,01), то эмпирическая валидность считается высокой, а если более + 0,9, то – очень высокой.

Другой способ заключается в том, что создается экспериментальная ситуация или используются естественные условия, которые:

а) позволяют актуализировать и регистрировать интересующее разработчика качество;

б) могут воздействовать (влиять) на психическое качество, диагностируемое с помощью оцениваемой методики (такой способ используется для валидизации методик, направленных на изучение некоторых психических состояний).

В первом случае эмпирическая валидность определяется посредством определения связи между двумя рядами показателей, полученных на идентичной выборке испытуемых: тестовые баллы по оцениваемой методике и количественно выраженные проявления данного качества в экспериментальной ситуации. Коэффициент корреляции выступает коэффициентом эмпирической валидности по экспериментальному критерию, а мера валидности определяется таким же образом, как и в ситуации с «жизненным» критерием.

Во втором случае валидизация производится на основе обследования с помощью оцениваемой методики одной и той же выборки испытуемых дважды: до и после ситуации воздействия. В итоге получаются два ряда показателей, которые подвергаются корреляционному анализу. Если коэффициент корреляции оказывается менее 0,5, то эмпирическая валидность по данному критерию считается высокой.

Например, при разработке методики диагностики реактивной и личностной тревожности А.С. Горбатенко оценивал субшкалу реактивной тревожности путем сравнения результатов, полученных у одних и тех же испытуемых (студентов) в спокойной обстановке и перед важным экзаменом. Было достоверно установлено, что в предэкзаменационной ситуации результаты тестирования с помощью шкалы реактивной тревожности были выше, чем в обычной обстановке. Валидность субшкалы личностной тревожности оценивалась путем расчета коэффициентов корреляции результатов тестирования с результатами, полученными с помощью шкал тревожности Цуккермана, Кэттелла, Шайера, Тэйлора. Были получены коэффициенты корреляции в пределах от 0,52 до 0,81, свидетельствующие о валидности этой субшкалы.

Третий способ связан с методом контрастных групп, в котором используется критерий, отражающий накапливающиеся и неконтролируемые влияния повседневной жизни. Этот критерий, в конечном счете, осно­ван на сохранении принадлежности индивида по определенному признаку к конкретной группе. Контрастные группы могут комплектоваться по любому кри­терию, такому как школьные оценки, рейтинги или выполнение нормы выработки, путем простого выбора крайних участков распределения соответствующих критери­альных мер. Например, валидность теста музыкальных способностей может проверяться сравнением показателей учащихся, зачис­ленных в музыкальную школу, с показателями тех, кто не выдержал требований этих учебных заведений. При установлении валидности теста, предназначенного для изучения коммуникативных качеств, можно сравнить результаты тестирования представителей коммуникативных профессий (управленческие и торговые работники), с одной стороны, с результатами тестирования конторских служащих и инженеров – с другой. Такое сравнение основывается на предположении, что те, кто выбрал коммуникативные про­фессии и продолжает там работать, отличаются по качествам коммуникабельности от тех, кто предпочитает конторскую работу или инженерное дело. Для определения валидности шкал аттитюдов иногда использовались группы, сформированные по политическому, рели­гиозному, географическому и иным признакам, в отношении которых извест­но, что они отражают противоположные точки зрения по определенным вопросам.

«Жизненный» критерий служит адекватным средством оценивания тестов достиже­ний. Он применим и к некоторым тестам, предназначенным для отбора и распределения профессиональных кадров. В то же время для тестов личности этот критерий часто не подходит, так как они не имеют того внутрен­него сходства с выборочно оцениваемыми ими областями поведения, какое присуще тестам достижений.

Для валидизации тестов интеллекта и достижений чаще всего используется тот или иной показатель учебных достижений.Вот почему такие тесты иногда более точно характеризовали как средства измерения способности к обучению. В качестве конкретных показателей, используемых в роли меры критерия, выступают школьные оценки, особые отличия и поощрения, а также интеллектуальные рейтинги учащихся, составляемые педагогами.

При разработке тестов специальных способностей в основу критерия валидизации часто кладут результативность специальной подготовки. Например, валидность тестов механических способностей может устанавли­ваться относительно конечных результатов производственного обучения. Различные курсы переподготовки обеспечивают крите­рии для тестов способностей в этих областях деятельности. Аналогично этому, ре­зультаты обучения в музыкальных или художественных учебных учреждениях использо­вались при валидизации тестов музыкальных и изобразительных способностей. Для ряда тестов профессиональных способностей валидизация проводится относительно успешности обучения на юридическом, экономическом и других факультетах университета.

Валидность ком­плексных батарей способностей часто устанавливалась относительно оценок по спе­циальным предметам, проходимым в школе, техникуме или университете. Например, показатели по тесту вербального понимания могут сравниваться с оценками по курсам родного язы­ка, показатели по тесту пространственных представлений – с оценками по геометрии, и т. д.

Однако более предпочтительны критерии, связанные с по­следующим выполнением реальной деятельности. В связи с этим следует различать промежуточные и конечные критерии. При разработке теста, например, для отбора курсантов военных летных институтов конечным критерием было бы выполнение боевых заданий лет­чиком. Однако в реальной деятельности трудно получить действительно конечный критерий. Даже если будет найден такой крите­рий, то он с высокой вероятностью будет подвергаться действию множества неконтролируемых факторов, что сделает его относительно бесполез­ным. Более того, поскольку в этом случае требуется более длительный контроль за работающими, использование критерия выполнения реальной деятельно­сти влечет за собой сокращение выборки валидизации. По этим причи­нам в качестве критериальных мер часто используются такие промежуточные крите­рии, как данные о результативности обучения на той или иной стадии.

Основным и достаточно простым способом определения эмпирической валидности по жизненному критерию является: а) проведение обследования с помощью оцениваемой методики на определенной выборке испытуемых (например, N=100); б) объективированная фиксация (в количественном выражении) уровня проявления наблюдаемого в реальной жизни качества на той же самой выборке.

В этом случае коэффициент валидности равен корреляции между рядом тестовых показателей и рядом наблюдаемых показателей. Если коэффициент корреляции между двумя рядами составляет от +0,7 до +0,9 (на уров­не р<0,01), то эмпирическая валидность по данному жизненному критерию считается высокой, а если более + 0,9, то – очень высокой.

В описании процедуры и результатов оценки методики следует указы­вать, какой использовался жизненный критерий и способ его регистрации, а также давать обоснование их выбора.

4. Дискрименантную валидностьцелесообразно определять прежде всего относительно многомерных тестов. В этом случае процедура валидизации заключается в сравнении тестовых показателей, полученных по разным шкалам одной и той же методики. Для этого используется корреляционный анализ, а полученный коэффициент корреляции будет фактически означать коэффициент валидности.

Если мы с самого начала предполагаем, что разные качества имеют совершенно различную природу, то показателем высокой дискрименантной валидности будет коэффициент корреляции в пределах от -0,2 до +0,2. Чем сильнее значение приближается к 0, тем выше валидность. Если же мы рассматриваем некоторые качества как относительно автономные и предполагаем умеренную связь между ними, то приемлемая дискриминантная валидность будет иметь место, если значения коэффициентов корреляции варьируются от 0,2 до 0,5. В качестве примера можно привести показатели валидизациимногомерного профессионального психологического личностного теста.

 

 





©2015- 2017 megalektsii.ru Права всех материалов защищены законодательством РФ.