Проблемы исследования валидности тестов
Процесс проверки валидности теста может быть длительным, и в результате получается одно число — коэффициент корреляции. Это число может быть основой для принятия важных решений, и индустриально-организационные психологи должны постоянно проявлять внимание к проблемам, из-за которых в исследовании валидности могут появиться ошибки. Здесь обсуждаются две такие проблемы — ошибки при формировании выборки и дифференциальная валидность. Важно также найти способы повышения эффективности исследований валидности. Один из возможных путей — это генерализация валидности. Ошибки при формировании выборки
В этой главе мы постоянно возвращались к мысли о том, что все измерения содержат ошибку. Одним из постоянных источников ошибок являются испытуемые, за которыми проводятся наблюдения. Существует много причин, по которым испытуемые, участвующие в эксперименте (в том числе проходящие тестирование при исследовании надежности или валидности), могут отличаться по какому-нибудь важному аспекту от других испытуемых, которые тоже могли бы стать объектом наблюдения. Если эти различия играют решающую роль, то в исследование вносится ошибка формирования выборки. При этом снижается степень репрезентативности выборки для релевантной популяции. Возможность генерализации. Влияние ошибки формирования выборки сводится к снижению возможности генерализации выводов из наблюдений, проведенных за членами выборки, на других людей, не входящих в эту выборку. Предположим, например, что по какой-то причине индустриально-организационный психолог может провести экспериментальный отборочный тест при приеме на работу только с теми претендентами, которые приходят в отдел кадров компании в период с пятнадцати до семнадцати часов. В таком случае любая оценка критериальной валидности теста будет, по-видимому, основана на нерепрезентативной выборке.
Точная природа этой необъективности неясна, но описанная выборка почти наверняка будет содержать непропорционально большое количество людей, которые поздно встают по утрам, а также претендентов, которые начали искать работу с утра и уже обращались в другие компании (и возможно, проходили там тестирование). Претенденты, которые начали поиск работы рано, наверное, будут усталыми, а возможно, и разочарованными. Те, кто встал с постели около полудня, может быть, на самом деле и не очень заинтересованы в том, чтобы получить работу. В любом случае исследователь получит выборку результатов теста, отличающуюся от выборки, которая получилась бы при тестировании испытуемых в течение всего дня. Поэтому непонятно, можно ли «пользовать критериальный коэффициент валидности, который будет получен с использованием этих испытуемых, для всей популяции «претендентов на место в этой компании». В этом примере описана очевидная ошибка формирования выборки, которой легко можно избежать, но реальная практика проведения исследований говорит о том, по какая-нибудь ошибка, допущенная при формировании выборки, обычно приводит к необъективным выводам. Это одна из причин того, что в научном методе придается столь большое значение верификации. В исследованиях валидности для верификации необходимо проверить первые оценки валидности с помощью другой выборки — то есть провести репликацию исследования. Если нет оснований подозревать, то вся выборка составлена некорректно (как в приведенном примере), то репликацию часто проводят с использованием какой-то части всех имеющихся испытуемых. Эта «выборка из выборки» называется резервной выборкой (hold-out sample); она составляется как случайная из первоначальной выборки испытуемых. Сначала тестируют остальных испытуемых из исследуемой выборки, а репликацию результатов проводят с помощью резервной выборки.
Научный метод. Метод резервной выборки позволяет экономить время. Если время не имеет большого значения или возникает какая-либо проблема с первоначальной выборкой, можно осуществить репликацию исследования путем повторного проведения того же исследования в другое время и с другой выборкой испытуемых. Независимо от способа ее проведения, одна репликация считается абсолютно необходимым минимумом, если тест собираются использовать в прикладных целях. Если тест используется в течение сколько-нибудь длительного периода, то необходимо время от времени проводить его переоценку. Изменяются характер работы, стандарты и характеристики работников, обращающихся в данную организацию. Верификация. Дифференциальная валидность
Доказательство критериальной валидности проводится с целью установления связи между предсказывающей переменной и одной или несколькими переменными-критериями. Интересная глава была вписана в историю тестирования, осуществляемого при приеме на работу, когда возникли подозрения, что на эту связь может влиять еще один член семейства переменных — опосредующая переменная. Опосредующие переменные, которые могут оказывать предсказуемое влияние на характер связи между двумя другими переменными, привлекли к себе всеобщее внимание, когда тестирование при приеме на работу впервые попало под огонь критики по подозрению в том, что оно способствует сохранению в организациях расовой предвзятости. Этот вопрос возник тогда, когда выяснилось, что непропорционально большая доля представителей расовых меньшинств получает отказ в приеме на работу, даже если для отбора используются тесты, в которых продемонстрирована критериальная валидность. Создавалось впечатление, будто связь между основными результатами теста и критерием выполнения работы, которая была установлена с помощью исследования валидности, зависит от расы. Опосредующая переменная. На рис. 3.7 представлена простая иллюстрация того факта, что при отборочном тестировании раса может выступать в роли опосредующей переменной. На графике А представлены результаты гипотетического исследования критериальной валидности, в котором использовалась выборка, состоявшая как из белых, так и из испытуемых с другим цветом кожи. Паттерн этих данных, которые более или менее хорошо ложатся на прямую линию, идущую из левого нижнего угла графика в правый верхний, указывает на наличие умеренной, но приемлемой положительной корреляции. Фактические вычисления, вероятно, дали бы коэффициент критериальной валидности, Достаточный для того, чтобы отбор был полезным.
Рис. 3.7. Концепция дифференциальной валидности
График В — это точечный график, построенный по данным только для белых испытуемых, а график С — по данным для остальных испытуемых. Обратите внимание на то, что положительная корреляция, заметная на графике А, сохраняется и даже белый кружок — белые, черный кружок — остальные осиливается на графике В, но исчезает на графике С. Такая картина отражает смысл концепции дифференциальной валидности: степень критериальной валидности существенно различна для разных подгрупп испытуемых. Она приемлема для белых, но близка к нулю для испытуемых с другим цветом кожи; раса опосредует связь между результатами теста и выполнением работы. Графики, изображенные на рис. 3.7, типичны для того, что обнаружили в своих данных индустриально-организационные психологи, когда начали анализировать их на дифференциальную валидность. Влияние этих открытий на равные возможности трудоустройства привело к бурной, но кратковременной революции в индустриально-организационных психологических исследованиях, посвященных тестированию. Исследования опосредующих переменных (которые часто называют анализом подгрупп - subgroup analysis) стали частью любой программы тестирования. Были тщательно изучены другие возможные опосредующие переменные, такие как пол, уровень образования, принадлежность к социальному классу и различные личностные черты. Как часто случается в прикладной психологии, первоначально повышенный интерес к опосредующим переменным сменился более трезвым анализом результатов этих исследований. Анализ показал, что причины появления дифференциальной валидности по большей тети случайны или связаны со статистическими проблемами. В настоящее время у представителей основного направления индустриально-организационной психологии сложилось общее мнение, что в области тестирования при приеме на работу дифференциальная валидность не является главным поводом для тревоги.
По-видимому, всегда будут возникать ситуации, когда прогнозы, сделанные с помощью какого-либо теста, для одной широкой группы испытуемых менее точны, чем для другой группы. Однако в большинстве случаев главным вопросом, как и всегда, остается простое старое доказательство критериальной валидности. Тем не менее многих продолжает волновать тема различий между результатами тестирования белых испытуемых и испытуемых с другим цветом кожи, и то, как эти результаты используется. Более подробное обсуждение этой темы можно найти в рубрике «Внимание — проблема». Генерализация валидности
В самом широком смысле под генерализацией валидности подразумевают возможность распространения выводов, сделанных из эмпирического исследования валидности, на другие выборки и условия. Такая генерализация необходима в большинстве случаев использования тестов в прикладных целях; условия тестирования редко бывают идентичны тем, при которых были собраны исходные данные о валидности. Однако в литературе по индустриально-организационной психологии этот термин все чаще используется в более узком смысле. Говоря конкретнее, генерализацией валидности (Validity generalization, VG) называют распространение или перенос критериальных доказательств валидности теста, продемонстрированных для одного вида работы, на другие виды работ без проведения отдельных исследований валидности. Комиссия по соблюдению равных прав на труд (Equal Employment Opportunity Commission) считает законной генерализацию критериальных доказательств валидности, полученных для конкретной должности, применительно к другим должностям при условии возможности продемонстрировать, что работа в других должностях требует «в основном одних и тех же видов производственного поведения» (ЕЕОС, 1978, Раздел 7В). Демонстрация начинается с анализа работы — то есть с процесса деления работы на поведенческие компоненты с целью выяснения фактического характера деятельности людей, выполняющих эту работу.
Часто в результате такого анализа выясняется, что работа на должностях с совершенно разными названиями, таких как должности банковского кассира и служащего бюро обслуживания, на самом деле требует от выполняющих ее людей примерно одинаковых видов поведения на производстве. Тест, валидность которого была доказана для отбора сотрудников на одну должность, можно законно использовать для отбора сотрудников на другую должность — но будет ли он эффективен в таком случае? Можно ли эффективно прогнозировать успешность работы человека в качестве продавца, выписывающего счета в отделе запасных частей большой авторемонтной мастерской, с помощью того же теста, который использовался для прогнозирования успешности работы продавца, выписывающего счета в спокойной обстановке дорогого универмага? Виды производственного поведения очень похожи, но условия работы сильно отличаются. Предположение о том, что контекст, в котором выполняется работа (ситуация), настолько важен, что он влияет на возможность прогнозирования успешности работы, называют гипотезой о ситуационной специфичности. При таком подходе получается, что продавец в отделе запчастей и продавец в универмаге выполняют похожую, но все-таки разную работу. С практической точки зрения это означает, что для каждой Должности, для которой тест может быть использован в качестве основы для прогнозов, следует проводить отдельное исследование валидности, даже если анализ работы показывает, что в должностные обязанности входят очень похожие задачи. Большинство индустриально-организационных психологов в течение многих лет разделяли гипотезу о ситуационной специфичности, и казалось, что имеется множество фактов, ее подтверждающих. Когда одни и те же тесты использовались для прогнозирования выполнения одной и той же или похожих видов работы в различных компаниях (или даже в различных подразделениях одной и той же компании), полученные коэффициенты валидности изменялись в широком диапазоне. Казался неизбежным вывод о том, что условия работы действуют как опосредующая переменная, оказывая влияние на связь между предсказывающей переменной и критерием. Например, по оценке Брауна (Brown, 1981), при прогнозировании выполнения работы тентами по страхованию жизни более трети различий объясняется влиянием различий в условиях их работы.
Для переноса валидности теста, предназначенного для отбора при приеме на работу, с одной рабочей ситуации на другую необходимо продемонстрировать, что обе эти работы требуют «в основном одних и тех же видов производственного поведения».
С начала семидесятых годов некоторые исследователи начали внимательнее изучать гипотезу о ситуационной специфичности. С помощью новой методики метаанализа они исследовали такой вопрос: не возникают ли кажущиеся значимыми различия в коэффициентах валидности, полученных для различных ситуаций, на самом деле просто за счет методов и процедур, использованных при сборе и анализе данных? Другими словами, эти различия могут быть «статистическим артефактом», а не истинным явлением. В одном из первых исследований Перлмэн, Шмидт и Хантер (Pearlman, Schmidt & Hunter, 1980) провели повторный анализ данных около 700 исследований валидности прогнозов для должностей канцелярских работников и пришли к выводу, что истинные коэффициенты валидности, полученные в различных исследованиях и в различных ситуациях, как правило, сохраняли постоянство. Метаанализ. Тесты, исследованные в первых работах, посвященных генерализации валидности, были тестами когнитивных (умственных) способностей. Менее чем через десять лет после публикации первого отчета о таких исследованиях вывод о том, что возможна генерализация валидности таких тестов в ситуациях приема на работу, получил всеобщее признание (например, Anastasi, 1988; Society for Industrial and Organizational Psychology, 1987). Это важный элемент общих знаний, накопленных об отборочном тестировании, и хорошая новость для организаций, которые используют или могли бы использовать тесты когнитивных способностей для отбора сотрудников. Успех исследований генерализации валидности в настоящее время стимулировал много дополнительных исследований, дискуссий и разногласий, касающихся многих смежных измерений, теоретических и практических проблем. Здесь мы не будем их касаться, а только напомним, что научное исследование — это постоянно продолжающийся процесс. Возможность переноса критериальных доказательств валидности теста когнитивных способностей на другие ситуации означает, что коэффициенты валидности вообще могут быть более устойчивыми, чем предполагалось ранее. Тем не менее остается много нерешенных вопросов, и было бы преждевременным полностью отказаться от гипотезы о ситуационной специфичности (James, DeNaree, Mulaik & Ladd, 1992; Lance, Stennett & Mayfield, 1992).
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|