Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство.
Тест невалиден (и ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных. Каким же образом определяется валидность? Все многочисленные способы доказательства валидности теста называются разными ее видами. 1. Очевидная валидность. Тест считается валидным, если у испытуемого складывается впечатление, что он измеряет то, что должен измерять. 2. Конкретная валидность, или конвергентная—дивергентная валидность. Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряющими заведомо иные свойства. 3. Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями: измерение интеллекта в детстве должно предсказывать будущие профессиональные успехи. 4. Содержательная валидность. Применяется для тестов достижений: тест должен охватывать всю область изучаемого поведения. 5. Конструктная валидность. Предполагает: а) полное описание измеряемой переменной; б) выдвижение системы гипотез о связях ее с другими переменными; в) эмпирическое подтверждение (неопровержение) этих гипотез. С теоретической точки зрения, единственным способом установления «внутренней» валидности теста и отдельных заданий является метод факторного анализа (и аналогичные), позволяющий: а) выявлять латентные свойства и вычислять значение «факторных нагрузок» — коэффициенты детерминации свойств тех или иных поведенческих признаков; б) определять меру влияния каждого латентного свойства на результаты тестирования. К сожалению, в классической теории теста не выявлены причинные связи факторных нагрузок и надежности теста.
Дискриминативность задания является еще одним параметром, внутренне присущим тесту. Тест должен хорошо «различать» испытуемых с разными уровнями выраженности свойства. Считается, что больше 9-10 градаций использовать не стоит. Тестовые нормы, полученные в ходе стандартизации, представляют собой систему шкал с характеристиками распределения тестового балла для различных выборок. Они не являются «внутренним» свойством теста, а лишь облегчают его практическое применение.
Вопросы планирования эксперимента. Планирование экспериментального исследования является центральным этапом всей процедуры. В первую очередь речь идет о выделении внешних переменных, которые могут влиять на зависимую переменную. Планирование необходимо для обеспечения внешней и внутренней валидности эксперимента. Специалисты рекомендуют многочисленные техники контроля внешних переменных. Экспериментальные планы Планы для одной независимой переменной План «истинного» экспериментального исследования отличается от других следующими важнейшими признаками: 1) применением одной из стратегий создания эквивалентных групп, чаще всего — рандомизации; 2) наличием экспериментальной и, как минимум, одной контрольной группы; 3) завершением эксперимента тестированием и сравнением поведения группы, получившей экспериментальное воздействие (X1), с группой, не получившей воздействия Х0. Классическим вариантом плана является план для 2 независимых групп. В психологии планирование эксперимента начинает применяться с первых десятилетий XX в. Существуют три основные версии этого плана. При их описании будем пользоваться символизацией, предложенной Кэмпбеллом. Таблица 5. 1
Здесь R— рандомизация, Х— воздействие, О1 — тестирование первой группы, О2 — тестирование второй группы. 1) План для двух рандомизированных групп с тестированием после воздействия. Его автор — известный биолог и статистик Р. А. Фишер [Fisher R. A., 1935]. Структура плана показана в табл. 5. 1. Равенство экспериментальной и контрольной групп является совершенно необходимым условием применения этого плана. Чаще всего для достижения эквивалентности групп применяют процедуру рандомизации. Этот план рекомендуют использовать в том случае, когда нет возможности или необходимости проводить предварительное тестирование испытуемых. Если рандомизация проведена качественно, то этот план является наилучшим, позволяет контролировать большинство источников артефактов; кроме того, для него применимы различные варианты дисперсионного анализа. После проведения рандомизации или иной процедуры уравнивания групп осуществляется экспериментальное воздействие. В простейшем варианте используется лишь две градации независимой переменной: есть воздействие, нет воздействия. Если необходимо использовать не 1 уровень воздействия, то применяются планы с несколькими экспериментальными группами (по числу уровней воздействия) и одной контрольной. Если же нужно контролировать влияние одной из дополнительных переменных, то применяют план с 2 контрольными группами и 1-й экспериментальной. Измерение поведения дает материал для сравнения 2 групп. Обработка данных сводится к применению традиционных для математической статистики оценок. Рассмотрим случай, когда измерение проводится интервальной шкалой. Для оценки различия в средних показателях групп используют t-критерий Стьюдента. Оценивание различий в вариации измеряемого параметра между экспериментальной и контрольной группами проводится с помощью критерия F. Соответствующие процедуры подробно рассмотрены в учебниках математической статистики для психологов. Применение плана для 2 рандомизированных групп с тестированием после воздействия позволяет контролировать основные источники внутренней невалидности (как их определяет Кэмпбелл). Поскольку предварительное тестирование отсутствует, исключен эффект взаимодействия процедуры тестирования и содержания экспериментального воздействия и сам эффект тестирования. План позволяет контролировать влияние состава групп, стихийного выбывания, влияние фона и естественного развития, взаимодействие состава группы с другими факторами, позволяет также исключить эффект регрессии за счет рандомизации и сравнения данных экспериментальной и контрольной групп. Однако при проведении большинства педагогических и социально-психологических экспериментов необходимо жестко контролировать исходный уровень зависимой переменной, будь то интеллект, тревожность, знания или статус личности в группе. Рандомизация — лучшая процедура из возможных, но она не дает абсолютной гарантии правильности выбора. Когда существуют сомнения в результатах рандомизации, применяют план с предварительным тестированием.
Таблица 5. 2
2) План для двух рандомизированных групп с предварительным и итоговым тестированием. (табл. 5. 2). План с предварительным тестированием пользуется популярностью у психологов. Биологи больше доверяют процедуре рандомизации. Психолог прекрасно знает, что каждый человек своеобразен и отличен от других, и подсознательно стремится уловить эти различия с помощью тестов, не доверяя механической процедуре рандомизации. Однако гипотеза большинства психологических исследований, особенно в области психологии развития («формирующий эксперимент»), содержит прогноз определенного изменения свойства индивида под влиянием внешнего фактора. Поэтому план «тест—воздействие—ретест» с применением рандомизации и контрольной группой очень распространен. При отсутствии процедуры уравнивания групп этот план преобразуется в квазиэкспериментальный (он будет рассмотрен в разделе 5. 2). Главный источник артефактов, нарушающий внешнюю валидность процедуры, — взаимодействие тестирования с экспериментальным воздействием. Например, тестирование уровня знаний по определенному предмету перед проведением эксперимента по заучиванию материала может привести к актуализации исходных знаний и к общему повышению продуктивности запоминания. Достигается это за счет актуализации мнемонических способностей и создания установки на запоминание.
Однако с помощью этого плана можно контролировать другие внешние переменные. Контролируется фактор «истории» («фона»), так как в промежутке между первым и вторым тестированием обе группы подвергаются одинаковым («фоновым») воздействиям. Вместе с тем Кэмпбелл отмечает необходимость контроля «внутригрупповых событий», а также эффекта неодновременности тестирования в обеих группах. В реальности невозможно добиться, чтобы тест и ретест проводились в них одновременно. План превращается в квазиэкспериментальный, например: R О1 Х О2 R О3 О4 Обычно контроль неодновременности тестирования осуществляют два экспериментатора, проводящие тестирование двух групп одновременно. Оптимальной считается процедура рандомизации порядка тестирования: тестирование членов экспериментальной и контрольной групп производится в случайном порядке. То же самое делается и с предъявлением — не предъявлением экспериментального воздействия. Разумеется, такая процедура требует наличия значительного числа испытуемых в экспериментальной и контрольной выборках (не менее 30-35 человек в каждой). Естественное развитие и эффект тестирования контролируются за счет того, что они одинаково проявляются в экспериментальной и контрольной группах, а эффекты состава групп и регрессии [Кэмпбелл, 1980] контролируются при помощи процедуры рандомизации. Результаты применения плана «тест—воздействие—ретест» представлены в таблице. При обработке данных обычно используются параметрические критерии t и F (для данных в интервальной шкале). Вычисляются три значения t: сравнение 1) О1 и О2; 2) О3 и О4; 3) О2 и О4. Гипотезу о значимом влиянии независимой переменной на зависимую можно принять в том случае, если выполняются два условия: а) различия между О1 и О2 значимы, а между О3 и О4 — незначимы и б) различия между О2 и О4 значимы. Гораздо удобнее сравнивать не абсолютные значения, а величины прироста показателей от первого тестирования ко второму (δ (i)). Вычисляются δ (i12) и δ (i34) и сравниваются по t-критерию Стьюдента. В случае значимости различий принимается экспериментальная гипотеза о влиянии независимой переменной на зависимую (табл. 5. 3). Рекомендуется также применять ковариационный анализ по Фишеру. При этом показатели предварительного тестирования берутся в качестве дополнительной переменной, а испытуемые разбиваются на подгруппы в зависимости от показателей предварительного тестирования. Тем самым получается следующая таблица для обработки данных по методу MANOVA (табл. 5. 4).
Применение плана «тест—воздействие—ретест» позволяет контролировать влияние «побочных» переменных, нарушающих внутреннюю валидность эксперимента. Внешняя валидность связана с возможностью переноса данных на реальную ситуацию. Главным же моментом, отличающим экспериментальную ситуацию от реальной, является введение предварительного тестирования. Как мы уже отметили, план «тест—воздействие—ретест» не позволяет контролировать эффект взаимодействия тестирования и экспериментального воздействия: предварительно тестируемый испытуемый «сенсибилизируется» — становится более чувствительным к воздействию, так как мы измеряем в эксперименте именно ту зависимую переменную, на которую собираемся воздействовать с помощью варьирования независимой переменной. Таблица 5. 5
Для контроля внешней валидности используется план Р. Л. Соломона, который был предложен им в 1949 г. 3) План Соломона используется при проведении эксперимента на четырех группах: 1. Эксперимент1: RО1 Х О2 2. Контроль 1: R О3 О4 3. Эксперимент 2: R X О5 4. Контроль 2: R О6 План включает исследование двух экспериментальных и двух контрольных групп и по сути является мультигрупповым (типа 2 х 2), но для удобства изложения он рассматривается в этом разделе. План Соломона представляет собой объединение двух ранее рассмотренных планов: первого, когда не производится предварительное тестирование, и второго — «тест—воздействие—ретест». С помощью «первой части» плана можно контролировать эффект взаимодействия первого тестирования и экспериментального воздействия. Соломон с помощью своего плана выявляет эффект экспериментального воздействия четырьмя разными способами: при сравнении 1) О2 — О1; 2) О2 — О4; 3) О5 — О6 и 4) О5 — О3. Если провести сравнение О6 с О1 и О3, то можно выявить совместное влияние эффектов естественного развития и «истории» (фоновых воздействий) на зависимую переменную. Кэмпбелл, критикуя предложенные Соломоном схемы обработки данных, предлагает не обращать внимания на предварительное тестирование и свести данные к схеме 2 х 2, пригодной для применения дисперсионного анализа (табл. 5. 5). Сравнение средних по столбцам позволяет выявлять эффект экспериментального воздействия — влияние независимой переменной на зависимую. Средние по строкам показывают эффект предварительного тестирования. Сравнение средних по ячейкам характеризует взаимодействие эффекта тестирования и экспериментального воздействия, что свидетельствует о мере нарушения внешней валидности. В том случае, когда эффектами предварительного тестирования и взаимодействия можно пренебречь, переходят к сопоставлению О4 и О2 методом ковариационного анализа. В качестве дополнительной переменной берутся данные предварительного тестирования по схеме, приведенной для плана «тест—воздействие—ретест». Наконец, в некоторых случаях необходимо проверить сохранение во времени эффекта воздействия независимой переменной на зависимую: например, выяснить, приводит ли новый метод обучения к долгосрочному запоминанию материала Для этих целей применяют следующий план: 1 Эксперимент 1 R О1 Х О2 2 Контроль 1 R О3 О4 3 Эксперимент 2 R О5 Х О6 4 Контроль 2 R О7 О8 Планы для одной независимой переменной и нескольких групп Иногда сравнения двух групп недостаточно для подтверждения или опровержения экспериментальной гипотезы. Такая проблема возникает в двух случаях: а) при необходимости контроля внешних переменных; б) при необходимости выявления количественных зависимостей между двумя переменными. Для контроля внешних переменных используются различные варианты факторного экспериментального плана. Что касается выявления количественной зависимости между двумя переменными, то необходимость ее установления возникает при проверке «точной» экспериментальной гипотезы. В эксперименте с участием двух групп в лучшем случае можно установить факт причинной связи между независимой и зависимой переменными. Но между двумя точками можно провести бесконечное множество кривых. Для того чтобы убедиться в наличии линейной зависимости между двумя переменными, следует иметь хотя бы три точки, соответствующие трем уровням независимой переменной. Следовательно, экспериментатор должен выделить несколько рандомизированных групп и поставить их в различные экспериментальные условия. Простейшим вариантом является план для трех групп и трех уровней независимой переменной: Эксперимент 1: R Х1 О1 Эксперимент 2: R Х2 О2 Контроль: R О3 Контрольная группа в данном случае — это третья экспериментальная группа, для которой уровень переменной Х = 0. При реализации этого плана каждой группе предъявляется лишь один уровень независимой переменной. Возможно и увеличение числа экспериментальных групп соответственно числу уровней независимой переменной. Для обработки данных, полученных с помощью такого плана, применяются те же статистические методы, что были перечислены выше. Простые «системные экспериментальные планы», как ни удивительно, очень редко используются в современных экспериментальных исследованиях. Может быть, исследователи «стесняются» выдвигать простые гипотезы, помня о «сложности и многомерности» психической реальности? Тяготение к использованию планов с многими независимыми переменными, более того — к проведению многомерных экспериментов, не обязательно способствует лучшему объяснению причин человеческого поведения. Как известно, «умный поражает глубиной идеи, а дурак — размахом строительства». Лучше предпочесть простое объяснение любому сложному, хотя регрессионные уравнения, где все всему равняется, и запутанные корреляционные графы могут произвести впечатление на некоторые диссертационные советы. Доэкспериментальные и квазиэкспериментальные планы Между доэкспериментальными и квазиэкспериментальными планами есть одно существенное различие. Доэкспериментальные планы являются рудиментами вчерашнего дня психологической науки. Между тем как квазиэкспериментальное планирование — атрибут ее сегодняшнего и, по мнению многих исследователей, завтрашнего дня. Доэкспериментальные планы, точнее — исследования, которые проводились и проводятся до сих пор по определенным схемам, не учитывают требований, предъявляемых к плану классического экспериментального исследования. Причина — незнание этих требований или невозможность их учета при проведении реального исследования в конкретных условиях. Исследования по схеме доэкспериментальных планов проводились еще до возникновения теории планирования эксперимента. Квазиэкспериментальные планы являются попыткой учета реалий жизни при проведении эмпирических исследований. Условия, в которые ставит жизнь, а также практические задачи экспериментаторов не всегда позволяют реализовать планы «истинных экспериментов», использовать схемы контроля внешних переменных. Однако научные и научно-прикладные задачи нужно решать. Квазиэкспериментальные планы создаются специально с отступлением от схемы «истинного эксперимента». Исследователь осознает те источники артефактов — внешние переменные, которые он не может контролировать. Для частичной компенсации и контроля эффектов, возникающих при нарушении планов «истинных экспериментов», исследователи используют искусственные схемы, которые и называются квазиэкспериментальными планами. Квазиэксперимент является своеобразным компромиссом между реальностью и «строгостью» методологических предписаний. Однако квазиэксперимент используется не только для решения прикладных проблем, но и для проведения научных исследований. Наиболее авторитетные авторы, чьи работы стали классическими, Кокс [Сох D. R., 1958] и Кэмпбелл (1979), сформулировали основные теоретические принципы квазиэкспериментального планирования. Квазиэкспериментальный план используется тогда, когда применение лучшего плана невозможно. Доэкспериментальные планы служат, скорее, в качестве иллюстрации. В практике научных исследований их следует избегать. Доэкспериментальные планы Кэмпбелл выделяет три вида доэкспериментальных планов. Два из них другой авторитетный автор, МакГиган, относит к квазиэкспериментальным. Мы будем придерживаться взглядов Кэмпбелла; его книга переведена на русский язык и вышла вторым изданием, учебник же МакГигана, к сожалению, широкому кругу читателей недоступен. К доэкспериментальным планам относятся: а) исследование единичного случая; б) план с предварительным и итоговым тестированием одной группы в) сравнение статистических групп. Исследование единичного случая относится к области прошлого. Однократно тестируется одна группа, подвергнутая воздействию по плану: Х О. Контроль внешних переменных и независимой переменной полностью отсутствует. В таком «исследовании» нет никакого материала для сравнения. А ведь с него обычно начинается любая научная работа. Такого рода исследования, как правило, проводятся на первых этапах научной деятельности для сопоставления их результатов с обыденными представлениями о реальности. Но научной информации они не несут. План с предварительным и итоговым тестированием одной группы часто применяется в социологических, социально-психологических и педагогических исследованиях: О1 Х О2. В этом плане отсутствует контрольная выборка, поэтому нельзя утверждать, что изменения (разница О1 и О2) зависимой переменной, регистрируемые в ходе тестирования, вызваны именно изменением независимой переменной. Между начальным и конечным тестированием происходят и другие «фоновые» события, воздействующие на испытуемых наравне с независимой переменной. Кроме того, этот план не позволяет контролировать эффект «естественного развития»: в течение короткого времени — изменение состояния испытуемого (утомление, монотония, скука и др. ), а в течение длительного времени — изменения личностных черт. Наконец, эффект тестирования — воздействие предыдущего обследования на последующее — может быть еще одним неконтролируемым фактором, влияющим на изменение зависимой переменной. Можно перечислить и другие источники артефактов — внешние переменные, которые не контролируются этим планом. Третий вариант доэкспериментального плана — сравнение статистических групп, или, точнее, план для двух неэквивалентных групп с тестированием после воздействия. Х О1 О2 Этот план лучше предыдущего хотя бы тем, что позволяет учитывать эффект тестирования благодаря введению контрольной группы, а также отчасти контролировать влияние «истории» — фоновых воздействий на испытуемых, и ряд других внешних переменных (инструментальную погрешность, регрессию и др. ). Но с помощью этого плана невозможно учесть эффект естественного развития, так как нет материала для сравнения состояния испытуемых на данный момент с их начальным состоянием (нет предварительного тестирования). Этот доэкспериментальный план распространен в психологической исследовательской практике. Для сравнения результатов контрольной и экспериментальной групп используется t-критерий Стьюдента. Всегда надо иметь в виду, что различия в результатах тестирования могут быть обусловлены не экспериментальным воздействием, а различием состава групп. Этот план, если отбросить экспериментальное воздействие, вполне применим в корреляционном исследовании, но его не следует использовать для проверки гипотез о причинной связи двух переменных. Квазиэкспериментальные планы Т. Д. Кук и Д. Т. Кэмпбелл [Cook Т. D., Campbell D. Т., 1976] разработали теоретические основания применения квазиэкспериментальных планов в психологическом исследовании. Существуют два типа квазиэкспериментальных планов: а) планы экспериментов для неэквивалентных групп; б) планы дискретных временных серий.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|