Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Ретроспективное предварительное тестирование




 

Во многих воинских формированиях в военное время лица одного и того же звания и специальности полу­чают различные назначения случайно, без учета их особых привилегий, предпочтений или способностей. Поэтому сравнение социальных установок белых, по­павших в подразделения со смешанным расовым соста­вом, с установками тех, кто оказался в частях с одно­родным составом, может представлять интерес для установления соответствующих каузальных отношений. Мы, разумеется, должны не пренебрегать этими данны­ми, а искать дополнительные, чтобы отклонить правдо­подобные конкурентные гипотезы, отдавая себе отчет в остающихся источниках невалидности. В этом приме­ре итоговые интервью содержали не только вопросы об отношении к неграм в данное время (в смешанных подразделениях оно оказалось более благоприятным), но предполагали припоминание установок, имевших место до получения данного назначения. Это «ретро­спективное предварительное тестирование» обнаружило отсутствие различия между двумя группами, что увели­чило вероятность отсутствия различий и до назначения.

Подобный анализ сыграл важную роль в исследо­вании Дойча и Коллинз [30], сравнивавших жителей интегрированных и сегрегированных кварталов, в кото­рых квартиры распределялись в такой период, когда из-за недостатка жилья люди принимали соответствую­щие предложения более или менее независимо от их расовых установок. При наличии данных только итого­вого тестирования обнаруженные ими различия между двумя группами могли быть отнесены на счет первона­чальных социальных установок. Утверждение, что опыт расовой интеграции приводит к более благожелатель­ному отношению, стало более убедительным, когда ретроспективное исследование показало отсутствие

 

 

различий между двумя группами в их воспоминаниях о своих первоначальных установках. В силу аутистических факторов, искажающих, как известно, воспомина­ния и данные интервью, такие результаты не носят ре­шающего характера.

По-настоящему следовало бы, конечно, провести предварительные интервью и в случайном порядке рас­пределить испытуемых по обеим группам. Такие иссле­дования, несомненно, будут выполнены. Но пока мы не располагаем лучшими данными, результаты Дойча иКоллинз, включая ретроспективное предварительное тестирование, являются ценным добавлением к экспери­ментальному знанию в этой трудной области.

Читателю следует обратить внимание на то, что ве­роятная систематическая ошибка памяти состоит в ис­кажении прежних установок и согласовании их с се­годняшними установками или с установками, которые испытуемый считает социально желательными. Таким образом, здесь ошибка памяти скорее затушует значи­мый эффект X.

В исследованиях влияния обучения в колледже на студентов путем сравнения установок новичков и стар­шекурсников желательно использовать методику ретро­спективного тестирования, которое будет служить час­тичным заслоном против конкурентных гипотез об эф­фектах фоновых воздействий, селективного выбывания и изменений в начальном составе группы. (Это не зна­чит, что мы одобряем дальнейшее повторение таких поэтапных исследований, так как сейчас больше нужны лонгитюдинальные исследования, аналогичные исследо­ваниям Ньюкомба [84], которые предполагали повтор­ные измерения в течение четырех лет в сочетании с по­вторными обследованиями по методу поперечных срезов, то есть по плану 15. Если же нужно срочно сде­лать диссертацию, то для этого лучше выбрать другую тематику.)

 

Панельные исследования

 

В определенных однородных исследованиях респон­дентам нередко предлагается самим определить, были ли они подвержены X. В таких случаях корреляция между воздействием и результатом итогового тестиро-

 

 

вания оказывается смещенной не только в силу нали­чия общего источника погрешности (X получают те, кто и без X дал бы высокий результат О), но и из-за искажений памяти по отношению к X, еще больше уси­ливающих ложный эффект (Stouffer [120, с. 356]). Хотя эти исследования и обнаруживают каузальную связь, оправдывающую затраты на рекламу (то есть демонстрируют корреляцию между ответами на вопро­сы типа «Смотрели ли Вы эту программу?» и «Купили ли Вы это изделие?»), они являются тривиальным свидетельством о наличии эффекта. Они привносят но­вый фактор, угрожающий внутренней валидности ре­зультатов, то есть систематическую ошибку в определе­нии того, кто получил X, который мы не намерены вно­сить в наши таблицы.

Большим достижением методологии исследования общественного мнения явилось применение панельного метода — повторных интервью с теми же лицами. В лучшем случае, когда X (например, показ кинофиль­ма или проведение консультации) вклинивается между двумя волнами интервью или анкетирования, панель­ное исследование представляет собой слабый вариант плана 10 с единственным X. Следует, однако, иметь в виду, что в социологии это важное методическое ново­введение сопровождается ошибочным традиционным анализом. Так, интерпретация «таблицы текучести» (Glock [41]), как отмечают Кэмпбелл и Клэйтон [14], затруднена из-за смешивания каузальных гипотез с ре­грессионными эффектами. Даже при анализе прира­щений зависимых переменных в группах, подвергшихся и не подвергшихся X, в понятиях предварительного и итогового тестирования остается менее явный источник систематической ошибки. В таких панельных исследо­ваниях факт предъявления респонденту X (например, показ кинофильма, направленного против предрассуд­ков) устанавливается во второй волне интервью двухэтапного панельного исследования. Схема такого плана выглядит следующим образом:

 

 

Панельное исследование с двумя волнами интервью (неприемлемо).

 

 

Здесь большими скобками отмечено наличие О или X на одном и том же этапе с одним интервью, а вопроси­тельный знак указывает на неоднозначность отнесения респондентов к группам с X и без X. В отличие от плана 10 этот план не позволяет однозначно опре­делить, кто принадлежит к экспериментальной, а кто к контрольной группе. Как в худших реализациях пла­на 10, X коррелирует с данными предварительного тестирования (лица с минимальными предрассудками более склонны посмотреть фильм). Более того, даже если X в действительности не влияет на результаты О, корреляция между X и данными последующих тестиро­ваний будет более высокой, чем между X и данными предварительных тестирований, просто потому, что они (X и О) осуществляются в одном и том же интервью. Как показывает общий опыт исследований, связанных с тестированием и измерениями, в отношении любых двух пунктов одного и того же вопросника наблюдается сильная тенденция к более высокой корреляции ответов между собой, чем в отношении ответов на те же во­просы, но включенные в разные вопросники. Стокфорд и Бисселл [119] обнаружили, что даже в рамках одной анкеты ответы на смежные (соседние по положению) вопросы имеют более высокую корреляцию, чем ответы на вопросы, отдаленные друг от друга. Корреляция между измерениями, выполненными в один день, как правило, выше, чем между измерениями, сделанными в разные дни. В упомянутом панельном исследовании (Glock [41]) два интервью были проведены с интерва­лом в восемь месяцев. Увеличению корреляции внутри одного интервью и уменьшению корреляции тех же пунктов между обоими интервью способствовали изме­нения в составе интервьюеров. Неизбежные ошибки по­следних и неточности высказываний опрашиваемых при повторной идентификации данных первоначальных рес­пондентов приводят к тому, что некоторые пары ин­тервью на самом деле оказываются принадлежащими разным людям. Получаемая в итоге более высокая кор­реляция между X и данными последующего интервью означает, что регрессия от X к результатам этого ин­тервью меньше, чем к результатам предварительного опроса, и поэтому различия между группами в после­дующем интервью окажутся большими, чем при предва-

 

 

рительном обследовании. Это приведет (даже в отсут­ствие эффекта в популяции) к ложному эффекту при­роста показателей для тех, кто отнес себя к числу по­лучивших воздействие, и снижению для тех, кто счи­тал; что не получал воздействие. Подобный результат обычно ошибочно принимается за подтверждение гипо­тезы об эффекте X (более подробно см. Campbell, Clayton [14]).

Чтобы обойти этот ложный источник повышенной корреляции, принадлежность респондентов к группе, которой предъявляется X, можно устанавливать незави­симо от интервью или посредством отдельной промежу­точной волны опросов. В последнем случае, даже если и имеется ошибка памяти относительно прохождения X, это не должно искусственно увеличивать корреля­цию X с данными последующей проверки по сравнению с корреляцией между X и данными предварительного обследования. Вот как выглядит такой план:

 

 

 

Анализ ex post facto

 

Выражением «эксперимент ex post facto» обозна­чаются попытки имитировать экспериментальное иссле­дование по плану 3 путем попарного уравнивания исходного состава групп на основании сведений об ис­пытуемых до введения X. Сам метод и его название впервые ввел Чэпин (Chapin, Qeen [20]). Он же [19], а также Гринвуд [46] в дальнейшем широко его исполь­зовали. Хотя эти работы относятся скорее к области социологии, чем к педагогике, и хотя мы считаем, что этот анализ подчас приводит к ошибкам, здесь уместно рассмотреть его. Этот метод представляет собой одну из наиболее серьезных попыток приблизиться к квази­экспериментальному исследованию.

В одном типичном исследовании ex post facto (Chapin [19, с. 99—124]) в роли X выступало школь­ное обучение (в частности, окончание средней школы), а в роли О — индивидуальные интервью, дававшие ин­формацию об успехе в жизни и социальной адаптированности обследуемых 10 лет спустя. Уравнивание

 

 

групп производилось на основании школьных архивов (в аналогичных, но еще более слабых исследованиях факты о состоянии до воздействия брались из итоговых опросов). Из первоначальных данных следовало, что окончившие школу не только лучше преуспевали, но также имели более высокие отметки в 5—8 классах, лучшее окружение, были моложе, их родители занима­ли более высокие должности и т. д. Очевидно, эти предпосылки могли способствовать не только оконча­нию средней школы, но и дальнейшим успехам.

Добавило ли что-либо обучение в школе к лучшей стартовой позиции детей по сравнению с этими факто­рами? «Решение», предложенное Чэпином, состояло в изучении групп учеников, уравненных по всем этим факторам, но отличавшихся по признаку окончания школы. Введение очередного признака уравнивания со­кращало итоговое различие между группами, которые подвергались и не подвергались воздействию, но, когда попарное уравнивание было завершено, различие все еще оставалось значимым. Из этого Чэпин заключил, хотя и осторожно, что среднее образование дало свой эффект. Изначальное число 2127 человек сократилось до 1194 (с ними удалось провести интервью, и о них сохранились нужные архивные записи). Уравнивание сократило число пригодных для использования случаев до 46, по 23 на группу окончивших и не окончивших школу —менее 4% опрошенных. Чэпин правильно от­мечает, что 46 сопоставимых случаев лучше, чем 1194 несопоставимых, и подкрепляет это аргументами, ана­логичными тем, которые мы приводили в пользу боль­шей важности внутренней валидности по сравнению с внешней. Трагедия в том, что его 46 случаев все еще оставались несопоставимыми и, кроме того, даже если встать на его точку зрения, в сокращении данных не было необходимости.

Его уравнивание было недостаточным по двум при­чинам. Во-первых, попарное уравнивание приводит в действие механизм дифференциальной регрессии, кото­рый создает различия в результатах, имеющие то же направление, что и наблюдавшиеся Чэпином (см. заме­чания Р. Л. Торндайка [125], а также обсуждение проблемы уравнивания в плане 10). Направление псев­доэффекта, обусловленного регрессией показателей к

 

 

групповым средним после попарного уравнивания, в этом случае вполне однозначно, поскольку различия по факторам уравнивания для преуспевших и непреуспев­ших направлены в ту же сторону, что и различия между окончившими и не окончившими школу. Каждый признак, детерминирующий подверженность X, даже в отсутствие X детерминирует и О. Все переменные урав­нивания коррелируют с X и О в одном и том же на­правлении. Хотя это и не обязательно должно иметь место по каждой переменной во всех исследованияхex post facto, тем не менее такая картина наблюдается в большинстве, если не во всех опубликованных приме­рах использования этого метода. Ошибки регрессии и сокращения числа случаев можно избежать, применяя современные статистические методы, которые позво­ляют избавиться от ошибки уравнивания в плане 10. Переменные уравнивания могли бы быть использованы как сопутствующие переменные в многомерном кова­риационном анализе. Насколько мы можем судить, та­кой анализ показал бы отсутствие эффектов, оказав­шихся якобы значимыми в исследовании, представлен­ном Чэпином. Однако применение ковариационного анализа к подобным задачам подвергается кри­тике.

Но имеется и второй, в сущности неустранимый, источник неэквивалентности групп в исследовании Чэпина. Гринвуд [46] называет его самоотбором испы­туемых в группы, подвергающиеся и не подвергающие­ся воздействию. Наличие X является закономерным ре­зультатом многочисленных предпосылок. Для выбыва­ния из школы до ее окончания, как мы знаем, имеются бесчисленные причины, помимо тех шести факторов, по которым производилось уравнивание. Мы можем с боль­шой уверенностью предположить, что большинство из них повлияло на последующий успех независимо от их действия через X. Это приведет к еще большей неэкви­валентности групп, помимо той, которая вызвала ошиб­ку регрессии. Даже проводя ковариационный анализ исходных данных и результатов О, мы можем интер­претировать наличие значимого эффекта X только пос­ле учета всех совместно действующих переменных урав­нивания.

 

 

ЗАКЛЮЧИТЕЛЬНЫЕ ЗАМЕЧАНИЯ

 

Всякое справочное руководство представляет собой концентрированный текст, и дальнейшая его концентра­ция может ввести в заблуждение. Поэтому мы хотим предостеречь от соблазна использовать табл. 1, 2 и 3 в качестве сжатого эквивалента этого очерка. Их цель — упорядочить изложение и избавить его от из­лишних повторений.

Конкретные плюсы, минусы и вопросительные знаки постоянно ставились с оговорками и являлись лишь не­точными обобщениями итогов соответствующего обсуж­дения. Для любой конкретной реализации каждого пла­на картина плюсов и минусов, скорее всего, будет отличаться от соответствующей строчки в таблице. Таб­лицы лучше всего использовать как канву для добросо­вестного анализа конкретных деталей эксперимента при его планировании. И конечно же, мы не собираемся подменять догмы одного-двух приемлемых планов экс­перимента догмой тринадцати. Напротив, нам хотелось бы способствовать укреплению открытой, поисковой ориентации на разработку новых способов получения данных и выявление слабых сторон традиционных ме­тодик.

Подведем теперь основные итоги сказанному. В этой работе мы обсудили возможности, существующие в об­ласти построения или планирования эксперимента, и уделили особое внимание проблемам контроля посто­ронних переменных и угрозам валидности эксперимен­та. Мы проводили различие между внутренней и внеш­ней валидностью, или возможностью обобщения резуль­татов. Оценка качества 16 экспериментальных планов и их вариантов велась по восьми классам факторов внут­ренней и четырем — внешней валидности. Три плана были определены как доэкспериментальные и были использованы в первую очередь для иллюстрации фак­торов валидности, которые нужно контролировать. Три плана названы «истинными», десять планов — квазиэкс­периментальными, то есть такими, в которых отсутству­ет оптимальный контроль, но которые стоит использо­вать в тех случаях, когда применение лучшего плана невозможно. При интерпретации результатов квазиэкс­перимента особенно важна проверка перечисленных

 

 

12 факторов валидности. На протяжении всей работы обращалось внимание на возможность творческого ис­пользования особенностей конкретной ситуации иссле­дования при планировании конкретных испытаний кау­зальных гипотез.

 

 

ЛИТЕРАТУРА

 

1. A l l p o r t F. H. The influence of the group upon association and thought. J. exp. Psychol., 1920, 3, 159—182.

2. A n a s t a s i A n n e. Differential psychology. N. Y., Macmillan, 1958.

3. A n d e r s o n N. H. Test of a model for opinion change. J. abnorm. soc. Psychol., 1959, 59, 371—381.

4. B a r c h A. M., T r u m b o D., N a n g l e J. Social setting and conformity to a legal requirement. J. abnorm. soc. Psychol., 1957, 55, 396—398.

5. B o r i n g E. G. The nature and the history of experimental control. Amer. J. Psychol, 1954, 67, 573—589.

6. B r i m O. G. Family structure and sex role learning by children: A further analysis of Helen Koch's data. Sociometry, 1958, 21, 1—16.

7. B r o l y e r C. R., T h o r n d i k e E. L., W o o d y a r d Ella. A second study of mental discipline in high school studies. J. educ. Psychol., 1927, 18, 377—404.

8. B r o w n 1 e e K. A. Statistical theory and methodology in science and engineering. N. Y., Wiley, 1960.

9. B r u n s w i k E. Perception and the representative design of psychological experiments. Berkeley, Univ. of California Press, 1956.

10. C a m p b e l l D. T. Factors relevant to the validity of expe­riments in social settings. Psychol. Bull., 1957, 54, 297—312.

11. C a m p b e l l D. T. Methodological suggestions from a com­parative psychology of knowledge processes. Inquiry, 1959, 2, 152—182.

12. C a m p b e l l D. T. Recommendations for APA test stan­dards regarding construct, trait, or discriminant validity. Amer. Psy­chologist, 1960, 15, 546—553.

13. C a m p b e l l D. T., B o r u c h R. F. Making the Case for Randomised Assignment to treatments by Considering the Alternatives: Six Ways in which Quasi-Experimental evaluations in compensatory Education tend to underestimate effects. — In: Evaluation and experi­ment. Eds. by C. A. Bennett and A. A. Lumsdaine, Acad. press, 1975.

14. C a m p b e l l D. T., C l a y t o n K. N. Avoiding regression effects in panel studies of communication impact. Stud. pub. Commun., 1961, 3, 99—118.

15. C a m p b e l l D. T., F i s k e D. W. Convergent and discrimi­nant validation by the multitrait-multimethod matrix. Psychol. Bull., 1959, 56, 81—105.

16. C a m p b e l l D. T., M c C o r m a c k T h e l m a H. Military experience and attitudes toward authority, Amer. J. Sociol., 1957, 62, 482—490.

 

 

17. C a n e V. R., H e i m A. W. The effects of repeated testing: III. Further experiments and general conclusions. Quart. J. exp. Psychol., 1950, 2, 182—195.

18. C a n t o r G. N. A note on a methodological error commonly committed in medical and psychological research. Amer. J. ment. Defic., 1956, 61, 17—18.

19. C h a p i n F. S. Experimental designs in sociological research. N. Y., Harper, 1947 (Rev. ed., 1955).

20. C h a p i n F. S., Q u e e n S. A. Research memorandum on social work in the depression. N. Y. Social Science Research Coun­cil. Bull. 39, 1937.

21. C h e r n o f f H., M o s e s L. E. Elementary decision theory. N. Y., Wiley, 1959.

22. C o c h r a n W. G., C o x Gertrude M. Experimental designs. N. Y, Wiley, 1957.

23. C o l l i e r R. M. The effect of propaganda upon attitude following a critical examination of the propaganda itself. J. soc. Psychol., 1944, 20, 3—17.

24. C o l l i e r R. O., Jr. Three types of randomization in a two-factor experiment. Minneapolis, Author, 1960.

25. C o r n f i e 1 d J., T u k e y J. W. Average values of mean squares in factorials. Ann. math. Statist., 1956, 27, 907—949.

26. C o x D. R. Some systematic experimental designs. Biometrika, 1951, 38, 312—323.

27. C o x D. R. The use of a concomitant variable in selecting an experimental design. Biometrika, 1957, 44, 150—158.

28. C o x D. R. Planning of experiments. N. Y., Wiley, 1958.

29. C r o o k M. N. The constancy of neuroticism scores and self-judgments of constancy. J. Psychol., 1937, 4, 27—34.

30. D e u t s c h M., Collins Mary E. Interracial housing: A psychological evaluation of a social experiment. Minneapolis, Univ of Minnesota Press, 1951.

31. D u n c a n C. P., O ' B r i e n R. B., M u r r a y D. C., D a v i s L., G i l l i l a n d A. R. Some information about a test of psychological misconceptions. J. gen. Psychol., 1957, 56, 257— 260.

32. E b b i n g h a u s H. Memory. N. Y., Teachers Coll., Columbia Univer., 1913 (Original: «Über das Gedächtnis», Leipzig, 1885).

33. E d w a r d s A. L. Experimental design in psychological research. N. Y, Rinehart, 1960.

34. F a r m e r E., B r o o k s R. C., C h a m b e r s E. G. A com­parison of different shift systems in the glass trade. Rep. 24, Medical Research Council, Industrial Fatigue Research Board. London, His Majesty's Stationery Office, 1923.

35. F e l d t L. S. A comparison of the precision of three experi­mental designs employing a concomitant variable. Psychometrika, 1958, 23, 335—353.

36. F e r g u s o n G. A. Statistical analysis in psychology and education. N. Y., McGraw-Hill, 1959.

37. Ф и ш е р P. A. Статистические методы для исследователей. M., 1958.

38. F i s h e r R. A. The design of experiments. London, Oliver & Boyd, 1935.

 

 

39. F i s h e r R. A. The arrangement of field experiments. J. Min. Agriculture, 1926, 33, 503—513; also in: R. A. F i s h e r. Contributions to mathematical statistics. N. Y., Wiley, 1950.

40. G 1 i c k m a n S. E. Perseverative neural processes and con­solidation of the memory trace. Psychol. Bull., 1961, 58, 218— 233.

41. G l o c k C. Y. Some applications of the panel method to the study of social change. — In: L a -

z a r s f e 1 d P. F., R o s e n b e r g M. (eds.). the language of social research. Glencoe, I11., Free Press, 1955, p. 242—249.

42. G 1 o c k C. Y. The effects of re-interviewing in panel rese­arch. Duplicated research report. Author, 1958.

43. G o o d C. V., S c a t e s D. E. Methods of research. N. Y., Appleton-Century-Crofts, 1954.

44. G r a n t D. A. Analysis-of-variance tests in the analysis and comparison of curves. Psychol. Bull, 1956, 53, 141—154.

45. G r e e n B. F., T u k e y J. W. Complex analyses of variance: General problems. Psychometrika, 1960, 25, 127—152.

46. G r e e n w o o d E. Experimental sociology: A study in method. N. Y., King's Crown Press, 1945.

47. G u e t z k o w H., K e l l y E. L., M c K e a c h i e W. J. An experimental comparison of recitation, discussion, and tutorial methods in college teaching. J. educ. Psychol., 1954, 45, 193—207.

48. H a m m o n d K. R. Representative vs. systematic design in clinical psychology. Psychol. Bull., 1954, 51, 150—159.

49. H a n s o n N. R. Patterns of discovery. Cambridge. Eng., Univ. Press, 1958.

50. H o v l a n d C. I., J a n i s I. L., K e l l e y H. H. Communica­tion and persuasion. New Haven, Conn., Yale Univ. Press, 1953.

51. H o v l a r i d C. I., L u m s d a i n e A. A., S h e f f i e l d F. D. Experiments on mass communication. Princeton, Princeton Univ. Press, 1949.

52. Information and Education Division, U. S. War Department. Opinions about Negro infantry platoons in white companies of seven divisions. — In: N e w c o m b T. M., H a r t l e y E. L. (eds.). Readings in social psychology. N. Y., Holt, 1947, p. 542—546.

53. J o h n s o n P. O. Statistical methods in research. N. Y., Prentice-Hall, 1949.

54. J o h n s o n P. O., J a c k s o n R. W. Modern statistical methods: Descriptive and inductive. Chicago, Rand McNally, 1959.

55. J o s t A. Die Assoziationsfestigkeit in ihrer Abhängigkeit von der Verteilung der Widerholungen. Z. Psychol. Physiol. Sinnesorgane, 1897, 14, 436—472.

56. K a i s e r H. F. Directional statistical decisions. Psychol. Rev., 1960, 67, 160—167.

57. K a t z D., M a c c o b y N., M o r s e N a n c y C. Productivity, supervision, and morale in an office situation. Ann Arbor, Survey Research Center, Univ. of Michigan, 1951.

58. K e m p t h o r n e O. The design and analysis of experiments. N. Y., Wiley, 1952.

59. K e m p t h o r n e O. The randomization theory of statistical inference. J. Amer. Statist. Ass., 1955, 50, 946—967; 1956, 51, 651.

60. K e m p t h o r n e O. The design and analysis of experiments, with some reference to educational research, — In: C o l l i e r R. O.,

 

 

E 1 a m S. M. (eds.). Research design and analysis: The second annual Phi Delta Kappa symposium on educational research. Bloomington, Ind., Phi Delta Kappa, 1961, p. 97—133.

61. K e n d a l l M. G., B u c k l a n d W. R. A dictionary of statistical terms. London. Oliver & Boyd, 1957.

62. K e n n e d y J. L., U p h o f f H. F. Experiments on the nature of extra-sensory perception. III. The recording error criticisms of extra chance scores. J. ParapsychoL, 1939, 3, 226—245.

63. K e r r W. A. Experiments on the effect of music on factory production. Appl. Psychol. Monogr., 1945, 5.

64. L a n a R. E. Pretest-treatment interaction effects in attitudinal studies. Psychol. Bull., 1959, 56, 293—300 (a).

65. L a n a R. E. A further investigation of the pretest-treatment interaction effect. J. appl. Psychol, 1959, 43, 421—422. (b).

66. L a n a R. E., K i n g D. J. Learning factors as determiners of pretest sensitization. J. appl. Psychol., 1960, 44, 189—191.

67. L i n d q u i s t E. F. Statistical analysis in educational rese­arch. Boston, Houghton Mifflin, 1940.

68. L i n d q u i s t E. F. Design and analysis of experiments in psychology and education. Boston, Houghton Mifflin, 1953.

69. L i p s e t S. M., L a z a r s f e l d P. F., B a r t o n A. H., L i n z J. Tne psychology of voting: An analysis of political behavi­or— In: L i n d z e y G. (ed.). Handbook of social psychology. Cambridge, Mass., Addison-Wesley, 1954, p. 1124—1175.

70. L o r d F. M. The measurement of growth. Educ. psychol. Measmt, 1956, 16, 421—437.

71. L o r d F. M. Further problems in the measurement of growth. Educ. psychol. Measmt, 1958, 18, 437—451.

72. L u b i n A. The interpretation of significant interaction. Educ. psychol. Measmt, 1961, 21, 807—817.

73. M a x w e l l A. E. Experimental design in psychology and the medical sciences. London, Methuen, 1958.

74. M c C a l l W. A. How to experiment in education. N. Y., Macmillan, 1923.

75. M c N e m a r Q. A critical examination of the University of Iowa studies of environmental influences upon the I. Q. Psychol. Bull., 1940, 37, 63—92.

76. M c N e m a r Q. Psychological statistics. N. Y., Wiley, 1962.

77. M c N e m a r Q. On growth measurement. Educ. psychol. Measmt. 1958, 18, 47—55;

78. M e e h l P. E. Clinical versus statistical prediction. Minneapo­lis, Univ. of Minnesota Press, 1954.

79. M o n r o e W. S. General methods: Classroom experimenta­tion. — In: G. M. W h i p p l e (ed.). Yearb. nat. Soc. Stud. Educ., 1938, 37, Part II, 319—327.

80. M o o d A. F. Introduction to the theory of statistics. N. Y., McGraw-Hill, 1950.

81. M o o r e H. T. The comparative influence of majority and expert opinion. Amer. J. Psychol., 1921, 32, 16—20.

82. M o r s e Nancy C., R e i m e r E. The experimental change of a major organizational variable. J. abnorm. soc. Psychol., 1956, 52, 120—129.

83. M y e r s J. L. On the interaction of two scaled variables. Psychol, Bull., 1959, 56, 384—391.

 

 

84. N e w c o m b T. M. Personality and social change. N. Y., Dryden, 1943.

85. N e y m a n J. Indeterminism in science and new demands on statisticians. J. Amer. Statist. Ass., 1960, 55, 625—639.

86. N u n n a l l y J. The place of statistics in psychology. Educ. psychol Measmt, 1960, 20, 641—650.

87. P a g e E. B. Teacher comments and student performance: A seventy-four classroom experiment in school motivation. J. educ. Psychol., 1958, 49, 173—181.

88. P e a r s o n H. C. Experimental studies in the teaching of spelling. Teachers Coll. Rec., 1912, 13, 37—66.

89. P i e r s Ellen V. Effects of instruction on teacher attitudes: Extended control-group design. Unpublished doctoral dissertation, George Peabody Coll., 1954. Abstract in: Bull. Maritime Psychol. Ass., 1955, 53—56.

90. P o p p e r K. R. The logic of scientific discovery. N. Y., Basic Books, 1959.

91. R a n k i n R. E., C a m p b e l l D. T. Galvanic skin response to Negro and white experimenters. J. abnorm. soc. Psychol, 1955, 51, 30—33.

92. R e e d J. C. Some effects of short term training in reading under conditions of controlled motivation. J. educ. Psychol., 1956, 47, 257—264.

93. R o g e r s C. R., D y m o n d Rosalind F. Psychotherapy and personality change. Chicago, Univ. of Chicago Press, 1954.

94. R o s e n t h a l R. Research on experimenter bias. Paper read at Amer. Psychol. Ass., Cincinnati, Sept., 1959.

95. R o y S. N., G n a n a d e s i k a n R. Some contributions to ANOVA in one or more dimensions: I and II. Ann. Math. Statist., 1959, 30, 304—317, 318—340.

96. R o z e b o o m W. W. The fallacy of the null-hypothesis significance test. Psychol. Bull., 1960, 57, 416—428.

97. S a n f o r d F. H., H e m p h i l l J. K. An evaluation of a brief course in psychology at the U. S. Naval Academy. Educ. psychol. Measmt, 1952, 12, 194—216.

98. S c h e f f é H. Alternative models for the analysis of variance. Ann. math. Statist., 1956, 27, 251—271.

99. S e l l t i z Claire, J a h o d a Marie, D e u t s c h M., C o o k S. W. Research methods in social relations, N. Y., Holt-Dryden, 1959.

100. S i e g e l Alberta E., S i e g e l S. Reference groups, mem­bership groups, and attitude change. J. abnorm. soc. Psychol., 1957, 55, 360—364.

101. S i m o n H. A. Models of man. N. Y., Wiley, 1957.

102. S m i t h H. L., H y m a n H. The biasing effect of interviewer expectations on survey results. Publ. opin. Quart., 1950, 14, 491—506.

103. S o b o l M. G. Panel mortality and panel bias. J. Amer. Statist. Ass., 1959, 54, 52—68.

104. S o l o m o n R. L. An extension of control group design. Psychol. Bull., 1949, 46, 137—150.

105. S o r o k i n P. A. An experimental study of efficiency of work under various specified conditions. Amer, J. Sociol., 1930. 35, 765—782.

 

 

106. S t a n l e y J. C. Statistical analysis of scores from coun­terbalanced tests. J. exp. Educ., 1955, 23, 187—207.

107. S t a n l e y J. C. Fixed, random, and mixed models in the analysis of variance as special cases of finite model III. Psychol. Rep., 1956, 2, 369.

108. S t a n l e y J. C. Controlled experimentation in the class­room. J. exp. Educ., 1957, 25, 195—201. (a)

109. S t a n l e y J. C. Research methods: Experimental design. Rev. educ. Res., 1957, 27, 449—459. (b)

110. S t a n l e y J. C. Interactions of organisms with experimental variables as a key to the integration of organismic and variable-manipulating research. — In: H u d d l e s t o n Edith M. (ed.). Yearb. Nat. Counc. Measmt used in Educ., 1960, 7—13.

111. S t a n l e y J. C. Analysis of a doubly nested design. Educ. psychol. Measmt, 1961, 21, 831—837. (a)

112. S t a n l e y J. C. Studying status vs. manipulating variab­les — In: C o l l i e r R. O., E l a m S. M. (eds.). Research design and analysis: The second Phi Delta Kappa symposium on educational research. Bloomington, Ind.: Phi Delta Kappa, 1961, p. 173—208. (b)

113. S t a n l e y J. C. Analysis of unreplicated three-way classi­fications, with applications to rater bias and trait independence. Psychometrika, 1961, 26, 205—220. (c)

114. S t a n l e y J. C. Analysis-of-variance principles applied to the grading of essay tests. J. exp. Educ., 1962, 30, 279—283.

115. S t a n l e y J. C., B e e m a n Ellen Y. Interaction of major field of study with kind of test. Psychol Rep., 1956, 2, 333—336.

116. S t a n l e y J. C., W i l e y D. E. Development and analysis of experimental designs for ratings. Madison, Wisconsin, Authors, 1962.

117. S t a n t o n F., B a k e r K. H. Interviewer-bias and the recall of incompletely learned materials. Sociometry, 1942, 5, 123—134.

118. S t a r Shirley A., H u g h e s Helen M. Report on an edu­cational campaign: The Cincinnati plan for the United Nations. Amer. J. Social., 1950, 55, 389—400.

119. S t o c k f o r d L., B i s s e l l H. W. Factors involved in establishing a merit-rating scale. Personnel, 1949, 26, 94—116.

120. S t o u f f e r S. A. (Ed.) The American soldier. Princeton, Princeton Univ. Press, 1949, Vols. I, II.

121. S t o u f f e r S. A. Some observations on study design. Amer. J. Social, 1950, 55, 355—361.

122. T h i s t l e t h w a i t e D. L, C a m p b e l l D. T. Regression-discontinuity analysis: An alternative to the ex post facto experiment. J. educ. Psychol, 1960, 51, 309—317.

123. T h o r n d i k e E. L., W o o d w o r t h R. S. The influence of improvement in one mental function upon the efficiency of other functions. Psychol Rev., 1901, 8, 247—261, 384—395, 553—564.

124. T h o r n d i k e E. L, M c C a l l W. A., C h a p m a n J. C. Ventilation in relation to mental work. Teach. Coll Contr. Educ., 1916, 78.

125. T h o r n d i k e R. L. Regression fallacies in the matched groups experiment. Psychometrika, 1942, 7, 85—102.

126. U n d e r w o o d B. J. Experimental psychology. N. Y., Appleton-Century-Crofts, 1949.

 

 

127. U n d e r w o o d B. J. An analysis of the methodology used to investigate thinking behavior. Paper read at New York Univ. Conf. on Human Problem Solving. April, 1954. (cm. также H o v l a n d C. I., K e n d l e r H. H. The New York University Conference on Human Problem Solving. Amer. Psychologist, 1955, 10, 64—68.)

128. U n d e r w o o d B. J. Interference and forgetting. Psychol Rev., 1957, 64, 49—60. (a)

129. U n d e r w o o d B. J. Psychological research. N. Y., Apple-ton-Century-Crofts, 1957. (b)

130. U n d e r w o o d B. J., R i c h a r d s o n J. Studies of distri­buted practice. XVIII. The influence of meaningfulness and intralist similarity of serial nonsense lists. J. exp. Psychol., 1958, 56, 213—219.

131. W a t s o n R. I. Psychology of the child. N. Y., Wiley, 1959.

132. W i l k M. B., K e m p t h o r n e O. Fixed, mixed, and random models. J. Amer. Statist. Ass., 1955, 50, 1144—1167; Corrigenda, J. Amer. Statist. Ass., 1956, 51, 652.

133. W i l k M. B., K e m p t h o r n e O. Some aspects of the analysis of factorial experiments in a completely randomized design. Ann. Math. Statist., 1956, 27, 950—985.

134. W i l k M. B., K e m p t h o r n e O. Non-additivities In a Latin square design. J. Amer. Statist. Ass., 1957, 52, 218—236.

135. W i n d l e C. Test-retest effect on personality question­naires. Educ. psychol. Measmt, 1954, 14, 617—633.

136. Winer B. J. Statistical principles in experimental design. N. Y., McGraw-Hill, 1962.

137. W o l d H. Causal inference from observational data. A review of ends and means. J. Royal Statist. Soc., Sec. A., 1956, 119, 28—61.

138. W y a t t S., F r a s e r J. A., S t o c k F. G. L. Fan ventilation in a humid weaving shed. Rept. 37, Medical Research Council, Industrial Fatigue Research Board. London, His Majesty's Stationery Office, 1926.

139. Z e i s e l H. Say it with figures. N. Y., Harper, 1947.

 

 

 

Научный вывод,

артефакты и контроль1

 

I. Логика вывода

 

Если бы мы не отказались от дефиниционного операционализма нашего недавнего прошлого, то не знали бы проблем, которым посвящены работы об артефактах в исследованиях поведения. Наши экспериментальные модели и измерительные процедуры трактовались бы как дефиниционное представление наших теоретических понятий. Рассуждая о них как о дефинициях, мы закры­вали бы глаза на то, что они подвержены погрешностям, систематически несовершенны, а порой и ошибочны.

Дефиниционный операционализм действительно вы­звал у некоторых состояние некритической самоуспо­коенности и иллюзию материализации тестовых по­казателей, но, к счастью, практики научного исследо­вания в большинстве своем либо не часто вступали в контакт с философией науки, либо не слишком верили в нее, чтобы позволить сбить себя с толку. Когда логические позитивисты определяли интеллект по ра­боте Бине 1916 г., Термен уже приступил к пересмотру своего теста, стараясь сделать его менее подверженным погрешностям и более точным средством измерения интеллекта, — эта цель явно свидетельствует о том, что для него этот тест не был простой дефиницией. Точно так же физик, работающий с таким измерительным прибором, как, скажем, гальванометр, отдает себе отчет

_____________________________________________________________________________

1 C a m p b e 11 D. T. Prospective: Artifact and Control. — In: Artifact in Behavioral Research. Ed. by R. Rosenthal, R. L. Rosnow. N. Y., Academic Press, 1969, p. 351—382. © Academic Press, Inc., 1969.

 

 

в том, что на практике прибор этот не способен дать совершенную картину разностей электрических потен­циалов из-за влияний, оказываемых гравитацией, тре­нием, инерцией, магнитным полем и т. п. (см., напри­мер, Wilson [95]). Хотя в скомпенсированном и коррект­ном экспериментальном плане эти источники ошибок могут быть сведены к минимуму, в теоретическом плане гальванометр известен как прибор, подверженный систематическим ошибкам, и установление этого яви­лось в свою очередь историческим итогом накопления научных знаний, а не плодом логического наития.

Коль скоро теперь уже признано, что дефиниционный операционализм и прочие аксессуары логического пози­тивизма приводят к ошибочному пониманию, как же следует осмыслить наши затруднения на пути познания и при этом еще и извлечь философский смысл из работ, послуживших прообразом для данного подхода? Наиболее приемлемым для меня представляется на­правление, разрабатываемое Карлом Поппером [73,74], (Сampbell [24]), а также то общее, что присуще и его работам, и работам Поляни [72], Тулмина [92, 93], Куна [60] и Куайна [75], хотя они, возможно, менее всего склонны допускать что-либо подобное. Я попытаюсь представить один из аспектов этого на­правления, хотя и воспользуюсь метафорами, не отно­сящимися к числу общепринятых.

Вслед за Поппером я отдаю должное Юму как ло­гику и отвергаю его как психолога-индуктивиста. Юм привлек внимание к «недоразумению с индукцией» — к тому факту, что научные обобщения являются логически не доказанными или недоказуемыми. Хотя боль­шинство современных философов принимают этот факт как простую техническую деталь, как простое утвер­ждение о неприменимости аналитической логики к условной истине, Поппер с присущей ему проница­тельностью увидел в нем фундаментальное ограниче­ние. Научные истины не только не доказаны логически, они лишены достоверности также и в любом другом отношении — индуктивном, эмпирическом, научном или импликативном. Тем не менее, они в каком-то смысле «установлены». Лучшие из теорий если и не «подтвер­ждены», то, по крайней мере «подкреплены».

 

 

Логика релевантна утверждению о ситуации. «Недо­разумение с индукцией» состоит, по существу, в том, что наука пользуется необоснованным (невалидным) логическим доказательством, допуская ошибку «не­распределенной середины» или «ошибку относительно следствия». Но, будучи невалидным, это доказательство не бесполезно.

Логическое доказательство в науке имеет следующую форму:

Если теория Ньютона А истинна, то должно наблюдаться следующее: морские

приливы и от­ливы происходят с периодом В, орбита Марса имеет форму C,

траектория полета пушечного ядра приобретает форму D.

Наблюдение подтверждает В, С и D. Следо­вательно, теория Ньютона А истинна.

 

 

Р и с. 1. Схема Эйлера.

 

Мы можем увидеть ошибочность этого доказатель­ства, представив его в виде Эйлеровых кругов (см. рис. 1). Отмеченная невалидность вызвана существо­ванием заштрихованной области, то есть других воз­можных объяснений наблюдавшихся фактов В, С и D. Но этот силлогизм не бесполезен. Если сделаны наблю­дения, несовместимые с В, С и D, то тем самым обо­снованно отрицается истинность ньютоновской теории A. Рассмотренное доказательство очень напоминает, таким образом, процесс просеивания, где предсказания и наб­людения служат для того, чтобы отбрасывать наиболее неадекватные теории. Кроме того, если предсказания подтверждаются, теория остается одним из возможных истинных объяснений. Выявление этой асимметрии между логически обоснованным отрицанием и логи­чески неубедительным подтверждением и является

 

 

основным моментом в тезисе Поппера о возможности фальсификации.

Теперь этот трюизм приводится в элементарных из­ложениях индуктивной логики без ссылок на Поппера (см., например, Hempel [54], Salmon [84]). В упо­мянутом процессе есть и другой критический пункт, на котором сосредоточили свои усилия критики Поппера: в действительности наблюдения все же подтверждают предсказания. Выше предполагалось, что такой подход мог бы иметь и имел место. На данном уровне воз­можность фальсификации и возможность подтвержде­ния логически более симметричны. И наблюдения, если они выполнены с достаточной точностью, на этом уровне всегда фальсифицируют квантифицированное предска­зание. На данном уровне пределы точности наблюде­ний, которые ученые реально признают как допустимые, являются функцией социальной системы, детерминиро­ванной уровнем развития данной науки, достигнутым уровнем экспериментального контроля и остротой кон­куренции со стороны других теорий. Так, для предска­занного Эйнштейном искривления световых лучей, иду­щих от звезд, вблизи поверхности Солнца во время затмения 1919 г. предсказанная величина в 1,745" была «подтверждена» полученными при наблюдениях величинами 1,61", 1,98", 1,72", 2,2" и 2,0".

Рассмотрим несколько более подробно круги Эйлера и ту связь, которая существует между подтвержден­ными предсказаниями и истинностью или правдоподо­бием теории. Нам никуда не уйти от того факта, что мы не можем доказать теорию. Мы должны работать, не выходя за рамки ограничений, указанных в схеме. Что мы, как ученые, можем сделать — так это попы­таться каким-либо практическим способом «опусто­шить» заштрихованную область, уменьшить ее, на­сколько это возможно. Мы делаем это, максимально увеличивая по возможности число, масштаб и точность подтвержденных предсказаний. Чем больше их число и чем они точнее, тем меньше число возможных альтер­нативных отдельных объяснений, даже если это число по-прежнему остается в каком-то смысле бесконечным.

Более важно, что мы на деле не уделяем должного внимания самой логической возможности существо­вания альтернативных теорий, простому логическому

&n

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...