<< Пред. стр. 26 (из 86) След. >>
Ф. БенсонМеры критерия (criterion measures)
М. к. или критериальная мера - это стандарт, эталон и т. п. В психологии под критерием чаще всего подразумевается стандарт (эталон) для оценивания валидности теста. Иногда термин "критерий" также используют для обозначения переменной, значения к-рой предсказываются по др. переменным, как в случае изучения множественной корреляции.
Когда дело касается оценки валидности теста, М. к. обычно выступает общепринятая мера изучаемого поведения. Чем в большей степени коррелирует тест с таким стандартом, тем выше критериальная валидность (criterion-related validity) данного теста. Критериальная валидность подразделяется на текущую (диагностическую) и прогностическую валидности. Текущая валидность (concurrent validity) определяется на основе корреляции показателей теста с замерами критерия, проводимыми примерно в одно время с тестированием. Прогностическая валидность (predictive validity) определяется на основе корреляции показателей теста с замерами критерия, полученными спустя какое-то время после тестирования.
Проблема мер критерия заключается в том, чтобы найти такие меры, которые можно было бы принять в качестве общепризнанных стандартов. Эта проблема легче решается в том случае, когда имеется возможность получить выборочные замеры деятельности (work samples), например, работы продавца. Хотя работа хорошего продавца может характеризоваться несколькими важными показателями - уровнем удовлетворенности покупателей, числом и объемом повторных продаж и числом покупателей - за М. к. чаще всего принимаются показатели общего объема продаж. Можно также сконструировать составную М. к., используя весовые коэффициенты, рассчитываемые путем усреднения оценок важности отдельных критериев, полученных на соответствующей выборке менеджеров по продажам.
Стандартизация вызывает большую проблему в ситуации, когда критерий представляет собой конструкт. Эта проблема начинается с принятия решения о том, что включать в "умение продавать". Чем более многозначен такой конструкт, тем больше возникает затруднений. Сначала необходимо определиться с тем, что должно входить в данный конструкт, затем найти способы оценки таких многозначных понятий как "социальная успешность", затем прийти к согласию в отношении того, как взвешивать эти аспекты при использовании их в сочетании - весьма непростая задача.
Чтобы использование М. к. в роли стандартов не вызывало сомнений, их следует тщательно проанализировать на предмет того, что они измеряют именно то, что должны, по предположению, измерять. К примеру, Рой Голдмен и Роберт Слотер указывают на то, что средний балл успеваемости является ненадежным критерием успешности обучения в колледже, потому что студенты с низкими способностями тяготеют к выбору легких курсов, в которых они могут добиться успеха, в то время как студенты с более высокими способностями выбирают для себя более трудные курсы, где они могут не получить высоких отметок.
Богден и Тейлор подробно рассматривают источники смещения критерия (criterion bias). Они выделяют четыре класса причин, приводящих к систематическим ошибкам: а) недостаточность критерия (criterion insufficiency), или упущение релевантных элементов; б) дефектность критерия (criterion deficiency), или включение в его состав посторонних элементов; в) смещение единиц критериальной шкалы (criterion scale unit bias), или неравномерность шкалы (напр., шкала дает слишком большое число благоприятных оценок, вместо их малого числа, к-рое бы получилось в случае их колоколообразного распределения); г) деформация критерия (criterion distortion), или неправильное взвешивание элементов в составном критерии.
К числу факторов, могущих приводить к систематическим ошибкам при измерении критерия, относят ошибку благоприятной возможности, эффект ореола и вмешательство опыта. Ошибка благоприятной возможности (opportunity bias) происходит, когда некоторые из работников, в отличие от других, имеют больше возможностей проявлять критериальное поведение, что приводит к их более высоким оценкам по критерию, хотя при равных возможностях эти другие могли бы реализовывать это поведение с неменьшим успехом. Эффект ореола (halo effect) обнаруживается при работе с оценочными шкалами, когда на оценки отдельных черт влияет общее впечатление оценивающего об оцениваемом им чел. Вмешательство жизненного опыта (experience contamination) имеет место в ситуации, когда критериальное поведение изменяется вместе с неконтролируемым фактором жизненного опыта.
См. также Тестирование способностей, Методы эмпирического исследования, Измерение
Д. Крэсвул
Меры речи и слуха (speech and hearing measures)
Измерение речи и слуха может осуществляться в клинических, промышленных и исследовательских целях. Характер используемых при этом тестов и методов зависит от целей тестирования.
Меры речи-языка
Системы речевой коммуникации. Для таких целей, как разработка высококачественной телефонной аппаратуры, речь может измеряться экспериментальными психологами или инженерами в характеристиках звуковой волны, таких как частота, амплитуда и форма звукового сигнала. Ликлайдер и Миллер упоминают графические методы, в которых используется математический анализ Фурье для разложения речи на ее составляющие частоты. Они тж описывают использование электрических методов, таких как звуковая спектрография, регистрирующая изменения паттерна интенсивности-частоты как функции времени. Это позволяет получать и сравнивать между собой визуальные паттерны (спектрограммы) различных слов или фраз.
Физиолог. функция. Физиолог. аспекты речеобразования и голосообразования могут изучаться с использованием электрофизиологических и кинофлюорографических методов.
Клиническая оценка речи-языка. Оценка функций речи и языка в клинических целях связана с оценкой одной или более подобластей речи и языка. Эти подобласти могут включать артикуляцию, или фонологию (образование речевых звуков); голос, или фонацию, и резонанс; восприятие речи, обработку речевой информ. и порождение речи, а также ее плавность (включ. заикание).
Персонал, подготовленный к проведению таких клинических оценок, включает дипломированных специалистов по патологии речи и дипломированных аудиологов. Мед. оценка является обязательным элементом общего плана оценки при определении этиологии и планировании лечения голосовых и слуховых нарушений.
Несмотря на существование целого ряда стандартизированных тестов, оценивание функций речи и языка часто включает неформальную оценку квалифицированных специалистов вследствие изменчивости культурных и региональных норм.
Измерение слуха
Электрические реакции центральной слуховой системы дают информ., представляющую как экспериментальный, так и клинический интерес. Аудиометры чистого тона генерируют колебания, к-рые могут регулироваться по интенсивности (громкости звука) тонов в диапазоне от низкой до высокой частоты (высоты звука). Подтверждение индивидуумом слышимости того или иного тона позволяет оценить его слуховой порог во всем диапазоне слышимых частот. Для графического представления результатов этого теста используется аудиограмма. Для тестируемых частот регистрируется снижение слуха в децибелах. Вслед за этим, на основе оценки данных, полученных из аудиометрических и других клинических тестов, может определяться тип потери слуха.
См. также Аудиометрия, Психофизика
Б. Мейтс
Меры центральной тенденции (central tendency measures)
Назначение М. ц. т. - служить сводными количественными характеристиками, обеспечивающими наилучшее описание множества наблюдений или оценок одним единственным числом. Термины М. ц. т. и "средняя величина" часто употребляются как равнозначные, хотя некоторые авторы сужают объем понятия "средняя величина" до среднего арифметического. Несмотря на разнообразие М. ц. т., чаще всего встречаются мода, медиана и среднее.
Мода - это просто наиболее часто встречающееся в определенной совокупности наблюдений значение переменной. При сгруппированных данных мода определяется как середина интервала группирования, содержащего наибольшее число значений наблюдаемой переменной.
Медиана - это значение переменной, делящее упорядоченную совокупность наблюдений пополам, так что одна половина значений в этой совокупности лежит ниже медианы, а др. их половина - выше медианы. Если совокупность образована нечетным числом значений наблюдаемой переменной, то медиана равна значению переменной, являющемуся серединой упорядоченной совокупности наблюдений. Если же совокупность образована четным числом значений, то медиана определяется значением, лежащим посередине между двумя значениями, находящимися в центре упорядоченной совокупности наблюдений. Медиана - более полезная мера, чем мода, и часто используется в случае скошенного (асимметричного) распределения данных. Следует, однако, отметить, что медиана нечувствительна к величине крайних значений упорядоченной совокупности наблюдений.
Среднее арифметическое - самая распространенная мера центральной тенденции - определяется как сумма значений наблюдаемой переменной, разделенная на их число. (В данной статье под "средним" подразумевается среднее арифметическое.) Использование среднего дает исследователю ряд преимуществ. В отличие от др. М. ц. т., среднее чувствительно к точному положению каждого значения в распределении переменной. Правда, это достоинство среднего арифметического оборачивается недостатком в виде повышенной чувствительности к крайним значениям переменной, и потому его иногда избегают использовать в случае сильно скошенных распределений.
Среднее - особенно полезная мера в области статистических выводов, поскольку выборочное среднее является относительно эффективной оценкой генерального среднего. Если из генеральной совокупности значений наблюдаемой переменной случайно извлечь даже большое количество выборок, не следует ожидать точного равенства выборочных средних между собой или генеральному среднему. Однако, можно доказать, что выборочные средние отклоняются от генерального среднего меньше, чем выборочные медианы отклоняются от медианы генеральной совокупности. Можно также доказать (центральная предельная теорема), что выборочное распределение среднего приближается к нормальному распределению по мере увеличения объема выборки.
См. также Статистика в психологии
А. Велл
Меры читаемости (reading measures)
Что-либо читаемое людьми может определяться как доходчивое, легкое, доставляющее удовольствие и/или интересное. Оценка читаемости текстов является сложной проблемой. Хотя большинство исследователей признают необходимость в количественных М. ч., они расходятся в том, что кладется в основу таких мер.
Широко используемые меры включают формулу читаемости Дейла-Челла (Dale-Chall Readability Formula), формулы Флеша, формулу Фарра-Дженкинса-Паттерсона (Farr-Jenkins-Patterson Formula), формулу читаемости Фрая (Fry Readability Formula), индекс Фога (Fog Index), формулу Лоджа (Lorge formula) и SMOG классификацию (SMOG Grading).
Формулы Флеша послужили стандартом для валидизации большинства других М. ч. Однако, использование этих индексов сопряжено с некоторыми проблемами.
Тем не менее, такие формулы могут служить основой при сравнении абсолютной сложности различных образцов текстов, если их применять осторожно и с осознанием их возможностей и ограничений. Двумя главными проблемами, общими для всех формул читаемости, остаются количественное определение легкости чтения и оценка читательского интереса. Стандартное решение состоит в приравнивании легкости к содержанию в образце распространенных слов или краткости отдельных слов, а также составляемых из них предложений. Интерес (при его оценке) обычно приравнивается к легко поддающимся количественному определению мерам, таким как содержание (или процент) личных местоимений, имен собственных, и характеризующих людей слов. Большинство таких мер являются предельно квалифицированными, и их обработка превращается в чисто механический процесс. Их полезность во многом определяется разумностью чел., использующего такие меры, тестируемым материалом и интерпретацией результатов с учетом тех ограничений, к-рые присущи этим мерам.
См. также Формулы Флеша
Р. Касшау
Мета-анализ (metaanalysis)
М. представляет собой попытку объединения, используя различные статистические методы, данных из разных исслед., посвященных изучению одного и того же вопроса. Он предусматривает количественную оценку степени согласованности или расхождения результатов, полученных в разных исслед. Как отметил Гласе: "Мета-анализ относится к... статистическому анализу большой совокупности результатов анализа данных из отдельных исследований в целях объединения этих данных. Он ассоциируется со строгой альтернативой бессистемным, описательным научным обзорам, которые служат типичным примером наших попыток осмыслить стремительно увеличивающееся количество научных публикаций... Современные обзоры научных исследований должны быть в большей мере техническими и статистическими, чем описательными... Данные многократных исследований должны рассматриваться как комплексное множество данных, дающее без статистического анализа ничуть не больше информации, чем результаты обработки нескольких сотен данных одного единственного исследования".
М. применялся при решении весьма широкого круга задач, лишь частично иллюстрируемых следующими примерами: исслед. валидности вопросов, используемых в опросах общественного мнения; определение воздействия претестовой сенсибилизации на выполнение психол. и образовательных тестов; анализ влияния школьной десегрегации на успеваемость уч-ся. Диапазон тем в приведенных примерах указывает на уместность использования М. в самых различных областях исслед. Хотя интерес к М. в последнее время возрос, господствующим методом сведения воедино и сравнения исследовательских данных в поведенческих науках по-прежнему остается описательный обзор литературы. Однако, с учетом распространения метааналитических методов и их дальнейшего совершенствования, традиционные научные обзоры литературы можно больше уже не считать единственно подходящим или приемлемым средством для составления сводок, сравнения и объединения данных.
О пользе мета-анализа
Обзор данных из любой области исслед. в поведенческих науках мог бы выиграть от применения мета-аналитических методов по двум причинам. Первая имеет отношение к комплексности и разнородности данных. В отличие от более парадигматических научных дисциплин, накопление знаний в которых происходит путем постепенных последовательных приращений, комплексность челов. поведения per се, помноженная на трудность применения эффективных и обоснованных мер контроля в исслед. поведения, способствует получению разнотипных и расходящихся данных, да и общий подход к проведению поведенческих исслед. яв-ся дополнительным источником вариабельности данных. Состояние изучения любой проблемы обычно характеризуется научными работами, в к-рых даются разные определения основных понятий, используются разные методы исслед. и несходные выборки испытуемых, различающиеся наборы независимых переменных и различные методы анализа данных. Неудивительно, что уже давно поднимались вопросы об адекватности и надежности описательных научных обзоров. Субъективность и возможную тенденциозность составителей научных обзоров особенно трудно преодолеть в 3 областях, а именно, при: а) отборе конкретных научных публикаций, б) оценивании исслед. с т. зр. их относительной важности и в) интерпретации значения полной совокупности научных данных. Кроме того, когда количество анализируемых в обзоре научных данных становится внушительным, адекватность описательных обзоров вызывает еще больше сомнений.
Вторая причина, по которой традиционные научные обзоры могли бы выиграть от применения метааналитических методов, связана со способностью к распознаванию ранее не установленных паттернов в совокупности данных. М. имеет результатом более точную оценку степени изменчивости или устойчивости данных в конкретных областях исслед. Обнаружение возможных различий в значимости, направленности и величине связей внутри изучаемой совокупности переменных может повысить чувствительность к ранее ускользавшим от внимания паттернам. Кроме того, поскольку М. позволяет исследовать различия в характеристиках самих исслед. как источники разброса данных, сказанное выше не ограничивается обзором данных per се, но распространяется и на условия, в к-рых данные собираются. Следовательно, обладая большей осведомленностью в отношении степени и характера вариации данных, при проведении исслед. можно сосредоточить усилия на более точных и продуманных концептуализациях и средствах измерения поведенческих феноменов.
Критика мета-анализа
Несмотря на свою жизнеспособность в качестве альтернативы традиционным способам выполнения аналитических обзоров научной литературы, М. стал объектом критики. Эту критику можно проиллюстрировать, отчасти, на примерах озабоченности специалистов тремя разными проблемами: а) проблемой "картотечного ящика", б) проблемой учета качественных различий между исслед. и в) проблемой использования множественных данных из одного исслед. В добавление к краткому изложению существа трех отмеченных видов критики, будут также указаны направления, в каких метааналитические процедуры были модифицированы в ответ на каждый вид критики.
Во-первых, проблема картотечного ящика (file drawer problem) указывает на тенденцию не публиковать статистически незначимые результаты, сохраняя их в архивах исследователей. Т. о. опубликованные исслед., по-видимому, тяготеют к смещению в сторону положительных результатов, в результате чего возрастает вероятность ошибки I-рода. В качестве корректирующей меры предлагается включение в анализ данных неопубликованных исслед., получаемых из личных и профессиональных источников. Однако далеко не все неопубликованные данные доступны (да и пригодны) для анализа. Розенталь предложил в качестве частичного решения этой дилеммы использовать оценку требуемого количества незначимых данных, к-рое нужно было бы получить для того, чтобы аннулировать отмеченный значимый эффект. Если требуемое количество дополнительных данных сравнительно велико, тогда к результатам анализа, основанного на доступных данных, можно относиться с доверием. Т. о., М. может, по крайней мере имплицитно, обращаться к проблеме систематической ошибки опубликованных научных данных.
Во-вторых, М. критиковали как метод, нечувствительный к различиям качества анализируемых исслед. Так, результаты анализа может быть сложно интерпретировать, если данные из хорошо спланированных исслед. объединяются с данными, полученными на основе неудачного экспериментального плана. Метааналитические процедуры можно ориентировать на эту проблему, используя кодирование исслед. соответственно качеству плана, с последующим введением этой кодированной переменной в анализ. В итоге можно заметить, будут ли результаты анализа различаться в зависимости от изменений качества планирования исслед. Т. о., М. можно приспособить и к влиянию различий экспериментальных планов.
В-третьих, в публикациях часто сообщаются множественные данные (multiple findings). Поскольку эти данные не являются независимыми, озабоченность вызвал вопрос о том, как учитывается зависимость между ними в ходе М. Одни исследователи выполняют анализ раздельно для каждой меры зависимой переменной, выявленной в научных публикациях, тогда как другие, в таком же М., объединяют данные, касающиеся значимости и воздействия независимой переменной на все меры зависимой переменной. Однако, если такие множественные данные включаются в анализ, его результаты могут выглядеть более надежными, чем это оправдано проведенными исслед., так как не все использованные в нем данные являются независимыми. Хотя и не существует правила, предписывающего в таких случаях выбор единственно правильного метода, то, каким эмпирическим способом решается эта проблема, может оказывать влияние на результаты М. Если множественные данные из одних и тех же исслед. включаются в анализ, число критериев значимости и величины эффектов будет больше числа независимых исслед. Несмотря на то, что такой способ повышает мощность М., он не только усложняет определение ошибки, связанной со статистическими результатами анализа, но, что гораздо серьезнее, может способствовать возникновению концептуальной неопределенности и путаницы. Бесспорно, полезно знать общую значимость и общее влияние заданной независимой переменной на весь спектр зависимых переменных, однако знание дифференциальной значимости и частного влияния независимой переменной на отдельные группы зависимых переменных может иметь более важное значение для понимания поведенческих феноменов. Тем не менее, споры по поводу относительных достоинств противоположных подходов к проблеме множественных зависимых переменных продолжаются до сих пор.
Вычислительные процедуры для объединения данных научных исследований
Прежде чем обрисовать в общих чертах вычислительные процедуры М., важно разграничить две области применения этого метода: а) объединение данных, полученных в разных исслед., б) сравнение таких данных. Каждая из этих областей требует использования различных метааналитических методов. Что касается рассмотрения процедур, посредством к-рых данные разных исслед. сравниваются в явном виде, независимо от того, проводится ли это сравнение в расплывчатой или сфокусированной форме, следует обратиться к Розенталю.
В контексте объединения данных из разных исслед., посвященных изучению одного и того же конкретного вопроса, встречаются две основные стратегии: а) определение общего уровня значимости объединенных данных и б) определение величины отмеченных эффектов. Для каждой из этих стратегий было разработано множество конкретных процедур.
Общая значимость данных
При объединении результатов, полученных в независимых работах, оценивающих одинаково направленную конкретную гипотезу, в распоряжении исследователя имеется множество процедур, называемых сложными критериями. В этой статье мы ограничиваемся рассмотрением методов, разработанных Фишером, Вайнером и Стауффером с соавторами.
Известный под названием метода суммирования логарифмов (adding logs method), сложный критерий Фишера является одной из наиболее популярных и часто используемых процедур проверки гипотез и задается следующим уравнением:
?2 = ? - 2 ln p.
Эта процедура заключается в суммировании со знаком минус удвоенных натуральных логарифмов соответствующих значений р односторонних критериев, приведенных в анализируемых исслед. Получающаяся в результате стат., к-рая и положена в основу данного критерия, имеет ?2-распределение с числом степеней свободы (df), равным удвоенному числу исследований (N), включенных в анализ (т. е. df = 2N). Метод Фишера особенно эффективен, когда число анализируемых исслед. относительно невелико (не более 5). Хотя было доказано, что эта процедура яв-ся в большей степени асимптотически оптимальной, чем др. методы объединения, она обнаруживает довольно серьезный недостаток всякий раз, когда в двух исслед. приводятся одинаково значимые результаты противоположного характера. В этой ситуации метод Фишера дает допускающие двоякое толкование результаты, подтверждая значимость любого из исходов. Поэтому, когда проводится обзор всего нескольких исслед., рекомендуется не использовать эту процедуру механически. Но, вообще говоря, можно усомниться в пользе проведения М. в тех случаях, когда расходящиеся данные получены в таком ограниченном количестве исслед. Если число исслед. в к.-л. области мало, а полученные в них данные явно расходятся, то возникают вопросы не только в отношении уместности применения М. как метода обзора данных, но и в отношении того, указывают ли анализируемые публикации на сколько-нибудь жизнеспособную область исслед.
Сложный критерий Вайнера, называемый методом "суммирования значений t", имеет вид:
.
Основанная на выборочном распределении независимых статистик t, эта процедура заключается в вычислении нормированного отклонения (standard normal deviate), равного сумме значений t-критерия, деленной на корень квадратный из дисперсии t-распределения. Эти значения t-критерия или берутся прямо из включаемых в обзор публикаций, или, если в них приведены только значения р, получаются путем преобразования указанных р в t. Дисперсия t-распределения имеет приближенно нормальное распределение, когда число степеней свободы (df) для каждого значения t больше или равно 10. Следовательно, в тех случаях, когда число степеней свободы для каждого значения t меньше 10, этот метод не будет давать достаточно хорошего приближения. Т. о., хотя метод Вайнера и обладает преимуществом в том смысле, что нечувствителен к числу обозреваемых исслед., его эффективное использование, в конечном счете, зависит от числа степеней свободы, связанного с каждым исслед.
Наконец, метод Стауффера, известный как метод суммирования значений Z (adding Z's method), яв-ся, возможно, наиболее широко используемой процедурой объединения данных, к-рая иллюстрируется следующим уравнением:
.
Эта вычислительная процедура относительно проста. После преобразования приведенных в публикациях значений р в соответствующие нормированные отклонения, или Z-величины, эти значения Z суммируются и делятся на корень квадратный из числа объединяемых исслед. (N). Данная процедура основана на том известном факте, что сумма нормированных отклонений сама яв-ся нормированным отклонением, с дисперсией, равной числу включаемых в анализ исслед. Единственное известное ограничение этого метода связано с тем, что предположение единичной дисперсии для каждого из объединяемых исследований может при некоторых обстоятельствах повышать ошибки I и II рода.
Когда число объединяемых данных невелико, при оценивании общей значимости данных разумно воспользоваться не одной, а несколькими процедурами параллельно. Даже если объединяется большое число опубликованных данных, рекомендуется использовать вторую процедуру объединения как средство проверки результатов М. Хотя существенные различия в результатах применения метааналитических процедур встречаются крайне редко, вычисление критериальных статистик разными методами все же делает выводы анализа более убедительными. В зависимости от конкретных обстоятельств, исследователь должен рассматривать возможность применения и других процедур, включ. модели сложения вероятностей и проверки среднего р Эджингтона (Edgington's adding probabilities and testing mean p models), модели сложения взвешенных Z-величин и проверки среднего Z (the adding weighted Zs and testing mean Z models), а также различные вычислительные методы и методы объединения данных в блоки.
Оценка величины эффекта
Вторая общая метааналитическая стратегия в области объединения данных, полученных в разных исслед., предполагает оценивание силы интересующего эффекта. В отличие от первой стратегии, предполагающей определение общей значимости данных, оценка величины эффекта сосредоточена более конкретно на силе эффекта гипотетической связи между переменными. Как заметил Коэн: "Не подразумевая каких-либо необходимых выводов о причинности, удобно пользоваться выражением величина эффекта в значении уровня представленности определенного феномена в генеральной совокупности или, иначе говоря, степени ложности нулевой гипотезы (нулевой величины эффекта)".
Оценки величины эффекта можно получать с помощью широкого множества методов. В данном случае мы ограничимся рассмотрением статистических критериев, подходящих для оценки а) корреляционных связей и б) групповых различий на основе t-критерия Стьюдента. При оценивании эффекта корреляционных связей цель заключается в объединении данных разных исслед., касающихся связи между двумя изучаемыми переменными, измеренными в интервальной шкале или шкале отношений, тогда как оценивание групповых различий относится к оценке степени изменения предусмотренного гипотезой исхода (= результата) при сравнении двух тождественных групп, чаще всего определяемой относительно таких условий, как "контроль/эксперимент" или "предварительное/итоговое тестирование".
Опубликованные исслед. различаются эксперим. планами и критериальными статистиками, приводимыми в описании результатов. Данные, относящиеся к связи между переменными, могут быть выражены в единицах корреляции произведения моментов Пирсона (r), квантилей ?2-распределения или к.-л. др. стат., а данные о групповых различиях могут приводится с использованием t, F или др. стат. Поэтому прежде чем оценивать общую величину эффекта, нужно перейти от разных итоговых статистик, сообщаемых в анализируемых публикациях, к к.-л. общей мере. К наиболее часто используемым для этой цели мерам относятся корреляция произведения моментов Пирсона (применительно к корреляционным данным) и d-статистика (применительно к групповым различиям, оцениваемым с помощью t-критерия Стьюдента). Хотя далее речь пойдет именно об этих двух стат., М., конечно же, не ограничивается их применением. Что касается процедур преобразования с использованием разнообразных стат., следует обратиться к Розенталю. После того как сообщаемые в анализируемых публикациях стат. выражены в единых мерах, можно начинать анализ величины эффекта.
Корреляционные связи. Оценка величины эффекта между двумя изучаемыми переменными требует выполнения простых арифметических действий по следующей формуле:
.
Иначе говоря, вычисляется простое среднее арифметическое корреляций путем деления суммы приведенных в публикациях коэффициентов корреляции на число суммируемых коэффициентов (п). В качестве альтернативы использованию значений r можно усреднять значения величины Z Фишера:
.
После замены значений r соответствующими значениями Z (по формуле или с помощью специальной таблицы преобразований Фишера) сумма значений Z делится на число коэффициентов корреляции, включ. в анализ. Затем преобразуется обратно в соответствующее значение r, к-рое и сообщается в качестве итоговой стат. анализа.
В ходе дальнейшего оценивания величины эффекта может потребоваться учесть различия между исслед., касающиеся а) вариации объема выборок и б) использования различных способов или методик измерения. Так как две вышеописанные процедуры не предусматривают введение поправок или весов исходя из различий объема выборок, коэффициент корреляции (или Z Фишера) из исслед., проведенного на выборке из 10 чел., будет учитываться в них с тем же весом, что и др. коэффициент, полученный на выборке объемом в 500 человек. Признавая потенциальную важность этого типа вариабельности, Хантер с соавторами и Розенталь рекомендуют при проведении анализа величины эффекта использовать среднее арифметическое значений r, взвешенных соответственно различиям выборок, на к-рых они были получены. Вообще говоря, желательно сообщать данные о величине эффекта, основанные на средних арифметических и взвешенных, и невзвешенных величин.
Относительно измерения переменных, включаемых в М. величины эффекта, должно быть подтверждено, что на общем концептуальном или теорет. уровне выбранные для анализа переменные относятся к двум феноменам, сохраняющим свою идентичность во всех условиях проведения обозреваемых исслед. (напр., соц. класс и психол. благополучие). Но на уточненном и более конкретном уровне измерений соответствующие переменные могли измеряться с помощью разных способов или методик. Хотя этот источник потенциальных различий так или иначе учитывается в анализе общей значимости данных, его нужно принимать в расчет и при интерпретировании значения оценок величины эффекта. В тех областях исслед., где определенные измерительные шкалы были признаны стандартными и потому регулярно используются, эта проблема может не быть столь острой, как в тех областях, где нет общепринятых и широко используемых шкал. Однако именно в этих последних областях исслед. можно извлечь существенные выгоды из М., разумеется, при условии, что он отражает вдумчивый и внимательный подход к анализируемым данным.
Групповые различия. При оценивании групповых различий, определенных на основе t-критерия Стьюдента, проводится двухступенчатый анализ. Сначала, по данным каждого включенного в обзор исслед. определяется стандартизованная масштабно-инвариантная оценка предполагаемого эффекта. Так, напр., если проводится обзор 7 опубликованных исслед., стандартизованная оценка величины эффекта вычисляется для каждого из различных наборов групп, содержащихся в этих исслед. Эти наборы сопоставляемых групп чаще всего отображают ситуации типа "контроль/эксперимент" или "предварительное/итоговое тестирование". Для вычисления стандартизованной оценки величины эффекта (d) в каждом исслед. используется следующая формула:
.
В этом выражении абсолютная разность между средними величинами, приводимыми при каждом сопоставлении групп, делится на стандартное (среднее квадратическое) отклонение (SD). Используемое здесь SD - это стандартное отклонение, вычисленное либо по данным контрольной группы или предварительного тестирования, либо по данным объединенной выборки (или "генеральной совокупности"). После определения этих стандартизованных разностей между групповыми средними (d), каждой величине d придается положительное или отрицательное значение, в зависимости от дифференциального эффекта, зарегистрированного внутри этих двух типов групп. Если, как и предполагалось в гипотезе, величина группового среднего больше в экспериментальной группе или в итоговом тестировании, чем в контрольной группе или в предварительном тестировании, то соответствующая величина d для данного исслед. получает знак плюс. Если же наблюдается обратное, противоречащее исходной гипотезе, соотношение групповых средних, то соответствующая величина d получает знак минус. Когда все знаки определены, можно вычислить общую итоговую меру величины эффекта для объединяемых из разных исслед. данных. Эта вычислительная процедура представлена выражением
,
согласно к-рому сумма положительных и отрицательных значений d для каждого включенного в обзор исслед. делится на число исслед. (п). Эта итоговая статистика (среднее d) и будет отображать величину эффекта между двумя состояниями групп, измеренного в единицах стандартного отклонения.
Заключение
Решающим условием расширения сферы использования метааналитических методов является доступность необходимой информ. о статистических критериях, используемых в обозреваемых исслед. Без сообщения в публикациях точных значений критериальных статистик (например, р, t, Z, d или r) и др. необходимой информ., перспективы применения М. будут весьма ограниченными. С увеличением доступности такой информ. будет продолжаться реальное расширение метааналитических исслед. и совершенствование его методологии.
По мере развития самого М. ряд проблем, считавшихся ранее препятствиями на пути использования его методов, привлек внимание исследователей. В результате были выявлены некоторые вызывающие сомнение аспекты М. и предприняты попытки (нужно сказать, успешные) найти решения этих проблем. В частности, М. справился с такими проблемами, как учет посредствующего воздействия др. переменных и применение в исслед. непараметрических методов. В настоящее время М. представляет собой динамическую, многоаспектную систему методов, позволяющую теоретически и методологически убедительным способом объединять в одно целое данные разных научных исслед.
Будущее М., по-видимому, зависит не столько от разрешения технических проблем, сколько от продвижения в понимании концептуальной базы М.
См. также Теория алгоритмически-эвристических процессов, Критерий хи-квадрат, Корреляционные методы, Теория обработки информации, Проверка нулевой гипотезы, Моделирование структурными уравнениями, Анализ временных рядов
Д. Никинович
Метапсихология (metapsychology)
В буквальном смысле слова термин М. означает то, что находится "за" психологией или "позади" нее, так же как термин "метафизика" означает то, что находится "за" физикой или "позади" нее. Эти два значения связаны между собой, но не идентичны. То, что находится "за" психологией, обычно относится к сфере систематизации или теорет. рассмотрения вопросов и проблем, к-рые, строго говоря, не принадлежат к области психологии, но релевантны ей. Обычно это проблемы и вопросы общетеоретического или филос. характера, предполагаемые психологией.
В этом смысле термин М. наиболее часто используется в рамках психоанализа. З. Фрейд часто употреблял этот термин, вначале подразумевая, что психология, к-рой он занимался, имела дело с тем, что лежало за пределами сознательного опыта, а позднее - говоря об исходных посылках психоанализа. Рапопорт и Гилл расширили М. психоанализа и показали, что полное его понимание возможно лишь при комплексном подходе, учитывающем 5 перспектив: а) динамическую (постулирование психол. сил); б) экономическую (рассмотрение постулированных сил с т. зр. количества заключенной в них энергии); в) структурную (постулирование постоянных психол. структур); г) генетическую (описание происхождения и развития рассматриваемых психол. явлений); д) адаптивную (понимание психол. явлений в их связи со средой).
Вторая трактовка термина М. - т. е., как того, что находится "позади" психологии, - появилась позднее и связана с развитием философии науки. С этой т. зр. М. - всего лишь одна из многочисленных научных специализаций, нацеленная на раскрытие максимально полной совокупности принципов, исходных предпосылок, понятий и принимаемых без доказательств способов объяснения или объяснительных факторов, к-рые делают конкретную науку понятной. Чтобы "метанаука" в этом смысле слова заявила о себе, сама наука должна просуществовать какое-то время; тогда вслед за ней может прийти и "метанаука".
Разные трактовки термина М. использовал Ж. Политцер. Принимая на вооружение первую из рассмотренных выше трактовок, он обвинял "классическую психологию" в выходе за пределы ее собственного предмета - челов. действия, - для введения в оборот таких ошибочных метапсихологических понятий, как "материя души" или "внутренняя жизнь". В этом смысле термины М. и "метапсихологические" понятия (принципы и т. д.) имеют негативные, уничижительные коннотации, поскольку метапсихологические допущения понуждают психологию выходить за границы ее предмета и постулировать наличие таких фиктивных сущностей, как душа, ментальные процессы и факты сознания.
См. также Теоретическая психология
А. Джорджи
Метод антиципации (anticipation method)
М. а. в вербальном научении - это распространенный способ предъявления стимульного материала в задачах на парные ассоц. и заучивание рядов.
При использовании М. а. в задачах на парные ассоц. испытуемым говорится, что они должны реагировать определенным образом всякий раз, когда предъявляется стимул. Несколько секунд спустя этот стимул и соответствующая ему реакция предъявляются совместно. Т. о. испытуемые чередуют антиципирующие реакции и получаемую обратную связь. Эти пары "стимул-реакция" предъявляются каждый раз в случайном порядке. Обучение продолжается до тех пор, пока не будет достигнут определенный критерий (например, правильное предвосхищение всех реакций). М. а. для задач на парные ассоц. отличается от метода проверки заучивания (также называемого методом задержки или вспоминания) для тех же задач, при к ром испытуемым показывают весь список пар прежде чем они будут давать ответы на каждый отдельный стимул.
При использовании М. а. в задачах на заучивание рядов испытуемым сначала предъявляется список элементов, к-рые предстоит заучить в соответствующем порядке. При последующих пробах испытуемые пытаются предвосхитить очередной пункт из списка за несколько секунд до его появления. В каждой пробе элементы списка предъявляются в неизменной последовательности. Обучение продолжается до тех пор пока не будет достигнут определенный критерий (как правило, безошибочное воспроизведение). М. а. для задач на заучивание рядов отличается от метода проверки заучивания для тех же задач, при к-ром предъявления испытуемым полного списка чередуются с попытками воспроизвести этот полный список.
Достоинство М. а. заключается в том, что он обеспечивает испытуемых немедленной обратной связью в отношении правильности их реакций. Однако его недостатком яв-ся то, что он объединяет научение и выполнение. Выполнение, как правило, оказывается несколько лучшим при использовании метода проверки заучивания, чем М. а., хотя это превосходство может зависеть от характеристик заучиваемого списка.
См. также Методология (научных) исследований
М. Мэтлин
Метод критических случаев (critical incident technique)
М. к. с., относящийся к категории методов профессиографического анализа деятельности, был впервые описан Дж. Фланаганом в 1954 г. Этот метод связан со сбором сотен описаний эпизодов эффективных и неэффективных трудовых действий, которые реально наблюдали в своей трудовой деятельности опытные специалисты, руководители и другие работники. Эти эпизоды, названные "критическими случаями", должны представлять собой специфические действия, к-рые иллюстрируют успех или неудачу в одной из сторон анализируемого вида деятельности. Напр., критическим неэффективным случаем для водителя грузовика может являться: "Водитель не посмотрел в зеркало заднего вида, когда давал задний ход, и в результате врезался в припаркованную машину". Наблюдателя, вспоминающего критический случай, как правило, просят описать: а) что послужило причиной данного случая и ситуацию, в к-рой он произошел; б) в чем именно заключалась эффективность или неэффективность действий индивидуума; в) очевидные последствия этих действий; г) в состоянии ли был индивидуум контролировать эти последствия.
После того как набирается несколько сотен критических случаев, они подвергаются контент-анализу и классифицируются одним или несколькими экспертами по категориям или "измерениям" критического рабочего поведения. Эти измерения впоследствии служат основой для проверки или разраб. тестов и других процедур профессионального отбора. Их также можно использовать как базис при разработке программ профессионального обучения.
Важное преимущество М. к. с. как метода профессиографического анализа заключается в том, что он фокусируется на наблюдаемом и поддающемся измерению рабочем поведении. К недостаткам этого метода можно отнести то, что его реализация требует много времени и сил, а также его пренебрежение средним уровнем трудовой эффективности.
М. к. с. использовался также для других, не связанных с профессиографическим анализом, целей.
См. также Промышленная психология, Профессиографический анализ, Оценка труда работника для установления заработной платы, Анализ рабочих заданий
У. Сосер-мл.
Метод Монтессори (Montessory method)
На пороге XX в. в Европе приобрел распространение новый и революционный метод обучения - М. М. - основанный на оригинальных идеях Марии Монтессори, первой женщины-врача в Италии. Ее страсть к преподаванию обнаружилась, когда она в своей школе начала обучать детей с задержками умственного развития, а позднее - трудных детей.
Она считала основной проблемой образования необходимость в установлении новых и лучших взаимоотношений между детьми и взрослыми на протяжении различных стадий детского развития. Она признавала права детей и с уважением относилась к ним как к людям, обладающим чувством собственного достоинства. Работа учителя, объясняла она, заключается в налаживании взаимоотношений между учеником и учителем. Это достигается путем управления ситуацией в классе и введением материалов, которые увлекают детей и позволяют им обучаться самим в своем собственном темпе. Здание школы должно стать Домом детей, с детской мебелью и оборудованием, специально изготовленными для того, чтобы отвечать их интеллектуальным и физ. потребностям.
Дети располагают свободой в выборе любых материалов, к к-рым они тянутся. Каждый выбор уч-ся раскрывает уникальные потенциальные возможности ребенка. Дети могут работать самостоятельно или в группах. Классы не разделены по возрасту и правила нацелены на поощрение взаимного сотрудничества, а не соперничества. Поскольку дети оказываются увлечены своей работой, они не имеют времени для озорства. Взамен этого они обретают самодисциплину.
Материалы Монтессори предназначены для обеспечения дошкольника элементами практ. жизненного опыта, развития сенсорных способностей, языка и школьных умений. Письмо вводится до обучения чтению посредством рисования (копирования) букв пальцем на покрытой песком бумаге (tracing sandpaper letters). К 4 или 5 годам дети Монтессори спонтанно осваивают письмо. Правописание осваивается с использованием разрезной азбуки.
Полный цикл обучения включает науки, историю, географию, геометрию и арифметику. Программа обучения опирается на существующие данные о том, что дети дошкольного возраста могут решать задачи и выполнять большое количество интеллектуальной работы до достижения ими формального возраста поступления в школу. Монтессори ссылалась на уникальную способность разума впитывать впечатления в период от рождения до 6-летнего возраста.
См. также Альтернативные педагогические системы, Обучение методом (управляемых) открытий, Индивидуальное образование, Результаты обучения (I, II)
Ш. Браун
Методика вынужденного выбора (forced-choice testing)
Тестирование с применением М. в. в. требует сравнительных, в противоположность абсолютным, оценок пунктов. М. в. в. обычно применяется в самооценочных инструментах, таких как инвентари интересов или оценочные (рейтинговые) шкалы. Чел., отвечающему на пункты таких опросников, предъявляются пары, тройки или, максимум, 5-6 типичных черт, действий или других характеристик, связанных с измеряемым качеством и уравненных по своей желательности/нежелательности. Респондент должен проранжировать их, указав наиболее и наименее предпочитаемую (или наиболее и наименее характерную), и разместить все оставшиеся в каждом из пунктов между этими двумя полюсами. В противоположность этому, "абсолютное измерение" (absolute measurement) часто выполняется с помощью оценочных (рейтинговых) шкал, в к-рых используется такая форма ответов, как "согласен/не могу сказать/не согласен" или "нравится/безразличен/не нравится", иногда с добавлением градаций интенсивности: "очень нравится/скорее нравится/ни да ни нет/ скорее не нравится/очень не нравится". Сторонники абсолютного шкалирования критически относятся к М. в. в., потому что она не допускает выражения того, в какой степени чел. нравится некоторая деятельность или качество, и насколько важными или характерными он их считает. Сторонники М. в. в., однако, заявляют, что она препятствует тенденции респондента давать большинство оценок в средней области шкалы (между двумя полюсами) или делать выбор на основе воспринимаемой соц. желательности. Другим аргументом в пользу М. в. в. яв-ся то, что она отражает реальную жизненную ситуацию: невозможно одновременно делать три равно привлекательных вещи, и нередко нам приходится выбирать среди трех равно непривлекательных занятий.
См. также Психологическая оценка, Шкалирование
Э. Даймонд
Методика наводнения (flooding)
М. н. (фладинг) относится к группе методов поведенческой терапии и используется преимущественно для снятия страхов и фобий. Самую общую характеристику применения М. н. дают в своей статье Маршалл, Готье и Гордон: "Фладинг - это родовой термин для обозначения процедур, имеющих своей целью угашение классов дезадаптивных реакций на аверсивные раздражители за продолжительные периоды времени при отсутствии реальных физически травмирующих последствий". Как следует из этого определения, М. н. имеет два главных отличительных признака. Во-первых, пациент к.-л. образом подвергается действию устрашающего или аверсивного раздражителя. Во-вторых, пациент подвергается конфронтации с интенсивными или в высокой степени аверсивными вариантами раздражителя, обычно в течение длительного времени.
Подтверждена высокая эффективность М. н. в лечении агорафобий. В комбинации с профилактикой реакций, метод также показан для лечения обсессивно-компульсивных расстройств. Используются две основные стратегии экспозиции пациента действию аверсивных раздражителей. Наводнение in vivo предполагает воздействие реальных раздражителей, часто в естественной обстановке. Психотерапевт может сопровождать больного или предписывать ему самостоятельное включение в соответствующую деятельность. При воображаемом наводнении раздражители представлены лишь в воображении: больной просто как можно ярче визуализирует критические моменты. Обычно наводнение in vivo позволяет добиться лучших результатов.
См. также Новаторские психотерапии, Психотерапия
А. Беллак
Методика репертуарных решеток (repertory grid technique)
Все формы репертуарной решетки яв-ся производными от Репертуарного теста ролевых конструктов Дж. Келли (Role Construct Repertory Grid Test). Впервые данный тест был описан в его двухтомном труде, где он сформулировал основные принципы теории личных конструктов. М. р. р. сыграла существенную роль в развитии теории Дж. Келли с самого начала ее использования, выступая и как методика клинической оценки, и как исследовательский инструмент.
По сути дела, М. р. р. представляет собой метод количественного и статистического анализа взаимосвязей между когнитивными измерениями, используемыми при выполнении задания на множественную классиф. Все еще широко применяемая оригинальная процедура Дж. Келли предназначалась для получения от каждого испытуемого репрезентативной выборки "личных конструктов" (биполярных измерений суждений типа "веселый/ печальный") и оценки взаимосвязей между этими конструктами по мере их использования для категоризации списка знакомых испытуемому лиц. Др. исследователями были разработаны тесты решетки, в к-рых испытуемым либо предлагался стандартный набор конструктов, либо использовалась некоторая комбинация извлеченных у тестируемого и заданных тестирующим конструктов. Однако при всех формах репертуарной решетки данные, полученные от каждого испытуемого, заносятся в отдельную двумерную матрицу, где каждый конструкт записывается в соответствующую строку, а каждый элемент - в соответствующий столбец.
Статистические методы, применяемые для анализа индивидуальных репертуарных решеток как в исследовательских, так и клинических целях, среди прочих, включают в себя анализ главных компонент, многомерное шкалирование, иерархический кластерный анализ и непараметрический факторный анализ. Сходные методы анализа применялись к объединенным данным репертуарных решеток, полученных от группы испытуемых.
Наиболее широко используемым стандартизированным репертуарным тестом является Тест решетки для шизофренических расстройств мышления Баннистера и Франселла (Grid Test of Schizophrenic Thought Disorder). К другим стандартным тестам решеток относятся Решеточный тест когнитивной сложности Джеймса Биери (Grid Test of Cognitive Complexity), описанная Франселла Биполярная импликативная решетка (Bipolar Implications Grid), а также Диадная решетка (Dyad Grid) и Двойная диадная решетка (Double Dyad Grid), описанные Энтони Райлом.
См. также Теория личных конструктов
Дж. Адамс-Уэббер
Методика Роршаха (Rorchach technique)
Эта методика приобрела известность после публикации в 1921 г. "Психодиагностики" (Psychodiagnostik) Германа Роршаха. Он рассматривал психич. расстройства как (овладевающие человеком) болезненные сущности (disease entities) и любил говорить о таких способностях организма, как воля, эмоции, интеллект и воображение. Роршах сначала был юнгианским аналитиком и, экспериментируя с чернильными пятнами, он пытался разраб. средства предсказания того, будут ли пациенты интроверсивными или экстратенсивными.
Техника Роршаха приобрела популярность в тот период в истории клинической психологии, когда в ней господствовал психоаналитический подход и когда внутренние процессы и бессознательное являлись для клинических психологов осн. предметом исслед.
Техника Роршаха больше не считается магическим инструментом, обладающим непостижимой способностью к проникновению за пределы "здесь-и-сейчас", и чудесным образом раскрывающим внутреннюю сущность. Отчасти это следствие того факта, что некая внутренняя сущность больше не является осн. целью поиска, по крайней мере, тем способом, как это делалось прежде. Скорее, большинство клиницистов в настоящее время интересует прогнозирование поведения в конкретных ситуациях. Экснер, сделав тщательный обзор различных интерпретационных схем теста Роршаха и, отобрав в каждой из них самое ценное, предложил исчерпывающую систему, к-рая позволила придать большую стройность и последовательность в проведении, обработке рез-тов и использовании этого теста в исследовательских целях.
См. также Проективные методики
У. Клопфер
Методика чернильных пятен Хольцмана (Holtzman inkblot technique)
Данная методика (HIT) была разработана Уэйном Хольцманом и др. в 1961 г. с целью преодоления психометрических недостатков Теста чернильных пятен Роршаха. Ее отличительные особенности состоят в следующем.
- Тестовый материал. Был разработан новый набор чернильных пятен, в результате чего их общее количество увеличилось до 45 по сравнению с 10 у Роршаха. Сконструирован тж параллельный набор. Эти параллельные формы дают высокий коэффициент надежности эквивалентных форм.
- Процедура. Задача тестируемого радикально изменилась. Тестируемый ограничен единственным ответом на каждое пятно.
- Система количественных показателей. Ответы оцениваются по двадцати двум переменным, а взвешенная система подсчета количественных показателей дает один числовой показатель для каждой их этих переменных.
- Интерпретация. Хольцман и его коллеги представили обширные данные корреляционного и факторного анализа переменных HIT, а тж данные о корреляциях этих переменных с личностными опросниками.
Результаты исслед. свидетельствуют о том, что показатель движения измеряет способность к воображению и идеаторную зрелость, и что HIT дифференцирует такие диагностические категории, как шизофрения и депрессия. Гэмбл представил сводку данных в следующих областях: влияние экзаменатора и установки тестируемого; возрастные изменения; кросс-культурные исслед.; и связь показателей HIT с когнитивными процессами, агрессией, образом тела и диагностическими категориями.
Хольцман практически не проявлял интереса к концептуальной валидности HIT. Его исслед. фокусировались преим. на связях отдельных переменных чернильных пятен с личностными чертами или диагностическими категориями. Осн. цель клинического использования методики чернильных пятен, а именно описание личности конкретного человека, оказалась утраченной.
См. также Проективные методики, Методика Роршаха
Э. М. Сиипола
Методики психотерапии (psychotherapy techniques)
Ниже приводятся конкретные примеры методик, используемых психотерапевтами для изменения поведения, когниций и эмоционального состояния клиентов.
Разговор - фокусирование на интеллекте
Свободные ассоциации. Психотерапевт в свободной от оценочных суждений атмосфере выслушивает сообщения клиента о его психич. образах в том порядке, в каком он предпочитает высказываться. Интерпретации используются позднее. Клиенту предлагается отреагировать словами на слова, подобранные и предъявляемые в определенной последовательности психотерапевтом; реакции варьируют от отдельных слов до кратких предложений. Интерпретируется как содержание ответа, так и возможные задержки при ответе.
Анализ сновидений. Оставшийся в памяти сюжет сновидения представляет собой его явное содержание; интерпретация осн. на скрытом содержании, выражающем желание. Поскольку желания часто связаны с психотравмирующими событиями прошлого, индивидуум пытается маскировать истинное значение сна и тем самым минимизировать душевную боль.
Скрытое значение сновидений м. б. рекомендацией внутреннего Я сознательной личности. Мн. сновидения завершаются решением актуальной проблемы.
Недирективное интервью. Клиенту предлагается высказываться при минимальном направлении в беседе со стороны психотерапевта. Психотерапевт ограничивает свои комментарии повтором или перефразированием высказываний клиента и описанием выраженных им эмоций. Клиенту предлагается скорректировать или подтвердить правильность понимания его психотерапевтом.
Воображение. При проведении эйдетической психотер. клиенту предлагается вообразить унижение при неудаче, а затем чувство гордости в связи с успехом. Требуется детальное описание эмоций в первом, и во втором случаях. Скрытым посланием клиенту является то, что он контролирует ситуацию и может делать выбор в пользу чувства успеха или чувства неудачи.
Директивное интервью. Клиенту предлагается ответить на фиксированную последовательность вопросов или заполнить стандартизованный опросник.
Анализ видеозаписей поведения. Клиенту предлагается интерпретировать показанный ему материал в соответствии с заранее оговоренными измерениями. Обычно для просмотра предъявляются записи сегментов поведения самого клиента. Один из вариантов - непосредственная конфронтация клиента с только что зафиксированным эпизодом его поведения. Видеокамеры установлены в помещении для занятий, психотерапевт дистанционно управляет съемкой, выбирая ракурсы по своему усмотрению.
Интерпретация. В терапии разрешения конфликтов психотерапевт помогает клиенту концептуализировать природу конфликта, лежащего в основе проблемы, а затем предлагает клиенту найти ее решение.
Румпельштильцхен (гном в немецкой сказке). Психотерапевт может иногда драматически воздействовать на поведение "магией" правильного слова или интерпретативной фразой. Чутко воспринимающий клиент может продемонстрировать значительную динамику, если центральной проблеме дать определенное имя.
Конфронтация. Психотерапевт при помощи направленной "атаки" обращает внимание на отказ клиента взять на себя ответственность за лечение. Ошибки менее общего характера (преувеличение жалоб или неправомерные обобщения) выделяются и маркируются как иррациональные.
Юмор. В работе с клиентом используются различные стили юмора: преувеличение до абсурда, пародирование обреченного на неуспех поведения, высмеивание неразумных поступков и сарказм, тщательно сбалансированный с невербальными проявлениями эмоционального тепла и принятия клиента.
Противоречивые сообщения. В провоцирующей терапии психотерапевт на словах соглашается с пессимизмом, выражаемым клиентом, но невербально поддерживает мнение, что ему можно помочь. Дальнейшее испытание реальности стимулируется тем, что негативные высказывания клиента доводятся до логического предела или немедленного и поверхностного согласия с высказыванием "я никуда не гожусь".
Беседа по телефону. Разговоры по телефону снижают соц. барьеры и представляются в особенности показанными тревожным клиентам с нестабильным состоянием, воспринимающим психотерапевта как крайнюю угрозу. Есть сообщения об аналогичных преимуществах при использовании компьютерных терминалов для "бесед" с клиентами.
Молчание. А. Адлер часто скрещивал руки на груди и ничего не говорил, чтобы побудить клиентов к пересмотру своих выводов и мотиваций. Мн. др. психотерапевты считают молчание важным техническим приемом.
Разговор - фокусирование на аффекте
Поддержка. Клиент рассматривается не как больной, а как просто упавший духом чел. Сделанные им ошибки не фатальны, надо лишь вернуть веру в себя. Психотерапевт поддерживает клиента в то время как его способность к совладанию возрастает.
Эмоциональный разговор. В тренинге ассертивности клиента учат произвольному выражению спонтанно возникающих эмоций. Поощряется намеренное использование слова "я".
Поэзия. Клиент выражает свои эмоции посредством чтения стихов, подобранных как психотерапевтом, так и им самим.
Домашние животные. Предлагается брать с собой на сеансы психотер. домашних животных, особенно детям. Собаки не только являются непосредственным источником душевного комфорта, но могут тж стать начальной темой для беседы.
Смещение. Клиента обучают переводить желание или потребность в более адаптивное поведение. В орг-ции "Анонимные алкоголики", напр., прием алкоголя замещается дружеской поддержкой др. участников.
Релаксация. Клиента обучают упражнениям, к-рые могут выполняться в любой обстановке для снижения уровня тревоги.
Гипноз. Иногда гипноз используется как вспомогательная процедура для снижения торможения или интрапсихической цензуры материала, вызывающего тревогу.
Оживление эмоциональных воспоминаний. Мн. системы психотер. подчеркивают благоприятный эффект ярких воспоминаний деталей психотравмирующего эпизода.
"Стрижка". В течение оговоренного периода клиент должен терпеливо выслушивать тирады о своих недостатках и ошибках, не предпринимая к.-л. попыток защитить себя.
"Вопль". В Процессе новой идентичности (New Identity Process) клиента обучают демонстрировать свои эмоции голосом.
Разговор - фокусирование на репетиции поведения
Фиксированная роль. Проведение этой методики начинается с того, что клиент составляет описание собственной личности в третьем лице. Затем составляется др. набросок, на этот раз с наличием, по меньшей мере, одной важной альтернативной черты. Клиенту сообщается, что его истинная роль "уходит в отпуск" на определенный промежуток времени, напр., на две недели. На это время он должен как можно полнее принять альтернативную роль. В конце этого срока альтернативная роль оставляется клиентом, после чего, однако, он вероятно что-то изменит в своей подлинной роли.
Воображение. Клиент входит в состояние мышечного расслабления с закрытыми глазами, а затем представляет себе сцену, заданную психотерапевтом. При применении систематической десенсибилизации воображаемые сцены градуированы по степени возрастания интенсивности вызывающего тревогу раздражителя. Это резко отличается от метода имплозивной терапии Штампфля, при к-ром в качестве раздражителей используются только наиболее тревожащие сцены.
Последствия. При использовании метода скрытого обусловливания клиента просят представить себе положительные, отрицательные и нейтральные последствия специфических поведенческих актов.
Групповая терапия. Группа используется как обстановка для репетиции поведения клиента, выполняемого в его обычном повседневном окружении. Клиента тж успокаивает то, что, по его наблюдениям, страхи бывают и у др. людей. В большинстве случаев группы имеют относительно гомогенный состав: примерно одинаковый уровень ранимости, общая проблема или лица естественного окружения.
Психодрама. Эта процедура широко использует театральные приемы. Клиент изображает самого себя; др. участники двигаются, действуют и ведут себя, подыгрывая ему в зависимости от поставленной задачи.
Активное поведение
Моделирование. Адекватное поведение демонстрируется в живом виде или на видеопленке психотерапевтом или др. лицами.
Целью является отработка специфических навыков, напр., спросить кого-либо о времени или пройти собеседование при трудоустройстве.
Игровая терапия. Клиенту, чаще всего ребенку, предоставляется неск. челов. фигурок и др. объектов, иногда в ящике с песком. Психотерапевт задает вопросы о персонажах и событиях в игре.
Физическая активность. Процедура включает массаж, бег трусцой, осознание движений и физ. нападение с безопасными (надувными резиновыми) дубинками.
Арт-терапия. В процедуре используется рисование и др. творческие упражнения. Для лиц, имеющих трудности коммуникации, часто предоставляется возможность рисовать настенные фрески вместе с др. участниками.
Негативная практика. При выполнении этого технического приема клиенту предлагается повторно воспроизводить дезадаптивное поведение или размышление вплоть до наступления состояния утомления.
Факторы окружающей обстановки
Перенесение. Клиент обращается к терапевту с доверием и уверенностью в его возможностях, охотно выполняет сделанные им рекомендации.
Социальная роль. Терапевт должен быть внимательным, чтобы избегать заведенных в об-ве условностей - делать и принимать подарки, менять количество сеансов терапии и вообще вступать в личные отношения с клиентом "после сеанса".
Триадное консультирование. Сеансы проводятся консультантом с участием др. специалистов, выступающих в роли антиконсультанта, "адвоката дьявола".
Непрямой контакт с клиентами
Тренинг, проводимый родителями или непрофессионалами. Вмешательства планируются профессионалами, но выполняются др. лицами из естественного окружения клиента.
Библиотерапия. Удовлетворительный эффект достигается как при работе с профессионалами, так и в порядке самопомощи.
Профилактика. Терапевт консультирует непрофессионалов и представителей парамедицинских профессий при разраб. программ профилактических вмешательств, выполняемых до превращения затруднений клиентов в серьезные страдания.
См. также Поведенческая терапия: проблемы и вопросы, Когнитивные терапии, Психотерапия
Ч. С. Пейзер
Методология (научных) исследований (research methodology)
Методология планирования исслед. в психологии вытекает из принципов методологии исслед. в естественных науках, сформулированных Джоном Стюартом Миллем в методе различия. Он гласит, если за А всегда следует а, и за не-А всегда следует не-а, тогда А определенно является причиной а. В психологии этот базовый принцип дополняется целым рядом специфических соображений. Большинство психол. переменных яв-ся абстрактными и зачастую не имеют непосредственных референтов в биолог. или физ. мире. Сам акт наблюдения или измерения психол. переменных может вызывать реакции или изменение испытуемых. В дополнение к этому, активное включение или исключение испытуемых из состава "выгодной" или "невыгодной" группы в отношении получения или не получения ими некоторого психол. воздействия или условия может послужить причиной того, что эти испытуемые будут отличаться от людей в повседневном мире. Рассмотрением методов научного познания занимается в психологии область М. н. и.
В качестве отправной точки для понимания проблем М. н. и. в психологии рассмотрим одну аксиому и три базовых факта. Общая аксиома науки состоит в том, что не существует знания без сравнения. Для того чтобы убедиться в истинности этого утверждения, достаточно обратиться к методу различия Милля. Из него видно, что сравнение является основой для понимания наблюдений в условиях А и не-А. Для более полного понимания явления необходимы сравнения между парами нескольких различных условий.
Первый факт связан с тем, что измерение в психологии, как правило, оказывается довольно неточным и, на самом деле, никогда не сможет достичь той степени точности, к-рой характеризуются большинство традиционных измерений переменных в физ. и биолог. областях.
Второй факт относится к существованию в психологии довольно большого числа относительно независимых переменных, по-видимому, порядка 400 или более. Некоторые психологи полагают, что таковых существует гораздо больше; другие указывают значительно меньшее число переменных. Тем не менее, попытка удерживать контроль или вести наблюдение даже за таким небольшим числом, как 200 психол. переменных, ставит перед М. н. и. иные проблемы, нежели действительно небольшое число базовых переменных в физике (время, пространство, масса, заряд и т. п.).
Третий факт состоит в том, что исследуемые стороны челов. поведения изменяются со временем: одни не столь сильно (напр., интеллект), тогда как другие, по определению, являются чрезвычайно непостоянными и преходящими (напр., настроение).
Целью психологии является обнаружение новых психол. переменных и демонстрация взаимосвязи этих новых переменных с ранее установленными переменными и, конечно же, новых взаимосвязей между уже известными переменными. Определение психол. переменной состоит в том, что она является понятийной категорией в области психологии.
Именно в этом контексте обнаруживается важность М. н. и. В науке, определение факта есть описание связи между двумя переменными. Однако для понимания значения фактов исследователи должны располагать контекстом компаративных связей, в к-ром только и можно оценить научную значимость полученных ими данных. Именно набор компаративных связей, или контекст наблюдений, придает более полный смысл описанию связи между переменными. Такого рода контекст компаративных связей (отношений) и составляет область методологии и планирования научного исследования.
Поскольку целью большинства наук является понимание того, почему и как возникают связи и отношения, это предполагает в конечном счёте необходимость определения силы, состава и причинного характера (общая причина, взаимодействие, или взаимная обусловленность) этих связей и отношений. Это качество, заключающееся в возможности вывести причинную связь, называется внутренней валидностью плана исследования. Наконец, должно быть показано, что эти исследуемые связи и причинно-следственные утверждения могут быть обобщены или распространены на "реальный" мир за пределами психол. лаборатории или частично контролируемого окружения научного исслед. Возможность таких обобщений называют внешней валидностью плана исследования.
Планы экспериментального исследования в сравнении с планами пассивного обсервационного исследования
Планы исслед. в психологии можно разделить на два широких класса: планы экспериментального исслед. и планы пассивного обсервационного исслед. Планы первого типа предполагают систематическое введение (или исключение) воздействующих на испытуемых переменных либо самим экспериментатором, либо естественно формирующимися условиями в обществе. Затем по интересующим переменным осуществляются сравнения между группами испытуемых, к-рые подвергались и не подвергались воздействию этих переменных или условий. Планы второго типа предполагают, что исследователь просто наблюдает испытуемых в разнообразных естественных условиях и регистрирует показатели (или статус) каждого испытуемого по ряду переменных. Впоследствии устанавливается взаимосвязь между этими показателями и состояниями статуса для условий, в которых проводились наблюдения. Исследователь не предпринимает попыток вводить условия или осуществлять систематические изменения. Довольно широкий спектр психол. исслед. делает затруднительным или невозможным для исследователя изменять статусные переменные. Многие из таких переменных играют в психологии чрезвычайно важную роль, например, возраст, пол, социоэкономический статус и интеллект.
Подлинные эксперименты. Первый широкий класс планов исслед., экспериментальные планы, состоит из двух основных подклассов - подлинные эксперименты и квазиэксперименты. Подкласс "подлинных экспериментов" содержит только один тип плана исслед., хотя этот план может иметь множество вариаций. В подлинных экспериментах испытуемые случайно распределяются по эксперим. и контрольным группам. Можно сказать, что исследуемые группы, формируемые путем распределения испытуемых на основе таблицы случайных чисел, не будут иметь различий в отношении любой переменной за исключением тех, что вызваны влиянием случая, - и степень таких ожидаемых различий может быть с известной точностью определена.
В структуре любого эксперимента можно выделить 3 части: а) группы испытуемых, б) экспериментальные воздействия и в) результаты (или критерии). В подлинном эксперименте, в силу случайного распределения испытуемых по группам, допустимо предположение о том, что все переменные изначально и на протяжении всего времени исслед. будут равносильными, если не вводить некоторых систематически различающихся воздействий или условий. Если же после применения очевидно различающихся воздействий можно показать, что между группами возникают различия в отношении какой-либо переменной, главный вывод будет следующим: такой эффект был вызван именно этими воздействиями, и что такие воздействия действительно различаются. Это очень сильное утверждение, к-рое играет чрезвычайно важную роль в развитии теории в психологии, где утверждения о причинно-следственных связях яв-ся в конечном счете необходимыми для полного понимания явлений. Для исслед., в к-рых могут вводиться или исключаться переменные, подлинный эксперимент, с его исходным случайным распределением испытуемых по группам, является наиболее мощным исследовательским планом. Он не имеет себе равных в отношении внутренней валидности.
Квазиэксперименты. Квазиэкспериментальные группы формируются естественным путем или же в результате вмешательства (но не случайного) других, с описанием вводящихся в эти группы воздействий или условий и критериальных измерений. Кроме того, проведение квазиэксперимента также требует реализации предварительных измерений. Главное отличие квазиэксперимента состоит в неприменимости допущения об изначальном равенстве групп, к-рое имеет место в подлинном эксперименте. Фактически, в основном типе квазиэксперимента (существует несколько их типов), группы со всей очевидностью оказываются изначально неравными.
Изначальный статус (равные или неравные группы) в квазиэкспериментах надлежит определять на основе фактической оценки. Если представляется возможным продемонстрировать, что группы в данном квазиэксперименте являются изначально эквивалентными в отношении одной или более интересующих исследователя переменных, тогда логика исследования становится практически той же самой, что и в подлинном эксперименте. Однако, в большинстве ситуаций оказывается, что квазиэкспериментальные группы действительно изначально различаются. В этих случаях, причинно-следственная логика плана исследования принимает иную форму. Группы изначально являются различными. После введения экспериментального воздействия они должны оказаться или еще более различающимися, или менее различающимися по тем же критериям, чем это имело место в самом начале. Любой из этих вариантов позволяет предположить, что именно данное воздействие могло вызвать большие или меньшие различия в критериях.
Эта общая категория квазиэкспериментов представлена 3 основными типами планов исслед., в рамках к-рых существуют буквально сотни их разновидностей. Эти три типа можно обозначить как: а) сильные квазиэксперименты, в к-рых исходные измерения свидетельствуют об эквивалентности групп; б) слабые квазиэксперименты, в к-рых показана изначальная неэквивалентность групп; в) планы прерывных временных серий. Сильные квазиэксперименты довольно хорошо имитируют причинно-следственную логику подлинных экспериментов. Кроме того, они гораздо более доступны для проведения в реальном мире по сравнению с подлинными экспериментами, где исследователь должен иметь реальную возможность контролировать деятельность тех, кого он изучает, и к кому он применяет условия воздействия.
Основная проблема квазиэкспериментов заключается в том, что даже в тех из них, в которых устанавливается изначальное равенство по нескольким переменным, представляется чрезвычайно трудным определить, что все предшествующие условия, предположительно оказывающие влияние на испытуемых, также являлись равными, или что все переменные в группах испытуемых являлись равными до применения данного воздействия. Нет никакой гарантии, что некоторые неизмеренные важные переменные, которые могут влиять на критерии, окажутся равными в исследуемых группах.
В этом месте с целью иллюстрации проблем валидности эксперим. планов исслед. воспользуемся 2 из 3 базовых фактов. Один факт состоит в том, что психол. переменные изменяются со временем. Другой факт связан с неточностью измерения. Оба этих факта свидетельствуют о том, что никогда нельзя быть абсолютно уверенным в данных эксперим. исслед. - даже подлинного эксперимента. Данные в любом отдельно взятом эксперименте могут быть получены совершенно случайно - в результате естественного процесса изменений со временем и случайных флуктуации в системах измерения. Эта угроза внутренней валидности, называемая нестабильностью, контролируется при помощи статистического анализа.
Проблемы логического вывода о причинно-следственных связях в квазиэксперименте усугубляются. Даже в сильных квазиэкспериментах исследователь должен также предполагать, что все важные переменные функционировали во всех группах одинаковым образом и что все важные предварительные условия в них были тоже одинаковыми. Оба эти допущения может оказаться трудно принять. В слабом квазиэксперименте, где заранее известно об изначальной неэквивалентности групп, возникает еще больше проблем. Прямым следствием из невозможности точного измерения переменных является то, что все наблюдаемые оценки по переменным (за исключением средних оценок) оказываются смещенными. Для высокоточных мер и тех испытуемых, чьи индивидуальные оценки оказываются не слишком далеки от группового среднего, это смещение невелико, но для многих более традиционных мер, широко используемых в психол. исслед., когда обычно измеряют довольно нетипичных испытуемых, оно может оказаться весьма значительным. Это ведет к тому, что при использовании сравнительно неточных мер последующие наблюдаемые оценки таких испытуемых будут иметь тенденцию оказываться ближе к средней даже в отсутствие каких-либо воздействий или необычных условий между начальным и последующими измерениями, такими как измерения по критерию после воздействия в квазиэксперименте. Подобный феномен получил название регрессии к среднему (regression toward mean). Из всего этого можно сделать следующий вывод: хотя слабые квазиэксперименты являются широко распространенным планом исслед. в психологии, они могут вызывать значительные трудности в интерпретации, и их результаты следует рассматривать с известной осторожностью.
Третьим типом квазиэксперимента яв-ся план прерывных временных серий. Он состоит в том, что испытуемые периодически наблюдаются в течение некоторого времени, и в к.-л. момент или в к.-л. определенные моменты между этими наблюдениями применяется воздействие или вводится условие. В сущности, испытуемые здесь выступают в роли собственной контрольной группы благодаря тому, что они наблюдаются до применения воздействия и затем снова наблюдаются после применения воздействия. Хотя эта модель плана исслед. сравнительно успешно работает в классических областях физ. наук и в тех областях биологии, где изучаемые явления характеризуются известной устойчивостью, она имеет непосредственное отношение к одному из трех ранее рассмотренных базовых фактов, а именно, что психол. переменные изменяются со временем - даже в отсутствие каких-либо воздействий. Следовательно, это диктует настоятельную необходимость в проведении некоторого количества наблюдений как до, так и после применения воздействия, с целью оценки степени устойчивости самого изучаемого явления. Систематическое введение и устранение воздействия и последующее наблюдение результатов помогает в более надежном установлении причинно-следственной связи.
Планы пассивного обсервационного исследования
Ко второму основному классу планов исслед. относятся планы пассивного наблюдения, часто включающие внутренние переменные, такие как социоэкономический уровень, средний балл успеваемости и уровень интеллекта, к-рыми невозможно манипулировать. Причинно-следственные связи здесь установить гораздо труднее - они практически не поддаются определению. Анализ результатов таких исслед. обычно проводится с т. зр. оценки силы взаимосвязей между переменными. Различение переменных, относящихся к воздействию или условию, от критериальных переменных может вызывать значительные трудности. Зачастую все наблюдения реализуются в течение одного интервала времени, несмотря на то, что установление направления эффектов может облегчаться путем наблюдений, проводящихся достаточно длительное время, и в лонгитюдных исслед., охватывающих продолжительные периоды развития.
Исслед. методом пассивного наблюдения можно подразделить на 4 основные категории планов исслед.: прогноз и классиф., выборочные и опросные исслед., количественные описательные и качественные описательные. Для 2 последних категорий характерно особенно широкое разнообразие вариантов и методов. Основным ключом для интерпретации результатов пассивного наблюдения служит формулировка тщательно разработанной теории о характере взаимосвязей между переменными и, конечно же, определение круга наиболее важных переменных. Три базовых факта о психол. переменных в исслед. методом пассивного наблюдения начинают играть ведущую роль при интерпретации полученных результатов.
Прогноз и классификация. Они включают К переменных, К - 1 из к-рых используются для прогнозирования будущего (или даже текущего) статуса, а К-я переменная яв-ся прогнозируемой, или критериальной, переменной. Используемый аналитический метод, как правило, яв-ся статистическим и включ. методы множественной корреляции, регрессионного и дискриминантного анализа. Прогноз оказывается особенно полезен в процедурах отбора, где предполагается отбор людей для поступления в учебное заведение или при приеме на работу, и где количество претендентов превышает количество вакантных мест. Основные ограничения этого метода состоят в том, что а) описательный прогноз не обязательно является причинно-следственным прогнозом и что б) возможности прогноза существенно снижаются из-за ограничений точности измерения. Когда прогноз достигает фактических пределов точности измерения, никакая другая переменная, которую можно было бы добавить к набору прогнозирующих переменных, уже не в состоянии повысить уровень этого прогноза.
Выборочные и опросные исследования. Цель этого типа плана пассивного наблюдения заключается в описании большой совокупности людей по сравнительно небольшому числу переменных. Она достигается путем выбора репрезентативной группы, называемой выборкой, из целевой совокупности, и проведением описательных наблюдений. Затем вычисляются средние и показатели изменчивости этих наблюдений и оцениваются интервалы (или размахи) для более широкой совокупности, которые с определенной вероятностью должны содержать выборочные средние для изучаемых переменных.
Количественный описательный план. Этот тип плана исслед. имеет большое количество вариаций. Наблюдения обычно осуществляются примерно в один и тот же промежуток времени на группе или нескольких группах участников исслед. Все наблюдения выражаются в количественной форме при помощи оценочных шкал, тестовых показателей, и т. п. Основным аналитическим методом, использующимся в качестве отправной точки для определения степени связи между каждой парой переменных, обычно служит корреляционный анализ.
Определяется степень поддержки различных гипотез и альтернативных гипотез и, если она оказывается достаточной, выдвигается теория. Проблемы, присущие этому плану исслед., вытекают из базового факта о неточности измерения и принципиальных затруднений с надежным определением причинно-следственных связей. Однако количественные описательные процедуры служат важным этапом в разработке высококачественных эксперим. исследовательских планов. Кроме того, они часто оказываются единственно доступным планом в тех исслед., где переменными невозможно манипулировать в силу их внутреннего характера или по этическим соображениям, либо где манипулирование переменными требует слишком высоких затрат.
Качественный описательный план. Качественный описательный план исслед. характеризуется, пожалуй, еще большим разнообразием вариантов, подходов и тем, чем количественное описательное исслед. К качественному описательному исслед. по большей части относятся теоретические исслед., к-рые ставят своей целью поиск новых неременных и новых взаимосвязей среди старых и новых переменных. Эти обсервационные процедуры, как правило, реализуются в рамках системы представлений о желательности подробной регистрации переменных в наблюдаемых областях. Очевидной целью яв-ся концептуализация новых переменных в области поведения, мышления, чувств и вызывающих их условий внутренней и внешней среды. Наиболее важную роль оно играет в исслед. с изучением только одного или малого количества участников (или, при изучении группового поведения одной или малого количества групп). Этот метод не является независимым от других типов исслед. Он почти неизбежно предваряет собой все др. методы, поскольку здесь часто обнаруживаются новые переменные, к-рые более подробно разрабатываются с помощью количественного описательного метода и впоследствии более строго изучаются эксперим. методами. Данные качественных исслед. обычно представляются в виде подробных повествовательных отчетов.
Угрозы внутренней валидности
"Угрозы внутренней валидности" - выражение, относящееся к плану исслед., к-рое интерпретаторы данных используют для описания ряда вопросов, возникающих в связи с возможными неточностями при интерпретации причинно-следственных связей между изучаемыми переменными. Некоторые из этих угроз уже упоминались, в частности, при описании квазиэкспериментов. Выражение регрессия к среднему показателю используется для описания эффекта неточного измерения текущего и будущих наблюдений, и она представляет собой серьезную угрозу для внутренней валидности плана психол. исслед.
Другой угрозой является естественное развитие, поскольку испытуемые подвержены естественным процессам созревания и развития с течением времени независимо от манипуляций, к-рые совершает над ними исследователь. Эта последняя гипотеза, в частности, объясняет необходимость использования в исслед. контрольных групп, позволяющих осуществлять сравнения с естественно развивающимися испытуемыми.
Еще одной угрозой является отсев. Систематическое сокращение количественного состава групп вследствие выбывания, неявок, переезда людей в другой город, незаполненных критериальных опросников, и т. д. может делать менее заметной в результатах исслед. роль тех оставшихся участников, к-рые оказываются в меньшей степени подвержены эксперим. воздействию. А ведь чем более заметны улучшения по критерию, тем лучше выглядит эффективность самого изучаемого воздействия.
Угроза отбора возникает на этапе формирования исслед. состава групп участников. Систематический отбор или пассивный отбор (собственное желание) участников для изучаемого воздействия или условия может приводить к возникновению различий среди некоторых групп перед началом исслед. Эти группы будут по-прежнему отличаться от других и после реализации воздействия - даже когда они сами не подвергались воздействию. Поэтому, для достижения высокой внутренней валидности (причинно-следственных) утверждений в отношении взаимосвязей переменных, необходима формулировка и проверка альтернативной гипотезы о том, какими могли бы быть эти эффекты в отсутствие такого воздействия или условия.
Фон относится к тем изменениям контекста проводящегося исслед., к-рые могут смешиваться с самими изучаемыми воздействиями. Подобное смешение делает невозможным отнесение изменений в испытуемых на счет исследуемого воздействия или внешних изменений.
Инструментальная погрешность яв-ся угрозой внутренней валидности, почти исключительно присущей психологии, поскольку она возникает в результате происходящих со временем изменений стандартов наблюдателя или условий наблюдения. Эти изменения вызывают различия в оценках. Проблема состоит в том, что подобные расхождения в стандартах измерения могут приводить к ошибочным оценкам тех изменений, к-рые являются следствием изучаемых воздействий.
Эффект тестирования яв-ся примером другой, почти исключительно присущей психологии, угрозы внутренней валидности. Она связана с эффектом улучшения показателей испытуемых просто в результате предыдущего прохождения теста.
Нестабильность, как было указано выше, вытекает из попыток интерпретировать происходящие непосредственно после эксперим. воздействия или спустя к.-л. время естественные изменения испытуемых и измерений.
Существуют также четыре аффективных угрозы внутренней валидности: подражание, компенсаторное соперничество, компенсаторное уравнивание, и деморализация. Они тж присущи исключительно психол. науке, поскольку возникают в результате эмоциональных изменений у испытуемых и проводящего измерения персонала как формы адаптации к тому факту, что они не попали в число "избранных" участников исслед., получающих и осуществляющих эксперим. воздействие.
Внешняя валидность и метаанализ
Наконец, существует понятие внешней валидности - суммы характеристик исслед., к-рая позволяет осуществлять обобщение или распространение получаемых в исслед. (как результат высокой внутренней валидности) причинно-следственных утверждений на сходные категории людей, воздействий и критериев за пределами данного исслед.
Метаанализ. Внешняя валидность результатов исслед. существенно усиливается, когда объединяется и обобщается целый ряд исслед. одной и той же воздействующей переменной. Такая процедура называется метаанализом. В метаанализе определяются величина эффекта, оказываемого эксперим. воздействием и основными условиями исслед. на критериальные переменные. Последние выбираются в зависимости от теоретических интересов проводящего метаанализ исследователя. Т. о., если основной анализ предполагает сравнение связей всех пар переменных, то набор интересующих метааналитика связей является набором из переменных-условий и критериальных переменных, к-рый позволяет судить о величине эффекта изучаемого воздействия на эти критериальные переменные. Величина эффекта для каждого исслед. определяется простым делением разности между средними показателями по критериальной переменной в эксперим. группах и контрольной группе на меру изменчивости индивидуальных показателей в этих группах. В результате такого анализа можно продемонстрировать, что целый ряд изучавшихся переменных условий не оказывают влияния на набор критериев, что позволяет исследователям обобщать результаты своих исслед., не оглядываясь на эти, как было установлено в ходе метаанализа, посторонние условия.
Наконец, можно определить степень влияния каждой переменной-воздействия и их различных сочетаний на критерии. Это представляет особый интерес для прикладных областей, где важно знать не только о том, что одна переменная влияет на другую, но и насколько велико такое влияние.
См. также Контрольные группы, Экспериментальные методы, Проверка гипотезы, Измерение, Статистика в психологии
Дж. Эшер
Методы многомерного анализа (multivariate analysis methods)
Многомерность свойственна психол. данным по природе, поскольку они чаще всего состоят по крайней мере из неск. наблюдений за поведением одного человека или группы лиц. М. м. а. и были созданы для совместной обработки таких данных, напр. для их исслед. с целью обнаружения присущих им базисных характеристик либо, в случае дедуктивного подхода, для проверки или оценки априорных гипотез в отношении этих данных. В своих лучших образцах многомерный анализ представляет собой обобщение одномерного анализа, так что в тех случаях, когда данные состоят из значений только одной переменной, многомерный метод будет давать тот же результат, что и соотв. одномерный метод. Так, есть статистики, базирующиеся на многомерном распределении случайных величин, к-рые можно свести к таким хорошо известным одномерным статистикам, как хи-квадрат или t-критерий.
Многомерный анализ включает широкий спектр мат. и статистических методов и, вообще говоря, не существует общепринятого определения границ этой области. По общей договоренности, однако, такие специализированные предметы, как теория надежности или теория латентных черт, не считаются разделами многомерного анализа в силу их обособленных традиций в сфере психол. исслед. Методы анализа множественных дихотомических переменных часто рассматриваются и изучаются под своими названиями, напр. логлинейные модели. Также анализ повторных наблюдений, проведенных на одном человеке или на каком-то др. объекте, скажем, классе, обычно относится к особой области, наз. анализом временных рядов.
Модели
Многомерный анализ требует соединения трех различных типов информ. в одном методе, к-рый можно применять на практике. С т. зр. психолога, из накопленных в психологии действенных идей и знаний необходимо извлекать наиболее существенное и применять к ситуации анализа исходных данных. Такое очищенное знание, особенно если оно формализовано, наз. психол. моделью. Психол. модель обеспечивает контекст для выбора наиболее подходящего метода из множества многомерных или др. методов анализа (либо статистического описания) данных.
Второй тип используемой информ. - это мат. или структурная модель, устанавливающая отношения между осн. переменными, наблюдениями, параметрами и пр. Структурная модель является формально-математическим представлением, к-рое предполагается релевантным многомерной ситуации в силу психол. модели. В общем, многомерные методы основываются на линейных по своей природе моделях. Т. к. психол. теории часто предполагают существование нелинейных связей, иногда бывает трудно сделать допущение о линейности. И все-таки принятие этого допущения может быть оправданным в тех случаях, когда большинство зависимых (т. е. предсказываемых) переменных имеют аппроксимативно непрерывный характер. Если же эти переменные являются дихотомическими или порядковыми, будет трудно обосновать допущение о линейности иначе как соображениями удобства или аппроксимации.
Третий тип информ. - это статистическая модель. Такую модель нужно разрабатывать всякий раз, когда предполагается что-то большее, чем простое описание данных. В этом случае, помимо статистического описания данных, интерес могут представлять выводы о более широкой совокупности, на выборке из к-рой и были получены изучаемые данные. Осн. вопрос при состыковке структурной и статистической моделей - ошибка, обусловленная структурой наблюдений (error structure of observations). Недавно полученное обобщение многомерного нормального распределения, допускающее ненулевой, но постоянный эксцесс кривых плотности распределения переменных, оказалось полезным в качестве основы для расширения традиционных методов; был тж введен ряд непараметрических методов.
В добавление к описанию распределения переменных статистическая модель должна описывать модель выборки, используемой для получения наблюдений. Обычно полагают, что таковая является моделью независимых случайных наблюдений, при к-рой на оценки каждого отдельного человека не влияют оценки др. людей. Наконец, статистическая модель должна точно определять границы области действия определенных статистических или случайных процессов.
Хотя М. м. а. можно и нужно использовать как разведочные, для проникновения в суть собранных данных и формулирования гипотез о скрывающихся за ними факторах, большой класс этих методов составляют конфирматорные (подтверждающие) по своему характеру методы, предназначенные для проверки теорий. В общем, конфирматорный подход к многомерному анализу претендует на решение следующих задач: а) оценивание параметров распределения для проверки гипотез об этих параметрах; б) определение доверительных областей измеренных значений переменных на основе обоснованного применения теории выборок и стандартных ошибок; в) оценивание адекватности гипотетической структурной модели; г) сравнение контрастных моделей; д) придание вероятностных формулировок разным результатам и е) доверительное оценивание выводов.
Методы
Осн. многомерные методы можно разбить на 3 категории: методы линейных моделей, методы линейной композиции и линейные структурные методы. Их классиф. зависит от того, в какой степени включаемые в анализ переменные можно считать случайными, а не заданными или известными, и в какой мере можно опираться на теорию малых выборок, а не только на теорию больших выборок, учитывая, что теория линейных моделей является наиболее разработанной, а структурные методы, по крайней мере, достаточно хорошо разработаны в статистическом плане. Как уже упоминалось, существуют еще и нелинейные методы.
См. также Корреляция и регрессия, Статистика в психологии
П. М. Бентлер
Методы тестирования (testing methods)
Психол. тесты разраб. для столь широкого разнообразия целей, что сами М. т. значительно варьируют от теста к тесту. Существует множество континуумов, по к-рым можно классифицировать отдельные тесты.
С т. зр. содержания тест может измерять максимальное выполнение или типичное выполнение, выявлять лучший уровень, к-рого может достичь обследуемый, либо типичный уровень его выполнения. Тесты на максимальное выполнение (maximum performance tests) предполагают правильные и неправильные ответы; тесты на типичное выполнение (typical performance tests) обычно оценивают различия в стилях выполнения, без использования сравнительной оценки ответов с т. зр. их эффективности.
Тесты на максимальное выполнение можно разделить на две категории: тесты способностей и тесты достижений. Чистые тесты способностей (ability tests) измеряют то, что чел. оказывается в состоянии делать, и обычно формулируют тестовые задания в виде проблем, непосредственным опытом решения к-рых тестируемый вряд ли обладает. Чистые тесты достижений (achievement tests) оценивают объем знаний, к-рый чел. усвоил в процессе предшествующего обучения. Однако это различие не всегда является очевидным, поскольку тесты способностей, как правило, тж предполагают использование ранее усвоенных правил и принципов. Большинство споров, касающихся ошибок в тестах способностей, концентрируются вокруг вопроса о том, в равной ли степени все потенциальные обследуемые имели в своей жизни возможность овладеть этими предполагаемыми в качестве предварительного условия умениями.
Тесты способностей и тесты достижений можно классифицировать на континууме скорость - возможность. Чистые тесты скорости (speed tests) состоят из вопросов, на к-рые легко дать правильный ответ, но этот ответ необходимо дать быстро. Чистые тесты возможностей (power tests) состоят из заданий, обычно различающихся по степени трудности, к-рые оценивают максимальное выполнение без ограничений времени на работу с ними.
В соответствии с др. принципом классиф. можно выделить тесты действия, или "практические" (performance tests), и тесты вербальные, или "теоретические" (nonperformance tests). Тесты действия обычно требуют явного, активного реагирования, такого как моторные и манипулятивные действия, в то время как вербальные тесты обычно предполагают письменные вербальные ответы на вопросы.
Тесты личности (personality tests) подразделяются на два осн. типа: объективные и проективные. Объективные тесты личности (objective personality tests), такие как Миннесотский многофазный личностный опросник (ММРI), обычно включают вопросы, предполагающие ответы в форматах "да/нет" или множественного выбора, к-рые доступны объективной количественной обработке. Эти вопросы (или утверждения), составляющие пункты теста, часто объединяются в шкалы, измеряющие различные аспекты личности. Несмотря на объективность получения оценок по отдельным шкалам, их интеграция в профили для целостного описания личности обычно предполагает привлечение субъективных суждений. Проективные тесты (projective tests) используют неопределенные стимулы, к-рые обследуемый должен интерпретировать, предположительно путем "проецирования" в эту интерпретацию отдельных аспектов своей собственной личности. Классическими проективными тестами являются Тест чернильных пятен Роршаха и Тест тематической апперцепции (ТAT). Проведение и обработка проективных тестов требует специальной подготовки и значительного профессионального опыта.
Тесты могут разраб. для индивидуального или групп. проведения. Индивидуальные тесты, такие как IQ-тесты Векслера, требуют для проведения больших временных затрат. Групп. тесты, такие как Тест академических способностей (SAT), требуют меньших временных затрат, но обычно не позволяют тестирующему оценивать аттитюды к тестированию, анализировать стратегию ответов или расспрашивать тестируемого в отношении специфических ответов с целью поиска дополнительной, уточняющей информ.
Тремя осн. подходами в интерпретации тестовых показателей являются нормативный, ориентированный на статистические нормы, критериально ориентированный и ипсативный. Нормативный подход используется наиболее часто и предполагает сравнение индивидуального показателя с групповым, рассматриваемыми в качестве нормы. Критериально-ориентированная система связывает уровень выполнения теста индивидуумом с абсолютными стандартами или критериями. Ипсативный подход предполагает сравнение индивидуальных показателей друг с другом.