Топ
| Оценка репрезентативности интернет тестирования на примере теста EPI(m) |
| Автор: Суицидолог | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Необходимость оценки репрезентативности тестовой методики обусловлена, прежде всего тем, что тестирование проводилось через Интернет. Исследования через интернет появились сравнительно недавно и имеют целый ряд преимуществ.
Несомненно исследование через интернет имею и недостатки. Прежде всего это конечно же анонимность тестирования. В результате анонимности респонденты могут давать случайные ответы на вопросы и есть вероятность искажения информации о себе. Тем не менее валидность интернет-исследований оказывается высокой - большинство результатов совпадает с результатами аналогичных работ, проведенных традиционным способом. Иногда отмечается, что при проведении опроса в сети Интернет регистрируется большее количество "крайних" и нелогичных суждений (что, однако, не нарушает сходства результатов сетевого и традиционного тестирования). В остальных случаях результаты исследований в Интернете почти или полностью совпадают с данными, полученными традиционными способами. То есть вероятность фальсификации ответов некоторыми испытуемыми недостаточно высока для того, чтобы значимо исказить результаты работы в целом. И это неудивительно, поскольку большой объем выборки исследования является одним из самых надежных способов увеличения валидности и надежности тестирования. Проведение же круглосуточного мониторинга, как в нашем случае например, вообще не ограничивает объем выборки, поскольку ежемесячно она увеличивается в среднем на сто значений. Т.е. со временем, можно ожидать наступление такого момента, когда наша выборка данных по суицидальному риску практически ничем не будет отличаться от генеральной совокупности выборки. Выборка пользователей Интернета на данный момент четко определена, что несколько ограничивает возможности генерализации результатов исследования. Пользователи российского Интернета (по даннымпо данным служб Яндекса и компании RU-Center: Осенью 2008 года полугодовая аудитория Рунета превысила 34 миллиона человек — это 30% российского населения от 18 лет.По развитию интернета регионы приблизились к столицам, но разрыв всё еще велик — от 32% до 600% для разных показателей развития интернета. По сумме показателей развития интернета первое место среди российских регионов занимает Урал. Последнее — Юг. Самые близкие к среднероссийским показатели развития интернета — в Поволжье. Динамичнее всего интернет развивался на Северо-Западе. Самые низкие темпы развития — на Урале.) - преимущественно люди в возрасте от 14 до 35 лет, в основном женщины, с высшим и незаконченным высшим образованием, со средним или выше среднего уровнями дохода, жители больших городов. Так же одним из существенных недостатков выборки исследования в сети Интернет является и то, что в нем участвуют добровольцы и, следовательно, она может быть нерепрезентативна по отношению к генеральной совокупности, поскольку из выборки "выпадают" не захотевшие безвозмездно принять участие в исследовании. Любая тестовая методика характеризуется тремя свойствами: валидностью, надежностью и репрезентативностью. Мы хотим получить численную характеристику репрезентативности нашего теста. Под репрезентативностью теста принято понимать репрезентативность тестовых норм. Иными словами насколько выборка полученная при помощи норм теста( его граничных шкальных условий) соответствует генеральной совокупности выборки. Не путать с консистентностью (КОНСИСТЕНТНОСТЬ - взаимная согласованность между эмпирическими индикаторами-вопросами вопросника, отдельными шкалами и т.п., относящимися к одному фактору или к одному диагностическому конструкту.), показывающей способность теста выделять исследуемый признак вообще и отделять его от других показателей. Задача оценки репрезентативности в идеальном случае совсем не тривиальна, поскольку предполагает знание генеральной совокупности выборки исследуемого явления. Что само по себе невозможно. И такую задачу невозможно решить. В свое время К.Проппер сформулировал замечательное правило научного познания: « Мы не знаем- мы можем только предполагать». Собственно на этом правиле и держится вся наука, т.е. мы не знаем, но выдвигаем ряд граничных условий, которые позволяют нам предположить существование некоего факта. Подобным образом построено много искусственных механизмов обработки исходной выборки, рандомизация данных, например, которая так же предполагает знание характера генеральной совокупности и позволяет на небольших объемах данных несколько повысить внутреннюю валидность эксперимента. В интернет исследованиях, не ограниченных по количеству данных и по времени, подобные процедуры не только излишни, но, возможно и вредны, поскольку могут исказить реальную картину исследования. В интернет исследованиях необходимо прежде всего терпение. В отличие от исследований проводимых в реальных условиях интернет исследование не имеет ограничений ни по времени проведения ни по количеству данных. И именно для того, чтобы оценить насколько наши выводы предварительны мы и проводим численную оценку репрезентативности тестовой методики или более корректно оценку репрезентативности тестовых норм. В нашем случае мы предполагаем, что тестовая методика Юнацкевича, разработанная в реальных условиях обладает большей репрезентативностью чем наша, и в большей мере отражает характер генеральной совокупности. После чего мы сравниваем статистическую значимость ответов респондентов из группы риска, выявленных при помощи нашей методики, с ответами, которые теоретически должны были дать респонденты. Для того чтобы оценить репрезентативность тестовой методики мы использовали метод многофункциональных критериев. Многофункциональные статистические критерии - это критерии, которые могут использоваться по отношению к самым разнообразным данным, выборкам и задачам. Это означает, что данные могут быть представлены в любой шкале, начиная от номинативной (шкалы наименований). В нашем случае как раз и рассматривается номинативная шкала, т.е. шкала вопросов. Это означает также, что выборки могут быть как независимыми, так и "связанными", то есть мы можем с помощью многофункциональных критериев сравнивать и разные выборки испытуемых, и показатели одной и той же выборки, измеренные в разных условиях. Многофункциональные критерии позволяют решать задачи сопоставления уровней исследуемого признака, сдвигов в значениях исследуемого признака и сравнения распределений. К числу многофункциональных критериев в полной мере относится критерий j* Фишера (угловое преобразование Фишера) и, с некоторыми оговорками, биномиальный критерий m. Многофункциональные критерии построены на сопоставлении долей, выраженных в долях единицы или в процентах. Суть критериев состоит в определении того, какая доля наблюдений (реакций, выборов, испытуемых) в данной выборке характеризуется интересующим исследователя эффектом и какая доля этим эффектом не характеризуется. Критерий j*применяется в тех случаях, когда обследованы две выборки испытуемых, биномиальный критерий m - в тех случаях, когда обследована лишь одна выборка испытуемых. Критерий Фишера предназначен для сопоставления двух выборок по частоте встречаемости интересующего исследователя эффекта. Критерий оценивает достоверность различий между процентными долями двух выборок, в которых зарегистрирован интересующий нас эффект. Нулевая статистическая гипотеза: доля респондентов, входящих в группу суицидального риска, так же часто отвечает на вопросы утвердительно, как и не утвердительно, т.е. ответы совершенно случайны. Альтернативная статистическая гипотеза: доля респондентов, входящих в группу суицидального риска, отвечает на вопросы неслучайным образом. Для того чтобы выделить в нашей выборке группу суицидального риска, мы преобразовали данные выборки относительно математического ожидания и дисперсии, т.е. создали интервальную шкалу, аналогичную стеновой шкале Кеттелла. Была рассчитана норма суицидального риска как среднее значение общей совокупности выборки плюс-минус среднее значение стандартного отклонения. После чего была проведена оценка результатов тестирования и выбран численный диапазон, в котором статистическая значимость полученных результатов тестирования была наиболее высока. Этот интервал расположен от-36% до +68%. Таким образом, в нашей интервальной шкале все значения, находящиеся выше верхней границы нормы суицидального риска, считаются принадлежащими группе повышенного суицидального риска. Количество человек, попавших в эту группу, равно 198. Утвердительные ответы на все вопросы теста каждого из них сопоставлялись с противоположными ответами. После чего оценивалась статистическая значимость полученных различий. Определяем процентное содержание групп, по-разному ответивших на вопросы относительно общего количества человек в группе, и для каждого процентного соотношения по специальным таблицам определяем критерии Фишера, т.е. получаем соответственно два угла j1j2. и По формуле определяем эмпирический критерий Фишера: (j1-j2)*√(n1*n2)/(n1+n2)=( Далее по специальной таблице сравниваем полученный эмпирический критерий с критическим значением критерия для социологических и психологических исследований. Для сравнения используем правило отклонения гипотезы об отсутствии различий и принятия альтернативной статистической гипотезы о статистической достоверности различий, предложенное Р.Рунионом (1982) Если эмпирическое значение критерия равняется критическому значению, соответствующему r≤0,05, или превышает его, то нулевая статистическая гипотеза отклоняется, но мы еще не можем принять альтернативную статистическую гипотезу. Если эмпирическое значения критерия равняется критическому значению, соответствующему r≤0,01, или превышает его, то нулевая статистическая гипотеза отклоняется, а альтернативная статистическая гипотеза принимается. j*кр для r≤0,05 составляет 1,64. j*крr≤0,01 составляет 2,31. для Полученные нами абсолютные значения эмпирического критерия для подтверждения альтернативной статистической гипотезы должны быть, как минимум, больше 1,64. Для однозначного подтверждения альтернативной статистической гипотезы они должны быть больше 2,31.В таблице даны результаты расчетов:
На графике представлены величины статистической значимости, полученные в результате расчета для каждого вопроса теста.
Из графика видно, что мы имеем 9 нерепрезентативных вопросов. Основная же часть вопросов уверенно располагается в зоне статистической значимости, что позволяет нам утверждать, что тест репрезентативен на 89%.
Большинство выпадений приходится на шкалу суицидального риска. Но и с учетом этого репрезентативность нашей шкалы относительно шкалы Юнацкевича составляет 80%, что вполне допустимо для статистических исследований.
В то же время показана высокая репрезентативность теста по шкалам EPIАйзенка. Шкалы Айзенка в нашей методике имеют репрезентативность 92%.
Так же определен самый нерепрезентативный вопрос. Им оказался вопрос 68. Вопрос сформулирован следующим образом: «Считаете ли вы себя нервным человеком?» Ровно половина респондентов, входящих в группу суицидального риска, считает себя человеком нервным, другая же половина нервными себя не считает. Возможно, это покажется интересным для сторонников идеи психопатологии суицида. В то же время есть два вопроса, на которые более 90% респондентов ответили утвердительно: «Нравится ли Вам работа, требующая быстрого действия?» (это шкала экстраверсии), «Верно ли, что Вам часто не дают покоя мысли о разных неприятностях и ужасах, которые могли бы произойти, хотя все кончилось благополучно?» (это шкала нейротизма). Возможно, эти вопросы могут быть применены в практике экспресс - диагностики суицидального риска.
СПИСОК ЛИТЕРАТУРЫ
1. Ромек В.Г., Сатин Д.К. Надежность тестов при тестировании в Интернете // Междисциплинарный семинар "Виртуальная коммуникация в сети Интернет" межрегиональной исследовательской группы Н. Петровой при Российском Институте Культурологии. М., 1999. С. 27-36.
2. Roberts L.D., Smith L.M., Pollock C. Dancing on the edge of new technology: The Internet as a tool for psychological research. Paper presented at the 5th European Congress of Psychology, Dublin, 1997.
3. Schmidi W.C. Behavior Research Methods, Instruments, Computers. 1997. V. 29 (2). P. 274-279.
4.Психологический Журнал, 2000, том 21, № 2, с. 75-78 «О ВОЗМОЖНОСТЯХ ПСИХОЛОГИЧЕСКИХ ИССЛЕДОВАНИИ В СЕТИ ИНТЕРНЕТ» ©2000 г. А.Е.Жичкина.
Суицидолог службы 2009-07-10
|