Оценка репрезентативности интернет тестирования на примере теста EPI(m)
Рейтинг пользователей: / 1
ХудшийЛучший 
Автор: Суицидолог   

 Необходимость оценки репрезентативности тестовой методики обусловлена, прежде всего тем, что тестирование проводилось через Интернет. Исследования через интернет появились сравнительно недавно и имеют целый ряд преимуществ.

  • Экономия времени, средств, человеческих и др. ресурсов. Фактор "экономии ресурсов" обычно является ключевым при принятии решения о проведении эксперимента в сети Интернет.

  • Возможность набрать большее число испытуемых, что обеспечивает и большую точность статистических выводов.

  •  Расширение выборки по сравнению с традиционными формами, что позволяет снизить влияние культурно-специфичных факторов и дает возможность с большей уверенностью обобщать результаты исследования. Иногда проведение исследования в сети - единственный способ набрать необходимое количество испытуемых из целевой совокупности. Здесь проще найти специфическую группу испытуемых, труднодоступную в обычных условиях, в частности, - исследовать маргинальные социальные группы.

  •  Легкость изменения методического инструментария на этапе его разработки и апробации.

  •  Приближенность экспериментальной ситуации к условиям, в которых находится испытуемый, что обеспечивает большую экологическую валидность.

  • Снижение влияния экспериментатора.

  • Возможность предоставления индивидуальной обратной связи непосредственно после прохождения тестирования, что служит дополнительным фактором привлечения испытуемых.

  • Испытуемые в Интернете более откровенны, что снижает искажения данных под воздействием фактора социальной желательности. При опросах с использованием электронной почты выявлена меньшая потребность в одобрении, чем в традиционных исследованиях. При ответах на открытые вопросы по электронной почте испытуемые дают более подробную и развернутую информацию.

  • Появление дополнительных возможностей программного контроля за выполнением заданий . Эта позволяет решить проблему неполных ответов, их формата и последовательности выполнения заданий.

Несомненно исследование через интернет имею и недостатки. Прежде всего это конечно же анонимность тестирования. В результате анонимности респонденты могут давать случайные ответы на вопросы и есть вероятность искажения информации о себе. Тем не менее валидность  интернет-исследований оказывается высокой - большинство результатов совпадает с результатами аналогичных работ, проведенных традиционным способом. Иногда отмечается, что при проведении опроса в сети Интернет регистрируется большее количество "крайних" и нелогичных суждений (что, однако, не нарушает сходства результатов сетевого и традиционного тестирования). В остальных случаях результаты исследований в Интернете почти или полностью совпадают с данными, полученными традиционными способами. То есть вероятность фальсификации ответов некоторыми испытуемыми недостаточно высока для того, чтобы значимо исказить результаты работы в целом. И это неудивительно, поскольку большой объем выборки исследования является одним из самых надежных способов  увеличения валидности и надежности тестирования. Проведение же круглосуточного мониторинга, как в нашем случае например, вообще не ограничивает объем выборки, поскольку ежемесячно она увеличивается в среднем на сто значений. Т.е. со временем, можно ожидать наступление такого момента, когда наша выборка данных по суицидальному риску практически  ничем не будет отличаться от генеральной совокупности выборки.  Выборка пользователей Интернета на данный момент четко определена, что несколько ограничивает возможности генерализации результатов исследования. Пользователи российского Интернета (по даннымпо данным служб Яндекса и компании RU-Center: Осенью 2008 года полугодовая аудитория Рунета превысила 34 миллиона человек — это 30% российского населения от 18 лет.По развитию интернета регионы приблизились к столицам, но разрыв всё еще велик — от 32% до 600% для разных показателей развития интернета. По сумме показателей развития интернета первое место среди российских регионов занимает Урал. Последнее — Юг. Самые близкие к среднероссийским показатели развития интернета — в Поволжье. Динамичнее всего интернет развивался на Северо-Западе. Самые низкие темпы развития — на Урале.) - преимущественно люди в возрасте от 14 до 35 лет, в основном женщины, с высшим и незаконченным высшим образованием, со средним или выше среднего уровнями дохода, жители больших городов. Так же одним из существенных недостатков выборки исследования в сети Интернет является и то, что в нем участвуют добровольцы и, следовательно, она может быть нерепрезентативна по отношению к генеральной совокупности, поскольку из выборки "выпадают" не захотевшие безвозмездно принять участие в исследовании.

Любая тестовая методика характеризуется тремя свойствами: валидностью, надежностью и репрезентативностью. Мы хотим получить численную характеристику репрезентативности нашего теста. Под репрезентативностью теста принято понимать репрезентативность тестовых норм. Иными словами насколько выборка полученная при помощи норм теста( его граничных шкальных условий) соответствует генеральной совокупности выборки. Не путать с консистентностью (КОНСИСТЕНТНОСТЬ - взаимная согласованность между эмпирическими индикаторами-вопросами вопросника, отдельными шкалами и т.п., относящимися к одному фактору или к одному диагностическому конструкту.), показывающей способность теста выделять исследуемый признак вообще  и отделять его от других показателей.  Задача оценки репрезентативности  в идеальном случае совсем не тривиальна, поскольку предполагает знание генеральной совокупности выборки исследуемого явления. Что само по себе невозможно. И такую задачу невозможно решить. В свое время К.Проппер сформулировал замечательное правило научного познания: « Мы не знаем- мы можем только предполагать». Собственно на этом правиле и держится вся наука, т.е. мы не знаем,  но выдвигаем ряд граничных условий, которые позволяют нам предположить существование некоего факта. Подобным образом построено много искусственных механизмов обработки исходной выборки, рандомизация данных, например, которая так же предполагает знание характера генеральной совокупности и позволяет на небольших объемах данных несколько повысить внутреннюю валидность эксперимента. В интернет исследованиях, не ограниченных по количеству данных и по времени, подобные процедуры не только излишни, но, возможно и вредны, поскольку могут исказить реальную картину исследования. В интернет исследованиях необходимо прежде всего терпение. В отличие от исследований проводимых в реальных условиях интернет исследование не имеет ограничений ни по времени проведения ни по количеству данных. И именно для того, чтобы оценить насколько наши выводы предварительны мы  и проводим численную оценку репрезентативности тестовой методики или более корректно оценку репрезентативности тестовых норм. В нашем случае мы предполагаем, что тестовая методика Юнацкевича, разработанная в реальных условиях обладает большей репрезентативностью чем наша, и в большей мере отражает характер генеральной совокупности. После чего мы сравниваем статистическую значимость ответов респондентов из группы риска, выявленных при помощи нашей методики, с  ответами, которые теоретически должны были дать респонденты.

Для того чтобы оценить репрезентативность тестовой методики мы использовали метод многофункциональных критериев.

Многофункциональные статистические критерии - это критерии, которые могут использоваться по отношению к самым разнообразным данным, выборкам и задачам.

Это означает, что данные могут быть представлены в любой шкале, начиная от номинативной (шкалы наименований). В нашем случае как раз и рассматривается номинативная шкала, т.е. шкала вопросов.

Это означает также, что выборки могут быть как независимыми, так и "связанными", то есть мы можем с помощью многофункциональных критериев сравнивать и разные выборки испытуемых, и показатели одной и той же выборки, измеренные в разных условиях.

Многофункциональные критерии позволяют решать задачи сопоставления уровней исследуемого признака, сдвигов в значениях исследуемого признака и сравнения распределений.

К числу многофункциональных критериев в полной мере относится критерий j* Фишера (угловое преобразование Фишера) и, с некоторыми оговорками, биномиальный критерий m.

Многофункциональные критерии построены на сопоставлении долей, выраженных в долях единицы или в процентах. Суть критериев состоит в определении того, какая доля наблюдений (реакций, выборов, испытуемых) в данной выборке характеризуется интересующим исследователя эффектом и какая доля этим эффектом не характеризуется.

Критерий j*применяется в тех случаях, когда обследованы две выборки испытуемых, биномиальный критерий m - в тех случаях, когда обследована лишь одна выборка испытуемых.

Критерий Фишера предназначен для сопоставления двух выборок по частоте встречаемости интересующего исследователя эффекта.

Критерий оценивает достоверность различий между процентными долями двух выборок, в которых зарегистрирован интересующий нас эффект.

Нулевая статистическая гипотеза: доля респондентов, входящих в группу суицидального риска, так же часто отвечает на вопросы утвердительно, как и не утвердительно, т.е. ответы совершенно случайны.

Альтернативная статистическая гипотеза: доля респондентов, входящих в группу суицидального риска, отвечает на вопросы неслучайным образом.

Для того чтобы выделить в нашей выборке группу суицидального риска, мы преобразовали данные выборки относительно математического ожидания и дисперсии, т.е. создали интервальную шкалу, аналогичную стеновой шкале Кеттелла.

Была рассчитана норма суицидального риска как среднее значение общей совокупности выборки плюс-минус среднее значение стандартного отклонения. После чего была проведена оценка результатов тестирования и выбран численный диапазон, в котором статистическая значимость полученных результатов тестирования была наиболее высока. Этот интервал расположен от-36% до +68%.

Таким образом, в нашей интервальной шкале все значения, находящиеся выше верхней границы нормы суицидального риска, считаются принадлежащими группе повышенного суицидального риска. Количество человек, попавших в эту группу, равно 198. Утвердительные ответы на все вопросы теста каждого из них сопоставлялись с противоположными ответами.

После чего оценивалась статистическая значимость полученных различий.

Определяем процентное содержание групп, по-разному ответивших на вопросы относительно общего количества человек в группе, и для каждого процентного соотношения по специальным таблицам определяем критерии Фишера, т.е. получаем соответственно два угла j1j2. и

По формуле определяем эмпирический критерий Фишера:

(j1-j2)*√(n1*n2)/(n1+n2)=(

Далее по специальной таблице сравниваем полученный эмпирический критерий с критическим значением критерия для социологических и психологических исследований.

Для сравнения используем правило отклонения гипотезы об отсутствии различий и принятия альтернативной статистической гипотезы о статистической достоверности различий, предложенное Р.Рунионом (1982)

Если эмпирическое значение критерия равняется критическому значению, соответствующему r≤0,05, или превышает его, то нулевая статистическая гипотеза отклоняется, но мы еще не можем принять альтернативную статистическую гипотезу.

Если эмпирическое значения критерия равняется критическому значению, соответствующему r≤0,01, или превышает его, то нулевая статистическая гипотеза отклоняется, а альтернативная статистическая гипотеза принимается.

j*кр для r≤0,05 составляет 1,64.

j*крr≤0,01 составляет 2,31. для

Полученные нами абсолютные значения эмпирического критерия для подтверждения альтернативной статистической гипотезы должны быть, как минимум, больше 1,64. Для однозначного подтверждения альтернативной статистической гипотезы они должны быть больше 2,31.В таблице даны результаты расчетов:

N
Ответ «да»
Ответы «нет/не знаю»
Процент «да» %
Процент «нет» и «не знаю»%
Эмпирический критерий Фишера
1
79
119
39,89899
60,10101
2,804457355
2
134
64
67,67677
32,32323
4,764840388
3
129
69
65,15152
34,84848
4,197214249
4
14
184
7,070707
92,92929
7,441141484
5
109
89
55,05051
44,94949
1,427926405
6
95
103
47,9798
52,0202
0,562390281
7
28
170
14,14141
85,85859
7,854768557
8
79
119
39,89899
60,10101
2,804457355
9
157
41
79,29293
20,70707
7,138607243
10
171
27
86,36364
13,63636
7,875920128
11
81
117
40,90909
59,09091
2,532117942
12
125
73
63,13131
36,86869
3,597988004
13
177
21
89,39394
10,60606
7,850943985
14
44
154
22,22222
77,77778
6,897122008
15
110
88
55,55556
44,44444
1,566221213
16
136
52
68,68687
26,26263
5,378879247
17
16
182
8,080808
91,91919
7,620105029
18
137
61
69,19192
30,80808
5,119397163
19
122
76
61,61616
38,38384
3,202579869
20
162
36
81,81818
18,18182
7,484114595
21
150
48
75,75758
24,24242
6,53676595
22
28
170
14,14141
85,85859
7,854768557
23
166
32
83,83838
16,16162
7,691709823
24
131
67
66,16162
33,83838
4,394246238
25
45
153
22,72727
77,27273
6,810850718
26
1
197
0,505051
99,49495
2,850773693
27
110
88
55,55556
44,44444
1,566221213
28
147
51
74,24242
25,75758
6,214876946
29
4
194
2,020202
97,9798
5,095734687
30
117
81
59,09091
40,90909
2,532117942
31
168
30
84,84848
15,15152
7,769684678
32
56
142
28,28283
71,71717
5,690912749
33
184
14
92,92929
7,070707
7,441141484
34
16
182
8,080808
91,91919
7,620105029
35
152
46
76,76768
23,23232
6,720950853
36
114
84
57,57576
42,42424
2,121091057
37
60
138
30,30303
69,69697
5,238025305
38
172
26
86,86869
13,13131
7,88908055
39
138
60
69,69697
30,30303
5,238025305
40
49
149
24,74747
75,25253
6,442789808
41
164
34
82,82828
17,17172
7,593962027
42
190
8
95,9596
4,040404
5,998561275
43
17
181
8,585859
91,41414
7,691099367
44
24
174
12,12121
87,87879
7,899072443
45
86
112
43,43434
56,56566
1,848295967
46
172
26
86,86869
13,13131
7,88908055
47
24
174
12,12121
87,87879
7,899072443
48
157
41
79,29293
20,70707
7,138607243
49
158
40
79,79798
20,20202
7,214676148
50
52
146
26,26263
73,73737
6,117901059
51
134
64
67,67677
32,32323
5,159716663
52
128
70
64,64646
35,35354
3,989110835
53
31
167
15,65657
84,34343
7,731402413
54
113
85
57,07071
42,92929
1,985002004
55
17
181
8,585859
91,41414
7,691099367
56
175
23
88,38384
11,61616
7,899224358
57
175
23
88,38384
11,61616
7,899224358
58
68
130
34,34343
65,65657
4,269670841
59
138
60
69,69697
30,30303
5,238025305
60
19
179
9,59596
90,40404
7,79992344
61
62
136
31,31313
68,68687
5,005276432
62
40
158
20,20202
79,79798
7,214676148
63
186
12
93,93939
6,060606
7,195097295
64
74
124
37,37374
62,62626
3,471876621
65
43
155
21,71717
78,28283
6,979641385
66
164
34
82,82828
17,17172
7,593962027
67
126
72
63,63636
36,36364
3,743208832
68
99
99
50
50
0
69
165
33
83,33333
16,66667
7,645816503
70
162
36
81,81818
18,18182
7,484114595
71
4
194
2,020202
97,9798
5,095734687
72
155
43
78,28283
21,71717
6,979641385
73
24
174
12,12121
87,87879
7,899072443
74
173
25
87,37374
12,62626
7,898546248
75
32
166
16,16162
83,83838
7,691709823
76
180
18
90,90909
9,090909
7,750601619
77
58
140
29,29293
70,70707
5,468941655
78
40
158
20,20202
79,79798
7,214676148
79
74
124
37,37374
62,62626
3,471876621
80
87
111
43,93939
56,06061
1,711018105
81
93
105
46,9697
53,0303
0,84272286
 
 
 На графике представлены величины статистической значимости, полученные в результате расчета для каждого вопроса теста.

 

Из графика видно, что мы имеем 9 нерепрезентативных вопросов. Основная же часть вопросов уверенно располагается в зоне статистической значимости, что позволяет нам утверждать, что тест репрезентативен на 89%.
Большинство выпадений приходится на шкалу суицидального риска. Но и с учетом этого репрезентативность нашей шкалы относительно шкалы Юнацкевича составляет 80%, что вполне допустимо для статистических исследований.
В то же время показана высокая репрезентативность теста по шкалам EPIАйзенка. Шкалы Айзенка в нашей методике имеют репрезентативность 92%.
Так же определен самый нерепрезентативный вопрос. Им оказался вопрос 68. Вопрос сформулирован следующим образом: «Считаете ли вы себя нервным человеком?» Ровно половина респондентов, входящих в группу суицидального риска, считает себя человеком нервным, другая же половина нервными себя не считает. Возможно, это покажется интересным для сторонников идеи психопатологии суицида. В то же время есть два вопроса, на которые более 90% респондентов ответили утвердительно: «Нравится ли Вам работа, требующая быстрого действия?» (это шкала экстраверсии), «Верно ли, что Вам часто не дают покоя мысли о разных неприятностях и ужасах, которые могли бы произойти, хотя все кончилось благополучно?» (это шкала нейротизма). Возможно, эти вопросы могут быть применены в практике экспресс - диагностики суицидального риска.
СПИСОК ЛИТЕРАТУРЫ
1.      Ромек В.Г., Сатин Д.К. Надежность тестов при тестировании в Интернете // Междисциплинарный семинар "Виртуальная коммуникация в сети Интернет" межрегиональной исследовательской группы Н. Петровой при Российском Институте Культурологии. М., 1999. С. 27-36.
2.      Roberts L.D., Smith L.M., Pollock C. Dancing on the edge of new technology: The Internet as a tool for psychological research. Paper presented at the 5th European Congress of Psychology, Dublin, 1997.
3.      Schmidi W.C. Behavior Research Methods, Instruments, Computers. 1997. V. 29 (2). P. 274-279.
4.Психологический Журнал, 2000, том 21, № 2, с. 75-78 «О ВОЗМОЖНОСТЯХ ПСИХОЛОГИЧЕСКИХ ИССЛЕДОВАНИИ В СЕТИ ИНТЕРНЕТ» ©2000 г. А.Е.Жичкина.
 

Добавить комментарий

Для вопроса дежурному психологу введите свое сообщение. Гостевые сообщения публикуются только в том случае, если они соответствуют правилам чата и... после модерации. Пожалуйста, не пытайтесь решить своих проблем в одном предложении. Вопросы типа: меня лишили девственности, что делать или любимый ушел, как мне его вернуть, рассматриваться не будут.Сообщения без указания возраста удаляются. Чат дежурного психолога это всего лишь подготовка к консультации. Всех благ.


Защитный код
Обновить

Мы рекомендуем