Как услышать голос Вселенной в шепоте цифр

Коли­че­ствен­ные мето­ды. Под­бор ста­ти­сти­че­ских кри­те­ри­ев (t‑критерий, ANOVA, χ²), или Как услы­шать голос Все­лен­ной в шепо­те цифр.

Ауди­то­рия встре­ти­ла утро при­глу­шён­ным гулом. После погру­же­ния в глу­би­ны каче­ствен­но­го ана­ли­за, где цари­ли исто­рии, смыс­лы и цвет­ные сти­ке­ры, сту­ден­ты чув­ство­ва­ли себя немно­го поте­рян­ны­ми. Бел­ка с тос­кой смот­ре­ла на свои без­упреч­ные схе­мы, кото­рые вдруг пока­за­лись ей без­жиз­нен­ны­ми. Енот пытал­ся при­ме­нить тема­ти­че­ское коди­ро­ва­ние к рас­пи­са­нию пар, а Хома и вовсе заявил, что его ипо­хон­дрия — это «слож­ный фено­ме­но­ло­ги­че­ский кон­структ, тре­бу­ю­щий гер­ме­нев­ти­че­ско­го подхода».

Возвращение к цифрам — но с новым пониманием

Появ­ле­ние про­фес­со­ра Фили­на с огром­ным пла­ка­том, испещ­рён­ным фор­му­ла­ми и гра­фи­ка­ми, вер­ну­ло ощу­ще­ние реальности.
— Кол­ле­ги, — начал он, с удо­вле­тво­ре­ни­ем отме­чая сме­шан­ные выра­же­ния на их лицах, — на про­шлом заня­тии мы научи­лись слы­шать музы­ку в отдель­ных нотах-историях.
Но одна нота — ещё не сим­фо­ния. Сего­дня мы научим­ся слы­шать саму сим­фо­нию — тот самый голос Все­лен­ной, что зву­чит в строй­ном хоре цифр, собран­ных в ваших без­упреч­ных исследованиях.

Базовые принципы: какой вопрос — такой и критерий

— Преж­де чем бро­сать­ся в пучи­ну рас­чё­тов, — про­фес­сор ука­зал на первую фор­му­лу, — задай­те себе три про­стых вопроса:
1. Что срав­ни­ва­ем? Две груп­пы или больше?
2. Что изме­ря­ем? Коли­че­ствен­ные пока­за­те­ли (рост, вес, бал­лы) или каче­ствен­ные (есть/нет, выздоровел/не выздоровел)?
3. Как свя­за­ны выбор­ки? Это одни и те же испы­ту­е­мые в раз­ные момен­ты вре­ме­ни или раз­ные группы?

Хома роб­ко под­нял лапку:
— Про­фес­сор… А если я срав­ни­ваю своё дав­ле­ние до и после лек­ции по ста­ти­сти­ке? Это какие выборки?
— Пре­крас­ный при­мер, кол­ле­га! — обра­до­вал­ся Филин. — Это зави­си­мые выбор­ки! Вы один, и вас изме­ря­ют два­жды. А теперь давай­те раз­бе­рём­ся, какие инстру­мен­ты нам помогут.

t‑критерий Стьюдента: работа с двумя группами

— Пред­ставь­те, — ска­зал про­фес­сор, рисуя на дос­ке два плав­ных сим­мет­рич­ных хол­ма, похо­жих на пере­вёр­ну­тые чаши, — мы тести­ру­ем новое успо­ко­и­тель­ное для белок. Это гра­фи­ки нор­маль­но­го рас­пре­де­ле­ния — осно­ва мно­гих ста­ти­сти­че­ских мето­дов. У нас есть экс­пе­ри­мен­таль­ная груп­па (полу­чи­ла пре­па­рат) и кон­троль­ная (полу­чи­ла пла­це­бо). Нам нуж­но срав­нить сред­ний уро­вень тре­вож­но­сти меж­ду ними. Наш выбор — t‑критерий!

Бел­ка оживилась:
— То есть, если мы хотим узнать, эффек­тив­нее ли моя новая систе­ма хра­не­ния оре­хов ста­рой, мы можем взять две груп­пы белок, обу­чить одну по-ново­му, дру­гую — по-ста­ро­му, и срав­нить их сред­ние запасы?

— Имен­но! — кив­нул Филин. — t‑критерий — это мост меж­ду дву­мя сред­ни­ми зна­че­ни­я­ми. Он пока­жет, насколь­ко суще­ствен­на раз­ни­ца меж­ду груп­па­ми и не слу­чай­на ли она.

Дисперсионный анализ (ANOVA): когда групп больше двух

— Но что, если групп не две, а три? — Енот смот­рел на про­фес­со­ра с вызо­вом. — Напри­мер, одна груп­па белок ест грец­кие оре­хи, вто­рая — фун­дук, тре­тья — кед­ро­вые. И мы хотим срав­нить их когни­тив­ные способности.

— Бра­во, кол­ле­га! — Филин с удо­воль­стви­ем раз­вёл кры­лья. — Здесь t‑критерий бессилен.
Нам нужен дис­пер­си­он­ный ана­лиз, или ANOVA! Он как дири­жёр оркест­ра: смот­рит, отли­ча­ет­ся ли общая вари­а­тив­ность дан­ных от той, что мы мог­ли бы ожи­дать про­сто по воле слу­чая. Если отли­ча­ет­ся — зна­чит, вид оре­хов дей­стви­тель­но име­ет значение!

Критерий χ² (хи-квадрат): мир категорий и частот

— А теперь, — про­фес­сор пере­шёл к самой зага­доч­ной части дос­ки, — пред­ста­вим, что мы изу­ча­ем не коли­че­ство, а часто­ту. Напри­мер, зави­сит ли цвет шёрст­ки хомя­ков от их склон­но­сти к ипо­хон­дрии. Мы не изме­ря­ем «уро­вень ипо­хон­дрии», мы про­сто делим на груп­пы: «рыжие ипо­хон­дри­ки», «рыжие не-ипо­хон­дри­ки», «серые ипохондрики»…

— Пого­ди­те! — встре­пе­нул­ся Хома. — То есть, мне не нуж­но изме­рять свою тре­вож­ность по сто­балль­ной шка­ле? Мож­но про­сто посчи­тать, сколь­ко раз в день я гово­рю «ой, что-то колет»?

— В иссле­до­ва­тель­ских целях — да! — под­твер­дил Филин. — χ² пре­крас­но рабо­та­ет с таб­ли­ца­ми сопря­жён­но­сти, пока­зы­вая, есть ли связь меж­ду дву­мя кате­го­ри­аль­ны­ми при­зна­ка­ми. Это ключ к миру каче­ствен­ных раз­ли­чий, выра­жен­ных в коли­че­ствен­ной форме.

Практикум: выбираем подход

Вла­ди­мир Его­ро­вич пред­ло­жил про­ве­сти «ста­ти­сти­че­ский разминку»:
— Кол­ле­ги, вот вам три гипо­те­зы. Какой кри­те­рий вы выбе­ре­те для про­вер­ки каждой?

Гипо­те­за 1: «Про­слу­ши­ва­ние ауди­о­лек­ций во сне улуч­ша­ет запо­ми­на­ние меди­цин­ских терминов».
Енот, не заду­мы­ва­ясь: — Зави­си­мые выбор­ки! Изме­ря­ем коли­че­ство тер­ми­нов до и после у одной груп­пы. t‑критерий для зави­си­мых выборок!

Гипо­те­за 2: «Эффек­тив­ность трёх видов пси­хо­те­ра­пии (КПТ, гештальт, пси­ходра­ма) при лече­нии тре­вож­но­сти у ёжи­ков различается».
Бел­ка, свер­кая гла­за­ми: — Три неза­ви­си­мые груп­пы! Одно­мер­ный дис­пер­си­он­ный ана­лиз! А потом после­ду­ю­щие тесты, что­бы узнать, какие имен­но тера­пии отличаются!

Гипо­те­за 3: «Суще­ству­ет ли связь меж­ду типом лич­но­сти (интроверт/экстраверт) и пред­по­чте­ни­ем рабо­тать в оди­ноч­ку или в команде?»
Хома, к соб­ствен­но­му удив­ле­нию: — Кате­го­ри­аль­ные дан­ные! Таб­ли­ца 2×2! Кри­те­рий χ²!

Ошибки и ловушки: когда статистика вводит в заблуждение

— Но помни­те, кол­ле­ги, — голос про­фес­со­ра Фили­на стал суро­вее, — любая ста­ти­сти­ка — лишь инстру­мент. Им мож­но и гвоздь забить, и себе на хвост наступить.

  • Под­бор кри­те­рия не под вопрос, а под дан­ные — фаталь­ная ошибка!
  • Игно­ри­ро­ва­ние пред­по­ло­же­ний кри­те­рия (нор­маль­ность рас­пре­де­ле­ния, одно­род­ность дис­пер­сий) — путь к лож­ным выводам.
  • Пого­ня за p‑value, уров­нем зна­чи­мо­сти p, без пони­ма­ния раз­ме­ра эффек­та — про­фа­на­ция науки.

— Уро­вень зна­чи­мо­сти p пока­зы­ва­ет веро­ят­ность полу­чить такие резуль­та­ты при усло­вии, что гипо­те­за невер­на, — доба­вил Вла­ди­мир Его­ро­вич. — Но он не гово­рит о важ­но­сти или силе эффек­та. Раз­ни­ца может быть ста­ти­сти­че­ски зна­чи­мой, но кли­ни­че­ски ничтожной.

Цифры слышат тех, кто слышит историю

К кон­цу пары сту­ден­ты смот­ре­ли на фор­му­лы с новым уважением.

— Зна­чит, — под­ве­ла итог Бел­ка, — каче­ствен­ный ана­лиз помо­га­ет нам задать пра­виль­ный вопрос, а коли­че­ствен­ный — даёт точ­ный, про­ве­ря­е­мый ответ. Это два кры­ла одной птицы.

— А я понял! — вос­клик­нул Хома. — Моё дав­ле­ние — это не про­сто циф­ра! Это дан­ные для пар­но­го t‑критерия! И если я научусь их пра­виль­но ана­ли­зи­ро­вать, мне не нуж­но будет каж­дые пять минут паниковать!

Енот уже стро­ил слож­ную таб­ли­цу в сво­ём блокноте:
— Соглас­но пред­ва­ри­тель­ным рас­чё­там, для моей диплом­ной рабо­ты потре­бу­ет­ся при­ме­не­ние одно­фак­тор­но­го ANOVA с повтор­ны­ми изме­ре­ни­я­ми и после­ду­ю­щим кри­те­ри­ем χ² для ана­ли­за каче­ствен­ных пока­за­те­лей. Необ­хо­ди­мый объ­ём выбор­ки — 48 испытуемых.

Когда сту­ден­ты выхо­ди­ли из ауди­то­рии, Вла­ди­мир Его­ро­вич с удо­вле­тво­ре­ни­ем отме­тил, что его под­опеч­ные нако­нец-то обре­ли целост­ное виде­ние. Его чаш­ка сего­дня скром­но сооб­ща­ла: «Пре­ду­пре­жде­ние: ста­ти­сти­ка — это искус­ство слу­шать тиши­ну меж­ду цифрами».
А впе­ре­ди их жда­ла тема «Эти­че­ские коми­те­ты и стан­дар­ты пуб­ли­ка­ций», где пред­сто­я­ло узнать, что даже самая бле­стя­щая ста­ти­сти­ка бес­силь­на перед лицом эти­че­ской ошиб­ки. Но это была уже совсем дру­гая история…

Корзина для покупок
Прокрутить вверх