Koreliacijos pinklės: kodėl statistiniai ryšiai klaidina net ekspertus
Gyvename duomenų amžiuje, kuriame kiekvienas mūsų žingsnis, paspaudimas internete ar net širdies ritmas yra fiksuojamas, analizuojamas ir lyginamas. Ieškodami atsakymų į sudėtingus klausimus – nuo to, kas lemia sėkmingą investavimą, iki priežasčių, kodėl susergame lėtinėmis ligomis – mes nuolat ieškome dėsningumų. Čia į sceną žengia viena galingiausių, tačiau dažniausiai neteisingai interpretuojamų sąvokų statistikoje ir kasdieniame gyvenime – koreliacija.
Daugelis iš mūsų intuityviai jaučia, kas tai yra. Jei lyja lietus, tikėtina, kad gatvėse bus daugiau skėčių. Tai paprasta koreliacija. Tačiau ar žinojote, kad statistiškai ledų pardavimų augimas yra stipriai susijęs su ryklių atakų padažnėjimu? Arba kad šalyse, kuriose suvartojama daugiausia šokolado, gimsta daugiausia Nobelio premijos laureatų? Ar tai reiškia, kad norint gauti Nobelio premiją, reikia valgyti šokoladą, o norint išvengti ryklio, reikia atsisakyti ledų?
Šiame straipsnyje pasinersime giliau nei vadovėlinės apibrėžtys. Išsiaiškinsime, kaip koreliacija valdo mūsų sprendimus, kodėl smegenys yra užprogramuotos matyti ryšius ten, kur jų nėra, ir kaip atskirti tikrąją tiesą nuo statistinio triukšmo.
Kas iš tikrųjų yra koreliacija?

Prieš pradedant narplioti sudėtingus pavyzdžius, svarbu suvokti esmę. Moksliškai kalbant, koreliacija yra statistinis matas, kuris parodo ryšio stiprumą ir kryptį tarp dviejų kintamųjų. Paprasčiau tariant, tai būdas pasakyti, kaip vieno dalyko pokytis yra susijęs su kito dalyko pokyčiu.
Koreliacija dažniausiai matuojama koeficientu (dažniausiai žymimu raide r), kuris svyruoja skalėje nuo -1 iki +1. Šis skaičius yra tarsi kompasas duomenų jūroje:
- +1 (Tobula teigiama koreliacija): Tai reiškia, kad abu kintamieji juda visiškai identiškai. Jei vienas kyla, kyla ir kitas. Pavyzdžiui, kuo daugiau degalų įpilate į automobilį, tuo sunkesnis jis tampa (ignoruojant kitus faktorius).
- -1 (Tobula neigiama koreliacija): Kintamieji juda priešingomis kryptimis. Įsivaizduokite svarstykles: kuo viena pusė aukščiau, tuo kita žemiau. Realiame gyvenime – kuo daugiau laiko praleidžiate žiūrėdami televizorių, tuo mažiau laiko lieka sportui (teoriškai).
- 0 (Jokios koreliacijos): Vieno kintamojo elgesys visiškai nepadeda nuspėti kito. Jūsų batų dydis neturi jokios statistinės įtakos jūsų intelekto koeficientui ar laimėjimui loterijoje.
Tačiau realybė retai būna tokia švari kaip -1 ar +1. Didžioji dalis mūsų pasaulio ryšių, nuo medicinos iki ekonomikos, egzistuoja pilkojoje zonoje – kažkur tarp 0.3 ir 0.8. Ir būtent šioje zonoje įvyksta didžiausios interpretacijos klaidos.
Auksinė taisyklė: Koreliacija nėra priežastinis ryšys
Tai frazė, kurią kartoja kiekvienas statistikos dėstytojas, tačiau kurią mes nuolat pamirštame skaitydami naujienų antraštes. „Correlation does not imply causation”. Tai, kad du dalykai vyksta kartu, nereiškia, kad vienas sukelia kitą.
Grįžkime prie ledų ir ryklių pavyzdžio. Jei nubraižytume grafiką, pamatytume stebėtinai tikslų ryšį: kai kyla ledų pardavimai, kyla ir ryklių atakų skaičius. Jei vadovautumėmės tik koreliacija, galėtume daryti išvadą, kad ledų valgymas kažkaip pritraukia ryklius (galbūt jie užuodžia cukrų kraujyje?).
Tačiau čia įsikiša tai, ką mokslininkai vadina trečiuoju kintamuoju (angl. confounding variable). Šiuo atveju tai – vasara (oro temperatūra). Kai lauke karšta, žmonės perka daugiau ledų. Taip pat, kai karšta, daugiau žmonių maudosi vandenyne, todėl statistiškai padidėja tikimybė sutikti ryklį. Ledai ir rykliai neturi jokio tiesioginio ryšio – juos abu veikia temperatūra.
Kodėl tai pavojinga?
Toks klaidingas interpretavimas gali turėti rimtų pasekmių:
- Medicinoje: Ilgą laiką buvo manoma, kad hormonų pakeitimo terapija (HPT) moterims menopauzės metu mažina širdies ligų riziką. Tyrimai rodė koreliaciją: moterys, vartojančios HPT, rečiau sirgo širdies ligomis. Vėliau paaiškėjo, kad HPT dažniau vartojo aukštesnio socioekonominio statuso moterys, kurios geriau maitinosi ir daugiau sportavo. Būtent gyvenimo būdas, o ne vaistai, saugojo širdį.
- Politikoje: Dažnai girdime, kad „įvedus šį įstatymą, nusikalstamumas sumažėjo”. Tačiau nusikalstamumas galėjo mažėti dėl bendros ekonominės situacijos gerėjimo ar demografinių pokyčių, o ne dėl konkretaus politiko sprendimo.
Klaidingos koreliacijos tipai ir kaip jų išvengti
Norint nepasiklysti informacijos sraute, naudinga žinoti, kaip atsiranda klaidingi ryšiai. Tai padeda kritiškai vertinti straipsnius, kuriuose teigiama, kad „mokslininkai atrado naują ryšį”.
1. Atsitiktinė koreliacija (Spurious Correlation)
Kartais duomenys sutampa tiesiog atsitiktinai. Tyleris Vigenas sukūrė visą svetainę, skirtą absurdiškoms koreliacijoms. Pavyzdžiui, JAV išlaidos mokslui, kosmosui ir technologijoms 99% koreliuoja su savižudybių skaičiumi pasikariant. Arba sūrio suvartojimas vienam gyventojui koreliuoja su žmonių, kurie mirė įsipainioję į savo patalynę, skaičiumi. Kai turime milijonus duomenų rinkinių, statistiškai neišvengiama, kad kai kurios kreivės sutaps visiškai atsitiktinai. Tai vadinama „duomenų žvejyba” (angl. data dredging) – jei ieškosite pakankamai ilgai, rasite ryšių bet kur.
2. Atvirkštinis priežastingumas
Net kai ryšys yra tikras, mes dažnai sumaišome kryptį. Pavyzdys: tyrimai rodo, kad žmonės, kurie daug šypsosi, yra laimingesni. Išvada – šypsokis per prievartą, ir tapsi laimingas? Nors tame yra tiesos, dažniau ryšys veikia atvirkščiai: laimingi žmonės natūraliai daugiau šypsosi. Kitas pavyzdys: policininkų skaičius mieste koreliuoja su nusikaltimų skaičiumi. Ar policininkai sukelia nusikaltimus? Ne, tiesiog ten, kur daug nusikalstamumo, valdžia siunčia daugiau pareigūnų.
3. Netiesiniai ryšiai
Daugelis mano, kad koreliacija yra tiesė: kuo daugiau A, tuo daugiau B. Tačiau gamtoje ryšiai dažnai būna kreivės formos. Paimkime stresą ir produktyvumą. Mažas streso kiekis (motyvacija, terminai) didina produktyvumą. Tačiau pasiekus tam tikrą tašką, didėjantis stresas staiga pradeda mažinti produktyvumą (perdegimas). Jei skaičiuotume paprastą tiesinę koreliaciją, gautume iškreiptą vaizdą, lyg streso įtaka būtų nulinė, nors iš tiesų ryšys yra stiprus, bet sudėtingas.
Koreliacija finansuose ir investavime
Viena iš sričių, kur koreliacijos supratimas tiesiogiai lemia jūsų piniginės storį, yra investavimas. Čia koreliacija naudojama rizikai valdyti. Profesionalūs investuotojai nuolat ieško turto klasių, kurios turi žemą arba neigiamą tarpusavio koreliaciją.
Įsivaizduokite, kad visus pinigus investuojate į skėčių gamyklą ir apsiaustų nuo lietaus gamyklą. Jūsų portfelio koreliacija yra aukšta ir teigiama. Jei metai bus sausringi, abi investicijos žlugs vienu metu. Tai didelė rizika.
Sumanus investuotojas siekia diversifikacijos. Jis investuoja į skėčių gamyklą ir į kremų nuo saulės gamintoją. Šių verslų sėkmė greičiausiai turės neigiamą koreliaciją – kai vienam sekasi prastai (nes nelyja), kitam sekasi puikiai (nes šviečia saulė). Rezultatas? Jūsų portfelio vertė svyruoja mažiau, o bendras augimas tampa stabilesnis.
Kriptovaliutų rinkos atsiradimas įnešė naujų vėjų į šią sritį. Ilgą laiką buvo tikimasi, kad kriptovaliutos nekoreliuos su akcijų rinkomis ir taps „saugia užuovėja” krizių metu (kaip auksas). Tačiau pastarųjų metų duomenys rodo, kad Bitcoin koreliacija su technologijų įmonių akcijomis (pvz., NASDAQ indeksu) dažnai būna stebėtinai aukšta. Tai rodo, kad investuotojai kriptovaliutas traktuoja kaip rizikingą turtą, o ne kaip atskirą, nepriklausomą sistemą.
Iliuzinė koreliacija: psichologiniai spąstai
Koreliacija nėra tik skaičiai kompiuterio ekrane. Tai fenomenas, vykstantis mūsų galvose. Psichologijoje egzistuoja terminas iliuzinė koreliacija – tai mūsų polinkis matyti ryšį tarp dviejų reiškinių, kai jo nėra arba jis yra daug silpnesnis nei manome.
Tai yra stereotipų pagrindas. Jei žmogus turi neigiamą nuostatą apie tam tikrą socialinę grupę, jis nesąmoningai fiksuos tik tuos atvejus, kurie patvirtina jo nuostatą (pvz., „šios markės vairuotojai visada viršija greitį”). Kiekvieną kartą pamatęs tos markės automobilį važiuojant tvarkingai, jis to tiesiog neužfiksuos. Tačiau pamatęs vieną pažeidėją, jis sau pasakys: „Štai, vėl tas pats!”.
Mūsų smegenys yra evoliuciškai užprogramuotos ieškoti modelių (angl. pattern recognition). Priešistoriniais laikais buvo saugiau suklysti manant, kad šiugždesys krūmuose reiškia tigrą (net jei tai buvo vėjas), nei ignoruoti ryšį. Šiandien šis mechanizmas verčia mus tikėti prietarais, horoskopais ir neteisingomis medicininėmis teorijomis.
Kaip teisingai vertinti informaciją? (Praktinis gidas)
Tad kaip nepakliūti į koreliacijos spąstus skaitant straipsnius apie sveikatą, verslą ar politiką? Štai keletas klausimų, kuriuos verta užduoti:
- Ar yra logiškas paaiškinimas? Jei matote ryšį tarp A ir B, paklauskite savęs: „Kaip A galėtų paveikti B?”. Jei mechanizmas neaiškus (kaip ledų ir ryklių atveju), ieškokite trečiojo kintamojo.
- Kokia imtis? Koreliacija, nustatyta ištyrus 10 žmonių, yra bevertė. Mažose imtyse atsitiktinumai atrodo kaip dėsningumai. Patikimi tyrimai remiasi šimtais ar tūkstančiais stebėjimų.
- Ar tai ekstremumai? Kartais koreliaciją iškreipia kelios išskirtys (angl. outliers). Pavyzdžiui, jei matuosite vidutinį turto augimą bare, kuriame sėdi paprasti darbininkai, ir į tą barą staiga užeis Billas Gatesas, koreliacija tarp „buvimo bare” ir „tapimo milijonieriumi” taps milžiniška, bet klaidinga.
- Kas finansavo tyrimą? Nors skaičiai nemeluoja, žmonės, parenkantys, kuriuos skaičius rodyti, gali turėti interesų. Jei šokolado gamintojai finansuoja tyrimą apie šokolado ir intelekto ryšį, vertinkite tai skeptiškai.
Koreliacija didžiųjų duomenų (Big Data) amžiuje
Šiandien algoritmai, valdantys „Facebook”, „Netflix” ar „Google”, yra paremti milžiniškais koreliacijų kiekiais. „Netflix” nerūpi, kodėl žmonės, žiūrintys veiksmo filmus, taip pat mėgsta dokumentiką apie gamtą. Jiems užtenka žinoti, kad tokia koreliacija egzistuoja, kad galėtų jums pasiūlyti kitą filmą.
Tai vadinama prognozuojamąja analitika. Čia priežastingumas tampa antraeiliu dalyku. Jei duomenys rodo, kad pirkėjai, perkantys sauskelnes, dažnai perka ir alų (klasikinis mažmeninės prekybos pavyzdys – tėčiai, važiuojantys nupirkti sauskelnių, pasiima ir alaus savaitgaliui), parduotuvė tiesiog padės šias prekes šalia. Jiems nereikia psichologinės analizės, jiems reikia pardavimų.
Tačiau aklas pasitikėjimas algoritmų koreliacijomis taip pat turi rizikų. Jei dirbtinis intelektas nustato koreliaciją tarp tam tikro pašto kodo ir kredito rizikos, jis gali nesąžiningai atsisakyti suteikti paskolą patikimam žmogui tik todėl, kad jis gyvena „statistiškai rizikingame” rajone. Tai kelia naujus etinius klausimus apie tai, kiek galime leisti koreliacijai valdyti mūsų likimus.
Apibendrinimas: Būkite skeptiški, bet smalsūs
Koreliacija yra nepakeičiamas įrankis. Ji padeda mums pastebėti potencialias problemas, identifikuoti tendencijas ir kelti hipotezes. Be koreliacijos analizės nebūtų šiuolaikinės medicinos, astrofizikos ar ekonomikos. Pirmas žingsnis link vaisto atradimo dažnai yra pastebėjimas, kad tam tikra molekulė koreliuoja su ligos traukimusi.
Tačiau koreliacija yra tik pradžia, o ne pabaiga. Tai yra užuomina, kvietimas tyrinėti giliau. Matydami antraštę „Tyrimas parodė ryšį tarp X ir Y”, priimkite tai ne kaip faktą, o kaip kvietimą užduoti klausimą: „O kas dar galėjo tai lemti?”.
Gebėjimas atskirti koreliaciją nuo priežastingumo yra vienas svarbiausių XXI amžiaus raštingumo įgūdžių. Tai apsaugo mus nuo manipuliacijų, padeda priimti geresnius finansinius sprendimus ir leidžia blaiviau vertinti mus supantį pasaulį. Tad kitą kartą, kai vasarą valgysite ledus, mėgaukitės jais ramiai – rykliai dėl to tikrai neatplauks.


