Olli-Pekka Tikkanen
Olli-Pekka Tikkanen

Olemme luonnostaan huonoja tilastotieteilijöitä

| | | Ei kommentteja

Keskustelimme Tommin kanssa joulun alla, miksi ihminen on huono luonnollinen tilastotieteilijä. Termi oli peräisin Tommin lukemasta kirjasta ”Thinking, fast and slow”, ja sillä tarkoitetaan ihmisen kyvyttömyyttä hahmottaa asioiden ja tapahtumien olevan jakautuneita jonkin todennäköisyysjakauman mukaisesti. Tommi antoi konkreettisen esimerkin: Kuvitellaan iso kasa palloja, joista puolet ovat mustia ja puolet valkoisia, mutta me emme tiedä tätä. Otetaan tästä isosta kasasta ensin kymmenen pallon joukko, minkä jälkeen satumme huomaamaan kaikkien olevan valkoisia. Koska emme tiedä palloista puolen olevan mustia ja puolen valkosia, saatamme helposti luulla kymmenen pallon otoksesta, että kaikki pallot ovat valkoisia. Sadan pallon ottaminen kasasta paljastaa todennäköisesti enemmän, miten pallojen värit ovat jakautuneet. Meillä on kuitenkin tapana tehdä yleisiä päätelmiä asioiden luonteesta verrattaen pienestäkin otoksesta. Pienissä otoksissa jakauman ääripäät ovat todennäköisemmin esillä, mutta me emme tätä ymmärrä. Me olemme siis huonoja luonnollisia tilastotieteilijöitä.

Havainnollistan vielä samaa asiaa suositun Hearthstone-korttipelin kautta. Pelissä voi kilpailla muita pelaajia vastaan liigassa, jossa on saavutettavana 25 eri tasoa sekä näiden yläpuolella oleva legendaarinen taso. Jokainen taso jakautuu vaihtelevaan määrään tähtiä. Kun on saavuttanut yhden tason kaikki tähdet, pääsee seuraavalle tasolle. Voittamalla pelin pelaajan saa yhden tai kaksi tähteä riippuen montako peliä on voittanut ennen kyseistä peliä (tasoon 5 asti) ja häviämällä menettää aina yhden tähden. Korkein mahdollinen taso on taso yksi viidellä tähdellä, jossa voittamalla seuraavan pelin nousee legendaariselle tasolle. Tason 20 alapuolella ei voi menettää tähtiä. Kysymys kuuluukin nyt, kuinka monta peliä pelaaja tarvitsee noustakseen legendaariselle tasolle?

Simuloin tietokoneella tuhannen uniikin pelaajan tien tasolta 20 (3 tähteä) legendaariselle tasolle. Oletin, että pelaajan todennäköisyys voittaa peli on riippuvainen ainoastaan hänen pelaamansa pakan voittoprosentista, joka on vakio. Tein simulaatiot vielä kahdeksalla eri pakan voittoprosentilla välillä 40-75 %. Tulokset ovat alla. Punainen vaakaviiva kuvassa merkitsee suuruusjärjestyksessä keskimmäisen simulaation pelien määrää, sinisen laatikon rajat merkkaavat 25- ja 75 –persentiiliä ja mustat viikset näyttävät suurimman ja pienimmän pelien määrän kyseisestä tuhannen simulaation sarjasta.

hs_games_per_wp

Luonnollisesti mikäli pakan voittoprosentti on alle 50%, tarvitaan suuri määrä onnea, että kyseinen pelaaja pääsee legendaariselle tasolle. Mikäli pakan voittoprosentti on 40%, ei yksikään pelaaja päässyt legendaariselle tasolle, mutta voittoprosentin ollessa 45% legendaariselle tasolle pääsi 6,8% tuhannesta pelaajasta. Pakan voittoprosentin kasvaessa yli 50%:n, pelaaja pääsee vähemmällä määrällä pelejä legendaariselle tasolle.

Tarkastellaan seuraavaksi simulaatioita, joissa pakan voittoprosentti oli 60%. Valitaan tuhannen simulaation sarjasta kaksi kertaa yhden, viiden,  kymmenen, viidenkymmenen, sadan ja viidensadan otokset ja katsotaan kuinka paljon näiden otosten mediaanit ja 25- sekä 75 -persentiilit eroavat todellisista arvoista (257, 216 ja 305 peliä).

hs_erot_1hs_erot_2

On syytä huomata, että yllä olevasta kahdesta kuvasta ei voida vetää yleisiä johtopäätöksiä paljonko esimerksiksi viiden tai kymmenen otoksen tutkiminen vääristää tulosta. Selvää kuitenkin on, että pienemmillä otoksilla suhde tuhannen simulaation antamiin tuloksiin voi olla mitä tahansa. Sen sijaan lohdullista on, että mitä suuremmaksi otoskoko tulee, sitä varmemmin saavutetaan sama tulos kuin alkuperäisissä simulaatioissa (kaikki käyrät lähenevät arvoa yksi).

Mikäli kaverini kertoisi, että legendaariselle tasolle pääseminen on varsin helppoa ja vaatii vain sata peliä, voisin helposti kuvitella saman tapahtuvan myös minulle. Yksittäisestä havainnosta ei kuitenkaan pysty vielä tekemään johtopäätöksiä asioiden yleisestä luonteesta. Räikeimmillään tämä tulee esille, kun teemme suurta ihmisjoukkoa koskevia päätöksiä vaillinaisin tiedoin. Tällöin olemme vaarassa peilata mahdollisia toimenpiteitä omaan täysin riittämättömään kokemuspohjaamme. Väitän, että lauseet, kuten ”kaikki opiskelijat ovat laiskoja” tai ”maahanmuuttajat ovat rikollisia”, pohjaavat lausujan omalle riittämättömille kokemuksille. Tämän vuoksi tarvitsemme laajaa tutkimustietoa ja ihmisiä, jotka ovat perehtyneet tähän tutkimustietoon. Muuten päätöksiä voidaan tehdä vaikka noppaa heittämällä.

 

Jaa kirjoitus somessa

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Sosiaalinen media

Facebook314
Instagram24
RSS

Aihepilvi

Arkistot