Kevään lopuksi tekemässämme podcastissa pohdin, että en kirjoita enää yksittäisiin yhtälöihin meneviä kirjoituksia. Tällä viikolla kuitenkin poikkean tästä periaatteesta ja näytän esimerkin, miten meihin voidaan vaikuttaa datan visualisoinnilla. Esimerkkini on tältä syksylä Helsingin Sanomien jutusta, jossa kerrottiin hakemuksen käsittelymaksulla olleen negatiivinen vaikutus suomalaisten yliopistojen ulkomaalaisopiskelijoiden hakijamääriin. Artikkelin tulkinta hakijamäärän pienentymisestä pitää paikkansa, mutta huomioni kiinnittyi jutussa olevaan kuvaan. Kuvassa on erillisellä puhekuplalla sanottu, että muutos vuosien 2015 ja 2016 välillä on 6,15 prosenttia, mikä pitää kyllä paikkansa, mutta silmämääräisesti katsottaessa palkkien eroa näyttää hakijoiden määrä romahtaneen noin neljäkymmenellä prosenttilla!

Paljastan nyt miten tämä temppu tehdään. Alla on esitetty neljä kuvaa, joissa datan numeroarvojen ero on kaikissa tapauksissa 6,15%. Pystytkö sanomaan, mikä pylväistä antaa todenmukaisimman kuvan datasta?

rightsuhde wrongsuhde2 wrongsuhde3 wrongsuhde4

Oikea vastaus on ensimmäinen kuva. Virheen hahmottamiseksi olen jättänyt jokaiseen kuvaan y-akselin näkyviin. Illuusio suuresta pudotuksesta vuosien 2015 ja 2016 välillä saadaan aikaiseksi siirtämällä y-akselin aloituskohtaa sopivasti ylöspäin ja poistamalla tämän jälkeen y-akseli kokonaan pois.

Hesarin jutun tapauksessa oikean eron pystyy päättelemään kyllä, sillä grafiikassa on laitettu luvut näkyviin pylväiden päälle ja erikseen puhekuplalla kerrottu kuinka paljon prosentuaalinen muutos on. Nämä seikat eivät kuitenkaan tee visualisoinnista parempaa vaan vähemmän harhaanjohtavan. Kun katsoin kuvaa ensimmäisen kerrran, ajattelin että onpa pudotus ollut iso viime vuoteen verrattuna. Kun taas katson ensimmäistä kuvaa ylhäällä, mieleeni tulee välittömästi kysymys, onko ero vuosien välillä tilastollisesti merkittävä. Miltä näyttää vaikkapa viimeisen viidenkymmenen vuoden hakijamäärät?

Vaikka Hesarin grafiikassa onkin varsinaiset numeroarvot laitettu näkyviin, valitettava tosiasia on, että hahmotamme pylväskuvaajista paremmin pylväiden kokojen fyysisen eron kuin varsinaiset numeroarvot. Vastaavanlaisia harhaanjohtavia kuvia tulee vastaan aina silloin tällöin. Harhaanjohtavuus ei aina liity y-akselin leikkaamiseen, vaan syinä voivat olla esimerkiksi piirakkakuvaajien täysin epärealistiset suhteet tai tiedon esittäminen logaritmisella asteikolla. Kuvaajia lukiessaan onkin siis aina kiinnittää huomiota siihen, miten data on esitetty, mitkä ovat kuvaajien akselit ja tiedostaa, että me ajattelemme intuitiivisesti kaiken lineaariseksi. Todettakoon vielä, että en usko Hesarin jutussa olleen kuvan tehdyn tarkoituksella harhaanjohtavaksi, vaan niin käyneen vahingossa kun on etsitty visuaalisesti näyttävintä esitystapaa.