Viime joulukuussa kuulin ensimmäisen kerran OpenAI-yhtiön ChatGPT-keskustelusovelluksesta. ChatGPT on tekoäly, joka on koulutettu suurella määrällä tekstidataa. Lisäksi tekoälyä on parannettu opettamalla sille ihmisten kirjoittamia esimerkkikeskusteluja ja ihmisen arvostelemia keskustelusovelluksen vastauksia.
ChatGPT:n julkaisun jälkeen käytiin paljon keskustelua sen mahdollisuuksista esimerkiksi konsulttityössä. Kiinnostuin ChatGPT:n ympärillä käyneen keskustelun myötä kokeilemaan, kuinka hyvin ChatGPT:tä voisi käyttää tutkimustyössä. Avaan seuraavaksi kokeiluni tuloksia muutaman konkreettisten esimerkin avulla.
Viitteiden siistiminen
Yksi ärsyttävimmistä asioista tutkimusartikkelia kirjoittaessa on viitteidenhallinta. Olen asentanut selaimeeni lisäosan, jolla pystyn lataamaan netistä suoraan lukemani artikkelin käyttämääni viitteidenhallintaohjelmaan. Kovinkaan usein viitteen mukana ei kuitenkaan tule tiedelehden lyhennettä. Saatan tarvita tätä lyhennettä, kun koostan viitelistaa artikkeliin, jota kirjoitan. ChatGPT tunnistaa ainakin muutaman tiedelehden nimet viitelistasta ja lyhentää ne oikein.
Ohjelmointi
Olen testannut ChatGPT:tä eniten ohjelmointiapurina hyvin tuloksin. Alla on koodi, jonka ChatGPT tuottaa kun olen pyytänyt sitä tekemään pääkomponenttianalyysin scikit-learn-kirjastolla netissä olevalle datalle, jossa on yli 6 piirrettä (selittävää muuttujaa) ja valitsemaan niin monta pääkomponenttia, että selitetty varianssi on yli 75%. Ohjelman tuottama koodi ei toiminut suoraan ensimmäisellä yrittämällä, koska ChatGPT unohti ladata Numpy-kirjaston, mutta lisäsi sen kun huomautin virheestä. Lisäksi koodi ei varsinaisesti lataa netistä dataa vaan käyttää scikit-learn-kirjastossa valmiiksi olevaa kokeiludataa, mutta tämä data ajaa saman asian kuin netistä ladattu data.
Pidän tästä esimerkistä eritysiseti, sillä se käyttää next()-funktiota jota en olisi itse käyttänyt. Näin minä opin jotain uutta ChatGPT:ltä. ChatGPT on myös hyvä selittämään mitä koodissa tapahtuu missäkin kohtaa.
Tiivistelmän lyhentäminen
ChatGPT osaa hyvin lyhentää ja selkeyttää tekstiä. Alla on esimerkki, jossa olen pyytänyt ChatGPT:tä lyhentämään erään tutkimusartikkelini tiivistelmää noin puoleen alkuperäisestä (tarkalleen ottaen lyhennetty teksti on hieman alle pyydetyn sanamäärän). Tämä ominaisuus on hyödyllinen, sillä monesti tieteellisissä konferensseissa on tiukka sanaraja tiivistelmillä ja ensimmäistä tiivistelmäversiosta on monesti karsittava sanoja, ennen kuin se voidaan lähettää konferenssiin. En itse käyttäisi kuitenkaan suoraan ChatGPT:n lyhentämää tiivistelmää vaan käyttäisin sitä yhtenä inspiraation lähteenä tiivistelmää lyhentäessäni.
Tutkimusartikkelien suositteleminen
Siirrytään sitten asioihin, joissa ChatGPT ei ainakaan vielä ole kovin hyödyllinen. Seuraavassa esimerkissä pyysin ChatGPT:tä suosittelemaan tutkimusartikkeleita tietystä tutkimusaiheesta.
ChatGPT kyllä antaa suositukset, mutta yksikään suositelluista artikkeleista ei ole oikeasti olemassa. Suositukset kuitenkin näyttävät artikkeleilta, jotka voisivat olla olemasa ja osa kirjoittajista on oikeasti kasvihuonekaasuvoita tutkivia tutkijoita. Samoin Biogeosciences ja Forest Ecology and Management ovat oikeita tiedelehtiä ja vielä sellaisia tiedelehtiä, jossa boreaalisten turvemaametsien kasvihuonekaasupäästöjä käsittelevät tutkimukset voitaisiin julkaista. Suositusten epäonnistuminen johtuu mahdollisesti tavasta, jolla ChatGPT käsittääkseni koostaa vastauksen: se ei oikeasti tiedä millaisia artikkeleita on olemassa, vaan se ennustaa vastauksensa seuraavan sanan vastauksensa edellisistä sanoista ja antamastani viestistä. Lopputuloksena on artikkeleita joita ei ole olemassa, mutta joiden nimet, tekijät ja lehdet ovat uskottavia.
Tieteellisen käsitteen selittäminen
Viimeisessä esimerkissä yritin selvittää, miten kasvien yhteyttämistä voi mallintaa. Tämän esimerkin kanssa jouduin ongelmiin, kuten alta selviää.
Ensimmäisellä yrittämällä ChatGPT ymmärtää väärin sanan ‘yhteyttäminen’, jonka se tulkitsee kuvaavan ilmeisesti ‘yhteyttä’. Seuraavaksi koitin ohjata ChatGPT:tä oikeaan suuntaan. Hyvä ominaisuus ChatGPT:ssä on, että se tulkitsee viestin kontekstin kaikista viesteistä.
Toisella kerralla ChatGPT antaa vastaukseksi erilaisia biologiaan liittyviä malleja, joista yksikään ei kuitenkaan liity yhteyttämiseen.
Kolmannella kerralla kysyin saman kysymyksen englanniksi, jotta olisi selvää, että tarkoitan fotosynteesiä
ChatGPT:n antamassa vastauksessa on kuitenkin paljon epäselvyyksiä. Biofysikaaliset mallit olisi minusta termina ihan hyvä, mutta Diffuusiomalli ja Fysiologinen malli eivät ole malleja, joilla yhteyttämistä mallinnetaan. Farquharin malli ja C4-malli ovat oikeita malleja, mutta niistä ei puhuta bioottisina malleina. Lisäksi molemmissa malleissa kuvataan fotosynteesiä erilaisten biologisten prosessien kautta eli ne eivät ole puhtaasti empiirisiä.
Lopuksi kysyin vielä, millainen malli Farquharin malli on
Mikäli ei tiedä millainen Farquharin malli on, voisi helposti erehtyä luulemaan ChatGPT:n vastausta hyväksi. Vastauksessa on kuitenkin vähän sinne päin sisältäen epäselvyyksiä ja suoria virheitä. Esimerkiksi ChatGPT:n antama yhtälö ei kuvaa, kuinka Farquharin mallissa yhteyttämisnopeus (A) lasketaan.
Kuten yllä olevat esimerkit näyttävät, ChatGPT:tä voi käyttää tutkimustyössä yksinkertaisten tehtävien automatisointiin, mutta varsinaiseksi ajattelun avuksi siitä ei ainakaan vielä ole. Valitettavasti ChatGPT tuottaa liian usein väärää tai sekavaa tietoa, jotta sitä voisi käyttää ajattelutyön assistenttina. Sen sijaan näen ChatGPT:n kaltaisilla sovelluksilla loistavan tulevaisuuden tutkimustyössä tekstinkäsittelyn helpottamisessa ja ohjelmointiapurina. ChatGPT:n kaltaisten tekoälysovellusten käyttöä kannattaa harjoitella, sillä tällaiset sovellukset ovat varmasti tulleet jäädäkseen ja tulevat helpottamaan työntekoa tulevaisuudessa.
Vastaa