Isot data-aineistot saivat tutkijat jahtaamaan Newtonin unelmaa

Google muutti kirjat dataksi ja tuli samalla luoneeksi uuden tieteenhaaran, culturomicsin.

Julkaistu

28.9.2016

Server room — Image: Torkild Retvedt, CC 2.0

Google muutti kirjat dataksi ja tuli samalla luoneeksi uuden tieteenhaaran, culturomicsin. Mitä se oikeastaan on ja mitä voimme siltä odottaa?

Google käynnisti vuonna 2004 tyylilleen uskollisen megalomaanisen hankkeen. Sen tavoitteena on saattaa kaikki maailmassa kirjoitetut kirjat sähköiseen muotoon ja laittaa ne avoimesti saataville internetiin.

Tarkoitusta varten Google kehitti skannauskoneen, joka kääntää kirjojen sivut automaattisesti ja pystyy siten skannaamaan miljoonia kirjoja. Muutamassa vuodessa maailman suurin digitaalinen kirjasto oli jo pystyssä.

Kuvina nettiin tallennetuista kirjoista ei kuitenkaan voinut tehdä sanojen tarkkuudelle ulottuvaa louhintaa, vaan piti yhä tietää mitä etsi. Niinpä Google päätti vielä muuttaa kirjat dataksi tekstintunnistustyökalulla, joka pystyy tunnistamaan kuvasta kirjaimet, sanat ja lauseet. Lopputuloksena syntyi maailman laajin dataistettu kirjasto, joka ei ole vain ihmisten vaan myös tietokoneiden luettavissa ja tulkittavissa.

Tällä hetkellä Googlen dataistetun digitaalisen kirjaston koko on yli 30 miljoonaa teosta. Googlen omien karkeiden arvioiden mukaan se kattaa jo 15–20 prosenttia maailman kirjoitetusta perinnöstä.

Tutkijat ja tutkimusryhmät ovat luonnollisesti olleet aineistosta innoissaan tästä ennen näkemättömän kokoisesta aineistosta. Hankkeen tuloksena on jopa syntynyt kokonaan uusi tieteenhaara nimeltään culturomics, joka pyrkii ymmärtämään ihmisten käyttäytymistä ja kulttuurisia trendejä kvantitatiivisen analyysin pohjalta.

Culturomicsin pioneerit Erez Aiden ja Jean-Baptiste Michel käyttivät dataistettuja aineistoja tarkastellessaan sanojen syntyä ja yleisyyttä eri ajanjaksoina. Yksi heidän tutkimuksensa päälöydöksistä oli, että yli puolet englannin kielessä käytössä olevista sanoista ei ole sanakirjoissa. Näiden tutkimusten innoittamana syntyi myös Google Ngram Viewer -hakukone, jonka avulla voi helposti tutkia sanojen syntyä ja yleistymistä tai vaikka henkilöiden suosiota eri ajanjaksoina.

Aiden ja Michel ovat kutsuneet culturomicsia aivan uudenlaiseksi ”kulttuuriseksi teleskoopiksi” ja verranneet sen mahdollisuuksia vaatimattomasti jopa Galileo Galileihin, joka heidän sanojansa lainaten, ”pudotti maapallon pois universumin keskiöstä vain 30 kertaa ihmissilmää tehokkaammalla teleskoopilla”.

Tutkija Helga Nowotnyn mukaan Isaac Newton olisi kuitenkin culturomicsille paljon luontevampi vertailukohta. Olihan Newtonin yksi vähemmän tunnetuista suurista haaveista saada selvyys sivilisaatioiden syntyhistoriasta luomalla teksteille, erityisesti raamatun teksteille, astrologiasta johdettu numeraalinen tulkintakoodi.

Nowotnyn mukaan Newton keräsi vuosien saatossa harrastustaan varten laajan aineiston, aikansa big data -aineiston, jonka avulla hän yritti ymmärtää ihmiskunnan historiaa matemaattisin termein, toisin sanoen kvantifioimalla ja mittaamalla ihmiskulttuurin tuotoksia. Ajatus siitä, että vaihtuvuuden ja sattumanvaraisuuden, näennäisen kaaoksen takana oli ehdottomia, tarkkoja ja ennakoitavissa olevia maailmaa koskettavia sääntöjä, jotka voitiin laskea ja selittää matemaattisesti, oli 1600-luvulla vastustamaton. Luonnon lait löytäneen Newtonin haave inhimillisen toiminnan taustalla olevien ”lakien” löytämisestä ei kuitenkaan toteutunut.

Mitä sitten voimme odottaa culturomicsilta? Käykö tämän uuden menetelmän suurille odotuksille samoin kuin Newtonin haaveille?

Ainakin toistaiseksi suuret läpimurrot odottavat vielä itseään. Jo konkretisoituneena edistysaskeleena voidaan kai pitää sitä, että suuri dataistettu nettikirjasto on tehnyt kiinnostavien uusien lähteiden löytämisestä entistä helpompaan ja toisaalta plagioinnista entistä vaikeampaa. Tiettävästi Google on myös hyödyntänyt suurta tekstimassaa automaattisen kielenkääntäjän kehitystyössä.

Tutkimuspuolella sen sijaan ollaan vasta alkutaipaleella. Jo nykyisellään työskentely ennen näkemättömän suurten tekstidatojen kanssa voi auttaa tutkijoita tekemään uusia löydöksiä ja tarkentamaan katsetta ilmiöihin, jotka perinteisten aineistojen kanssa jäisivät huomaamatta.

Suuria uutisaineistoja samalla metodiikalla tutkimalla on jo onnistuttu tekemään kiinnostavia verkostoanalyysejä maailman ”luonnollisista sivilisaatioista” ja havaitsemaan jännitteiden kasvu Pohjois-Afrikan maissa ennen arabikevättä, tosin jälkikäteen. Mikäli koneiden kyky luonnollisen kielen analysoinnissa kehittyy odotetusti, pitäisi myös nopeiden yhteenvetojen ja kulttuuristen muutosten ymmärtäminen olla mahdollista lähitulevaisuudessa.

Toistaiseksi kuitenkin datan syvempi ymmärrys vaatii rinnalleen perinteisiä tutkimusmetodeja sekä ihmisen tekemää analyysiä. Nowotnyn mukaan jatkossa tarvitaan myös yhä syvempää tieteiden välistä yhteistyötä, mikäli culturomicsista halutaan saada irti eriskummallisia historiallisia detaljeja enemmän.

Viikon varrelta -kirjoitukset vetävät yhteen ajankohtaiset puheenaiheet Sitran strategia- ja tutkimustiimissä. Viikon varrella -kirjoitukset löytyvät kootusti täältä.

Isot data-aineistot saivat tutkijat jahtaamaan Newtonin unelmaa

Tutustu myös