Kuvaaja: Susa Junnola

Julkaistu 07.07.2016

Mitä tiede voisi oppia Googlelta?

Digitaalinen avaruus kasvaa mahdollisesti kymmenkertaiseksi vuoteen 2020 mennessä. Miten tiede voi tästä hyötyä?

Digitaalinen avaruus kasvaa mahdollisesti kymmenkertaiseksi vuoteen 2020 mennessä. Miten tiede voi tästä hyötyä? Aihetta pohtii Hannu-Pekka Ikäheimo Viikon varrelta –blogisarjassamme.

Jonkinlainen Big Data –hybriksen kulminaatiopiste koettiin rapakon takana jo vuonna 2008, kun Wired-lehden silloinen päätoimittaja Chris Andersson ennusti datan räjähdysmäisen kasvun johtavan koko tieteellisen metodin hylkäämiseen kirjoituksessaan The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Anderssonin mukaan tieteellisestä luokittelusta, ontologiasta, hypoteeseista ja testaamisesta voidaan pian luopua, koska numerot puhuvat jo puolestaan. Tilastollisten algoritmien avulla on mahdollista löytää kaavoja, joiden kautta saadaan tiedettä nopeampia ja tarkempia tietoja ihmisten todellisesta käyttäytymisestä. Syy, miksi ihmiset toimivat niin kuin toimivat, ei Anderssonin mielestä ollut oleellista. Riitti kun tiedettiin, miten he todellisuudessa toimivat. Se innoitti hänet päättämään kirjoituksensa klassikoksi nousseeseen kysymykseen: mitä tiede voisi oppia googlelta?

Tiedeyhteisössä Anderssonin provokatiiviset teesit herättivät luonnollisesti heti tuoreeltaan vasta-argumenttien vyöryn, mutta keskustelu datamurroksesta on jatkunut elävänä senkin jälkeen. Vuonna 2014 julkaistussa tieteellisessä artikkelissa Big Data: a big mistake ekononomisti Tim Harford muistutti Anderssonin kaltaisia datauskovaisia tilastotieteen perusopeista. Google-hakujen perusteella flunssakausia oli pystytty ennakoimaan useita vuodenaikoja peräjälkeen. Yhtenä sesonkina ennustukset eivät kuitenkaan pitäneetkään paikkansa. Miksi?

Syitä voi tietysti olla lukemattomia, koska hakujen ja flunssan leviämisen välillä on vain korrelaatiosuhde, ei kausaliteettia. Harfordin mukaan tämä on yksi hyvä esimerkki siitä, että teorioista vapaa tarkastelu voi johtaa harhaan. Tieteen tehtävänä on ymmärtää myös syitä ja tuottaa selityksiä, jonka vuoksi löydöksiä ei voi vahvistaa pelkän datan perusteella, vaan on ymmärrettävä myös laajemmin ympäröivää todellisuutta.

Liikenne ja viestintäministeriön Big data –selvityksen mukaan digitaalinen avaruus kasvaa 40% vuosittain kasvaen kymmenkertaiseksi vuoteen 2020 mennessä. Kuten edellä kuvattiin, tieteellisen tutkimuksen näkökulmasta käyttävissä olevan datan määrän kasvu ei ole oikotie parempaa ymmärrykseen maailmasta. Mikään määrä dataa ja sen teknistä murskaustaitoa ei riitä, jos datan puutteita ei ymmärretä, tai jos siltä ei osata kysyä relevantteja kysymyksiä. On silti selvää, että dataistuminen tulee tarjoamaan paljon uusia mahdollisuuksia myös tutkimusmaailmalle. Nostan niistä esiin kolme näkökulmaa, jotka ehkä tarjoavat vastauksia myös Anderssonin esittämään haasteeseen.

1. Entistä laajemmat tutkimusaineistot

Tietovarantojen digitalisoituminen, tiedon keruun automatisoituminen sekä tiedon varastoinnin halpeneminen mahdollistavat yhä laajempien aineistojen haltuunoton tutkimuksissa. Parhaimmillaan se voi johtaa entistä parempiin empiirisiin tutkimuksiin, vaikka hyvä nyrkkisääntö onkin syytä pitää mielessä: data itsessään ei missään mittakaavassa ole arvokasta, vaan vasta datan jalostaminen, organisointi ja analysointi tuottavat tietoa, joka voi olla arvokasta.

Big datan mahdollisuuksiin on reagoitu myös ihmistieteiden puolella, jossa on lähdetty hyödyntämään datatieteen menetelmiä aineiston keruussa, hallinnassa ja analyysissä. Yksi kiinnostavimmista meneillään olevista suomailaisista hankkeista on Kansakunnan Mielenliikkeet –konsortiohanke, jossa tarkastellaan Suomi24-keskustelufoorumin aineistoa hyödyntäen tilastollisia ja kieliteknologisia menetelmiä sekä visuaalisia työkaluja. Aller Oy:n tutkijoille avaamassa aineistossa on yli 70 miljoonaa suomalaisten kirjoittamaa viestiä yli 15 vuoden ajalta. Työ on vasta alussa, mutta yksi hankkeen tehtävistä onkin toimia tienraivaajana digitaalisten tekstiaineistojen yhteiskuntatieteellisessä tutkimuksessa.

2. Tarkempaa tietoa ihmisten käyttäytymisestä

Verkkoon kytkettyjen laitteiden, sosiaalisen median, sensoriverkkojen ja paikkatietojen avulla on mahdollista saada yhä tarkempaa, moninaisempaa ja reaaliaikaisempaa dataa ihmisten todellisesta käyttäytymisestä. Automaattinen datan keruu ei kärsi samanlaisista kognitiivisista vinoumista tai viiveistä, kuten esimerkiksi kyselytutkimukset, jolloin todellisuuden mallinnukset ja todellisuus lähenevät entisestään toisiaan.

Etlan tutkimuksessa on havaittu, että lisäämällä Google-hakujen sisältämä informaatio olemassa oleviin malleihin, on mahdollista tehdä entistä tarkempia ennusteita nykyhetken ja lähitulevaisuuden työttömyydestä Suomessa. Google-haut tarkentavat ennusteita erityisesti käännekohdissa. Löydöksen pohjalta Etla on kehittänyt yhteistyössä 28 eurooppalaisen tutkimuslaitoksen kanssa uuden ETLAnow ennustetyökalun, joka ennakoi työttömyyden kehitystä jokaisessa EU-maassa. ETLAnow on ensimmäinen internetin suuria aineistoja hyödyntävä talousennuste, joka on julkisesti saatavilla. Työkalu hyödyntää ennusteissa Googlen hakutietoja ja Eurostatin virallisia aineistoja. Tulevaisuudessa sen käyttöalaa on tarkoitus laajentaa koskemaan muitakin talouden ilmiöitä, kuten asuntomarkkinoiden kehitystä.

3. Uudet yllättävät löydökset

Suurten ja entistä monimuotoisempien digitaalisten data-aineistojen avulla on mahdollista löytää aiemmin piilossa olleita yhteyksiä. Tästä hyvänä esimerkkinä on Hollannin veroviranomaisten Big data -kokeilu, jossa yhdistelemällä eri viranomaisten alle kuuluvia tietoja havaittiin, että henkilöillä joiden avioliitto oli juuri päättynyt eroon, oli huomattavasti keskimääräistä suurempi todennäköisyys tehdä virheitä veroilmoituksissaan. Korjaavat toimenpiteet tehtiin sen mukaisesti. Viranomaisille tällaiset löydökset ovat totta kai arvokkaita, mutta samoin myös tutkijoiden vastaavat oivallukset voivat johtaa yhä parempaan ymmärrykseen ihmisten ja yhteiskunnan toiminnasta.

Yhteistyön merkitys korostuu 

Tutkimusyhtiö Gartnerin mukaan Big datan alkuhuuma on ohi. Ilmiö on vakiintumassa ja siltä odotetaan jo konkreettisempia tuloksia. Tästä huolimatta tutkija Sami Holopaisen mukaan Big data –ilmiöön ollaan herätty Suomessa ja muualla Euroopassa vasta aivan viime vuosina. Samalla kun suuret tietotalot ovat kiirehtineet ottamaan Big dataan liittyvät tuotteet osaksi portfolioitaan, yliopisto-opetus laahaa jäljessä. Holopainen arveleekin Futura-lehteen kirjoittamassaan artikkelissa, ettei Big dataa nähdä yliopistoissa kovinkaan merkittävänä ilmiönä.

Lähes kaikissa Big dataa käsittelevissä tutkimuksissa ja selvityksissä korostetaan sitä, että työskentely suurten strukturoitujen ja strukturoimattomien data-aineistojen parissa edellyttää uudenlaista dialogisuutta, tieteidenvälisyyttä ja monimetodisuutta. Edellä mainitun Kansakunnan Mielenliikkeet -hankkeenkin yhtenä julkilausuttuna tavoitteena on rakentaa siltaa eri alojen sisältötutkijoiden, kielentutkijoiden ja toisaalta kieliteknologien ja data-analyytikkojen välille. Parhaimmillaan tällaisen vuorovaikutuksen tuloksena voi syntyä aivan uudenlaisia analyysityökaluja ja menetelmiä myös ihmis- ja yhteiskuntatieteisiin. Olisi syytä, että jatkossa tällaiset kokeilut jalkautuvat entistä vahvemmin myös suomalaiseen korkeakouluopetukseen. Osaamisen ja osaajien puutetta pidetään yhtenä keskeisimmistä Big datan mahdollisuuksia jarruttavista pullonkauloista.

Viikon varrelta -kirjoitukset vetävät yhteen ajankohtaiset puheenaiheet Sitran strategia- ja tutkimustiimissä. Viikon varrella kirjoitukset löytyvät kootusti täältä.