Kuva: Topias Dean, Sitra

Julkaistu 28.01.2020

Ihmisistä kerätty data uppoaa monimutkaisiin verkostoihin

Datan kerääjien ja hyödyntäjien verkosto on niin monimutkainen, että ihmisten on mahdotonta selvittää datan kulkua. Tietosuoja-asetus (GDPR) toimii vain osittain ja datataloudessa on systeeminen ongelma. Näin kertovat Sitran digijälkiselvityksen alustavat tulokset.
Kirjoittajat
Asiantuntija, IHAN- Ihmislähtöinen datatalous, Sitra
Johtava asiantuntija, IHAN- Ihmislähtöinen datatalous, Sitra
Asiantuntija, Viestintä, Sitra
Kirsi Suomalainen vastaa Hyvinvoinnin palveluoperaattorin, Kestävän talouspolitiikkakoulutuksen ja Työelämäpalkinnon viestinnästä. Työlistalla ovat myös Tajua Mut! -toimintamalli lasten ja nuorten kanssa tehtävään yhteistyöhön, digitaalinen palvelutori ja LATU-toimintamalli työyhteisön kehittämiseen.

Sitran joulukuussa 2019 toteuttamassa digijälkiselvityksessä seurattiin kuuden testihenkilön avulla yksilödatan kulkua digitaalisissa palveluissa. Lisäksi selvitettiin yksilön mahdollisuutta ymmärtää datatalouden toimintaympäristöä.

Sitran aiemmin toteuttama kansalaiskysely osoitti, että datan kulkua ja hyödyntämistä on syytä selvittää. Kyselyn mukaan 43 prosenttia suomalaisista sanoo, että luottamuksen puute palveluntarjoajia kohtaan estää käyttämästä digitaalisia palveluja. 71 prosenttia vastaajista haluaa, että reilut palvelut pitää voida tunnistaa​.

Miten digijälkiselvitys toteutettiin?

Testihenkilöitä olivat 16-vuotias lukiolainen (poika)​, keski-ikäinen toimittaja (nainen)​, keski-ikäinen poliitikko (nainen)​, 22-vuotias yliopisto-opiskelija (nainen)​, eläkeläinen (nainen)​ ja johtavassa asemassa toimiva keski-ikäinen (mies).​

Selvityksen pääkysymykset:​

  1. Kuinka paljon ja kenelle meistä kertyy dataa?​
  2. Mihin henkilökohtaista dataamme käytetään?
  3. Kerätäänkö/hyödynnetäänkö dataani tietosuoja-asetuksen mukaisesti?
  4. Mitä dataa kerätään minun kauttani myös muista (kontakteistani)? ​
  5. Mitä kauppaa datallamme käydään? ​
  6. Miten meitä profiloidaan/pisteytetään ja mihin profiileja/pisteytystä käytetään?

​Osaan kysymyksistä (4–6) saimme selvityksen aikana vain osittaisia vastauksia, osaan emme lainkaan.

Digijälkiselvitys keskittyi markkinointiin ja mainontaan liittyvään datan käyttöön. Selvityksen ulkopuolelle jäivät alueet, joissa datan saaminen ja jakaminen on kaikille osapuolille pelkästään hyödyllistä ja noudattaa avoimuuden ja läpinäkyvyyden periaatteita.

Selvityksessä käytetyt menetelmät​

Verkkoliikennedatan analysointi​

  • Testihenkilöiden mobiilidataliikennettä tallennettiin noin kahden viikon ajan​.
  • Testihenkilöt saivat käyttöönsä Android-testipuhelimen, johon oli asennettu VPN- ja monitorointisovellukset.

Valittujen yritysten (14) tietosuojadokumentaatioiden vertailu​

  • Yritykset oli valittu testihenkilöiden käyttämistä digitaalisista palveluista.
  • Tietosuojaselosteista selvitettiin, mitä tietoa yritykset keräävät ja millä tarkkuudella yritykset avaavat kerättyä dataa sekä datan hyödyntämistä.

​Samojen yritysten vastaukset tietosuoja-asetuksen mukaisiin kysymyksiin​

  • Testihenkilöt lähettivät käyttämilleen yrityksille tietosuoja-asetuksen mukaisen pyynnön saada kopio omasta datastaan ja tarkentavia kysymyksiä.
  • Vastausten avulla selvitettiin, millaista dataa palvelut keräävät käyttäjistä ja miten palvelut kertovat datan käyttöön liittyvistä kolmansista osapuolista ja profiloinnista. ​

Testihenkilöt käyttivät testipuhelimien kanssa omia sim-korttejaan. He käyttivät myös omaa puhelintaan testipuhelimen rinnalla, osa toisen sim-kortin kanssa. Testihenkilöt käyttivät omilla puhelimillaan niitä palveluja, joiden datanseurantaa he eivät sallineet (esim. työasiat, pankkipalvelut ja terveyspalvelut).

Ihmisillä ei ole realistista mahdollisuutta ymmärtää monimutkaisia datatalouden markkinointiverkostoja

Verkkopalveluiden käyttäjällä ei ole näkyvyyttä siihen, mitä dataa hänestä kerätään ja mille kolmansille osapuolille dataa menee. ​Ihmiset joutuvat luottamaan palveluiden yleistäviin ja vaikeaselkoisiin evästekäytäntöihin, tietosuojalausekkeisiin ja käyttäjäehtoihin, jotka on laadittu täysin yritysten ehdoilla, niiden etuja varjelemaan. ​

Tavallisen ihmisen on mahdoton ymmärtää myöskään kerätyn datan ja kolmansien osapuolten määrää. Monet kolmannet osapuolet vaihtavat saamaansa dataa keskenään. Lisäksi osa yhdistelee evästeitä erilaisten käyttämiensä tunnisteiden perusteella (cookie-syncing) eli muodostaa ihmisestä kokonaiskuvan, vaikka käytettyjä laitteita olisi useampia.

”Jos palvelut olisivat läpinäkyvämpiä, se kasvattaisi luottamusta.”
– 22-vuotias opiskelija

Lapset ovat erityisen haavoittuvaisessa asemassa, koska heistä kerätty data on kauppatavaraa siinä missä aikuistenkin, eikä heillä ole käytännössä mahdollisuuksia ymmärtää vaikeaselkoisia evästekuvauksia verkkosivuilla tai erilaisten sovellusten käyttöehtoja.

Esimerkiksi Newyorker.com-sivuilla käynnistä paljastui 56 toimijaa, joiden palvelimeen käyttäjän selain on yhteydessä. Osa toimijoista on mukana vain varmistamassa palvelun toimivuutta tai kehittämässä sitä paremmaksi käyntien perusteella, kun taas osa (kuvassa 18 AdTech/Marketing-toimijaa) kerää dataa jalostettavaksi edelleen myytäviksi yritystuotteiksi markkinointia ja mainontaa varten.

Kaaviokuva Newyorker.com-sivuston datan kerääjistä.

 ”Luulin, että datani jää palveluntarjoajalle.”
– Toimittaja

Datan kulkeutumista kuvaa myös Princetonin yliopiston tutkimus (Online tracking 01.2016), jossa simuloitiin 90 miljoonaa käyntiä miljoonalla sivustolla ja selvitettiin kolmansien osapuolten määrää.

Princetonin yliopiston tutkimus osoittaa, että eniten kolmansia osapuolia on uutissivustoilla ja vähiten yliopistojen, voittoa tavoittelemattomien järjestöjen, terveydenhuollon, EU:n ja valtionhallinnon sivustoilla. Kolmansista osapuolista suuri osa on muutaman alustajätin omistamia yrityksiä eli todellisuudessa erittäin suuri osa datasta menee kouralliselle yrityksiä (esim. Google, Facebook, Twitter, AppNexus), vaikka kolmansien osapuolten lukumäärä onkin huomattavasti suurempi.

Maksuttomien pelien vastineena data

Pelimaailmassa maksuttomuus on tärkeää varsinkin lapsille ja nuorille. Onkin hyvä ymmärtää, että pelaaja maksaa datallaan eli täysin ilmaista pelaaminen ei ole. Vaikka käyttäjä pelaisikin vain yhtä peliä (esim. Subway Surfers), taustalta löytyy iso joukko kolmansia osapuolia. Kolmannet osapuolet on jaettu tehtävänsä mukaan. Datasta löytyi yhteensä 10 kolmatta osapuolta (esim. Flurry Analytics, Moat ja TapJoy). Näistä seitsemän oli ryhmässä mainonta.

”Ei ollut yllättävää, että dataani menee eri paikkoihin, mutta kolmansien osapuolien määrä yllätti.” 
– 16-vuotias lukiolainen

Kaaviokuva: Subway Surferin sivuilla olevista datan kerääjistä.

Flurry Analytics on analytiikkapalvelu, jonka tarkoituksena sanotaan olevan sovelluksen optimointi. Sivuston perusteella ei ole helppo ymmärtää, mitä dataa se käyttää ja miten sitä yhdistetään. Lisäksi palvelun tietosuojalinkki vie Verizon Median tietosuojakäytäntöön. Verizon Media on osa jättiläismäistä Verizon Communications -yhtiötä, joka omistaa muun muassa Yahoon. Linkitetty tietosuojakäytäntö ei yksilöi Flurry Analyticsin käyttämää dataa, ja siellä kerrotaan, että dataa jaetaan Verizon median ja “luotettujen partnereiden” kesken.

Moat analysoi mainonnan vaikuttavuutta ja sitä, miten ja missä mainokset ovat näkyneet (attention analytics). Se on osa Oracle Cloudia. Oraclen tietosuojakäytäntö sisältää paljon linkkejä, eikä sieltä ole helppo löytää tietoa, miten Moatin dataa käytetään.

TapJoy on mainonnan myyntiin liittyvä palvelu. Kerätty liikennedata paljastaa, että se hyödyntää laite- ja käyttäjäkohtaista tunnistetta (tracking ID). Tämä tekee TapJoylle mahdolliseksi yhdistää dataa eri palveluista.

Mainontaan liittyvät toimijat keräävät dataa useasta lähteestä. Yhden testihenkilön datasta tunnistettiin 37 markkinointiin liittyvää kolmatta osapuolta. Nämä keräsivät dataa yhteensä 22 sivustolta tai sovelluksesta. Kolmansien osapuolten kotimaat olivat: EU (9 toimijaa)​, USA (27) ja Kanada (1).   ​

Kaaviokuva: Mainontaan liittyviä kolmansia osapuolia verkkosivuilla, esim. Appnexus, DoubleClick.

Garmin-hyvinvointisovelluksen data ei paljastanut kolmansia osapuolia​. Tulos on linjassa tietosuojaselosteen kanssa. Selosteessa mainitaan vain kaksi kolmatta osapuolta, jotka liittyvät maksamiseen ja logistiikkaan. Tämä on tyypillistä palveluille, joiden liiketoimintamalli perustuu täysin datan keräämiselle oman sovelluksen kautta. Se on yritykselle tärkeää tuotteen parantamisen, uusien tuotteiden kehittämisen ja asiakkaiden sitouttamisen kannalta.

Tietosuoja-asetus toimii vain osittain

Käyttäjän on mahdotonta saada selkeää kokonaiskuvaa datastaan: mitä dataa hänestä kertyy, kuinka sitä on kerätty, kuka prosessoi ja jalostaa sitä, ja kuinka kerättyä dataa ylipäätään käytetään. Koska tiedot ovat vajavaisia, on ihmisten myös vaikea selvittää, onko profilointi tehty oikean tiedon mukaan.

Datan kerääjien ja hyödyntäjien monimutkaisen verkoston takia tietosuoja-asetus toimii vain osittain. Tietosuoja-asetuksen perusteella ihmiset ymmärtävät ehkä kysyä tietoa datansa käytöstä ​ensisijaisilta palveluntarjoajilta. Dataa jakavan verkoston monikerroksisuuden takia ihmiset eivät kuitenkaan tunne kolmansia osapuolia, joille heidän dataansa myös menee. Ihmisillä olisi oikeus pyytää dataansa kolmansilta osapuolilta, mutta se on tehty äärimmäisen vaikeaksi.​

”Tarvitaan asiantuntija kertomaan yleiskielellä, ettätällainen se maailma on, johon tieto lähtee kulkemaan. Ei sitä yksin pysty ymmärtämään.”
-Toimittaja

Datataloudessa on systeeminen ongelma: liiketoimintamallit​

Kun datatalouden merkittävän osa-alueen eli digitaalisen mainonnan ympäristö on näin monimutkainen, on alan asiantuntijoidenkin mahdoton täysin ymmärtää sen toimintaa​. Yksittäisten palvelujen takana on laaja verkosto tuntemattomia toimijoita, joilla ei ole suoraa suhdetta palveluiden käyttäjiin​.

Yksilön näkökulma

Digitaalisen markkinoinnin liiketoimintamallit ovat lähtökohtaisesti haitallisia yksityisyyden kannalta. Tämä johtuu siitä, että mainonnan kohdistaminen on perustunut mahdollisimman suureen ominaisuuksien määrään riippumatta siitä, kuinka suuri merkitys niillä on.

Ihmisten itsensä jakama tieto, vaikkapa sähköpostiosoite, kiinnostuksen kohteet tai nimi, eivät digimainonnan nykyisissä liiketoimintamalleissa ole riittävää, vaan kaikki verkossa tapahtuvaan käyttäytymiseen liittyvä data halutaan talteen. Data koostuu muun muassa tykkäyksistä, sivuilla käynneistä, selaamisista, pelaamisesta, ihmisen kontakteista tai hakukoneen käyttämisestä.

Datan avulla luodaan mahdollisimman monia ja kattavia datatuotteita ihmisistä. On tiedetty, että yksittäisen ihmisen on mahdotonta suoriutua kaikista eri evästekäytännöistä ja tietosuojaehdoista, koska aikaa yksinkertaisesti kuluisi liikaa, eikä internetin käyttö olisi enää mielekästä.

”Pahin uhkakuva on se, että dataa käytetään poliittiseen manipulointiin.”
– 22-vuotias opiskelija

Yritysten näkökulma

Eurooppalaiset yritykset ovat investoineet valtavia määriä resursseja noudattaakseen tietosuoja-asetusta ja erityisesti suurissa yrityksissä hankkeet ovat olleet usein laajoja ja kalliita. Voidaankin ajatella, että samaan aikaan, kun EU-maissa sijaitsevat yritykset ovat merkittävästi panostaneet tietosuoja-asetuksen toimeenpanoon, tutkan ulkopuolelle on jäänyt joukko kansainvälisiä datatalouden yrityksiä, joiden toiminta asetuksen suhteen on pimennossa.

Vuosia kestäneet digitaalisen markkinoinnin ja mainonnan aiheuttamat ongelmat yksityisyyden suhteen ovat herättäneet niin kuluttajat, yritykset kuin lainsäätäjätkin. Henkilödatan ympärille rakennetut liiketoimintamallit eivät useinkaan kestä päivänvaloa ja esimerkiksi markkinoinnin ammattilaiset ovat alkaneet kyseenalaistaa ylitarkasti profiloitujen yleisöjen toimivuutta. Markkinoinnin ja mainonnan keinoja arvioidaan nyt uudelleen ja toimiala on merkittävässä, osittain itse käynnistämässään, muutoksessa. Alalla on myös huomattavissa määrin esiintynyt mainostajiin kohdistuneita petoksia esimerkiksi siten, että mainoksia ovatkin klikkailleet bottijoukot. Tällöin mainostajat ovat maksaneet tyhjästä.

On myös ongelmallista, että dataa kerätään digitaalisen mainonnan siiloihin, jolloin muiden yritysten on vaikeaa oppia asiakkaistaan ja sitä kautta vaikeaa kehittää uusia, asiakkaita kiinnostavia palveluja ja tuotteita. Tavallisen yrityksen kannalta alkaa näyttää siltä, että perinteinen tapa kasvattaa omaa asiakastietokyvykkyyttään kokee renessanssin.

Miten tästä eteenpäin?

Loppuvuodesta 2019 toteutetun digijälkikartoituksen tuloksia analysoidaan edelleen ja tätä artikkelia tarkempi kooste julkaistaan myöhemmin keväällä.

Tammikuussa 2020 Sitran avaama Digiprofiilitesti ​auttaa ymmärtämään datatalouden toimintaperiaatteita ja antaa vinkkejä siitä, miten omaa dataansa voi suojella. ​

​Sitran työ reilun datatalouden edistämiseksi jatkuu. Tietosuoja-asetus on avannut pienen kurkistusluukun datan liikkeisiin, mutta Sitran IHAN-hankkeessa pyritään raivaamaan tietä kaikille reiluun datatalouteen.

Kuvituskuva: kolme laatikkoa, joihin näkymä paranee GDPR:n ja reilun datatalouden myötä.

 

Kuinka voit suojata dataasi?

Ohjeita datan suojaamiseen löytyy useilta verkkosivuilta:

Selvityksen toteuttajat

Sitra​ ja Futurice toteuttivat selvityksen yhteistyössä. Mukana yhteistyössä oli myös Paul-Olivier Dehaye, PersonalData.IO:n perustaja.

Lähteitä

Selvityksessä on hyödynnetty myös seuraavia aineistoja:

THE GREAT DATA RACE How commercial utilisation of personal data challenges privacy. Report, November 2015 ​
Princeton University: Online Tracking: a 1-million-site Measurement and Analysis 2016 ​
OUT OF CONTROL How consumers are exploited by the online advertising industry 2020
WORLD ECONOMIC FORUM -julkaisu 1.2020 ​

Mistä on kyse?