Artikkeli
Ehdotettu laatukriteeristö ja mittaristo tarjoavat hyvän perustan tiedon laadun parantamiselle myös tulevaisuudessa. Jatkovalmistelussa tulee kiinnittää huomiota tekoälyyn ja koneoppimiseen liittyviin tiedon laatukriteereihin ja mittareihin.
Artikkelin tyyppi
Lausunnot
Julkaistu
6.10.2021
Johtaja
Asia: VN/16357/2020
Suomen itsenäisyyden juhlarahasto Sitra kiittää mahdollisuudesta lausua julkisen hallinnon tiedon laatukriteereitä ja niiden mittaristoa koskevasta ehdotuksesta.
Laatukriteereitä on yksitoista: jäljitettävyys, kattavuus, ajantasaisuus, johdonmukaisuus, oikeellisuus, tarkkuus, suositustenmukaisuus, ymmärrettävyys, koneluettavuus, käyttöoikeudet ja täsmällisyys. Kriteerit on ryhmitelty neljään ryhmään: mitä tieto koskee, miten tieto kuvaa todellisuutta, miten hyvin tieto on kuvattu ja miten tietoa voi käyttää.
Julkisen hallinnon laatukriteereitä on tarkasteltu tiedon käyttäjän ja tiedon tuottajan sekä kriteeristön ja mittareiden hallinnan näkökulmasta hyvin ryhmiteltynä, selkeästi ja kattavasti. Tulos on korkeatasoinen ja hyödyllinen, ja tuloksesta näkee, että laatukriteeriprojekti on kaiken kaikkiaan toteutettu hyvin ja projektin tavoitteet on saavutettu.
Esitetyt laatukriteerit, mittarit ja määritelmät tukevat hyvin yhteismitallista laadun tunnistamista ja keskustelua sekä yhteistyötä.
Tiedon laadun tunnistaminen määrittely tukee julkishallinnon tiedon hyödyntämistä ja avaamista sekä organisaatiokohtaisesti että yli organisaatiorajojen.
Laatukriteeristö ja mittaristo tarjoavat hyvän perustan tiedon laadun parantamiselle myös tulevaisuudessa. Työ ei kuitenkaan ole valmis, jatkokehitystä ja kriteerien ja mittariston kehittämistä tarvitaan myös jatkossa. Lievänä puutteena tulevaisuutta ajatellen voi todeta, että kokonaisuudessa ei käsitellä tekoälyyn ja koneoppimiseen liittyviä tiedon laatukriteereitä ja mittareita, joita perinteiset laatuvaatimukset eivät välttämättä kata tai huomioi riittävästi.
Esimerkiksi tekoälyasetuksessa (1) viitataan suuririskisten tekoälyjärjestelmien osalta vaatimuksiin, jotka koskevat korkealaatuista dataa, dokumentointia ja jäljitettävyyttä, läpinäkyvyyttä, ihmisen suorittamaa valvontaa sekä tarkkuutta ja varmuutta ja jotka ovat keskeisiä riskienhallinnan kannalta (s. 8). Datan korkea laatu on myös olennaisen tärkeää tekoälyjärjestelmien suorituskyvyn kannalta, esimerkiksi mallien kouluttamisessa, jotta suuririskinen tekoälyjärjestelmä toimii tarkoitetulla tavalla (s. 31).
Tekoälyasetuksessa korostetaan korkealaatuisen datan merkitystä tekoälyjärjestelmien ja eurooppalaisten data-avaruuksien sekä erityisesti terveysdata-avaruuden suhteen.
”Komission perustama yhteinen eurooppalainen data-avaruus ja datan jakamisen helpottaminen yritysten välillä ja viranomaisten kanssa yleisen edun nimissä ovat ratkaisevan tärkeitä, jotta voidaan tarjota luotettava, vastuullinen ja syrjimätön pääsy korkealaatuiseen dataan tekoälyjärjestelmien koulutusta, validointia ja testausta varten. Esimerkiksi terveydenhuollon alalla eurooppalainen terveysdata-avaruus helpottaa terveysdatan syrjimätöntä saatavuutta ja tekoälyalgoritmien koulutusta näillä datajoukoilla yksityisyyden suojaavalla, turvallisella, oikea-aikaisella, läpinäkyvällä ja luotettavalla tavalla ja asianmukaisen institutionaalisen hallinnon alaisena. Asiaankuuluvat toimivaltaiset viranomaiset, myös alakohtaiset viranomaiset, jotka tarjoavat dataa tai tukevat datan saatavuutta, voivat tukea korkealaatuisen datan tarjoamista tekoälyjärjestelmien koulutusta, validointia ja testausta varten.” (s.31)
Sitra koordinoi Euroopan unionin kolmannen terveysohjelman rahoittamaa eurooppalaisen terveysdatan yhteistoimintahanketta eli TEHDAS-hanketta (2), jossa kehitetään yhteisiä toimintaperiaatteita terveysdatan hyödyntämiseen ja johon osallistuu 25 maata. Sitra katsoo, että tekoälyn ja koneoppimisen asettamien uudenlaisten datan laatuvaatimusten huomioiminen on tulevaisuuden kannalta tärkeää.
Tekoälyn ja koneoppimisen asettamista vaatimuksista löytyy julkaisuja, joissa korostetaan muun muassa systeemin opettamiseen käytettävän datan sekä systeemissä käytettävän datan laatua, luotettavuutta ja edustavuutta. (3, 4, 5)
Kehitysprojektissa on aloitettu hyvin toimiva yhteistyö, jota lienee syytä jatkaa. Yhteistyöverkostoa voidaan tarvittaessa myös laajentaa ja käsiteltäväksi voidaan ottaa myös uusia asioita, kuten tekoälyn ja koneoppimisen mukanaan tuomia laatuhaasteita.