Tekoälyn yleistyminen on vaikuttanut siihen, että dokumentteja tutkitaan sen avulla monin eri tavoin. Erilaiset kielimallit haravoivat verkosta tietoa ja käyttävät ja tulkitsevat eri muodossa julkaistuja sisältöjä oppimillaan logiikoilla. Joskus tekoälyn tuottama tulos on hämmästyttävän hyvä, mutta välillä menee pahastikin pieleen. Lopputulokseen vaikuttaa ratkaisevasti lähdeaineiston laatu.

Helpottaaksemme megatrendien hyödyntämistä, olemme kääntäneet koko Megatrendit 2026 -selvityksen sisällön kielimalleille sopivaan muotoon. Megatrendit 2026 -datasetti on rakenteinen JSON-tietoaineisto, joka on suunniteltu erityisesti tekoäly- ja tiedonhakusovellusten tarpeisiin.

Megatrendit 2026 -datasetissä JSON-muoto erottelee selkeästi dokumentin pääosat, Markdown-muoto kuvailee tekstin semantiikan, kuvien tekoälytulkkaukset laajentavat tietosisällön saavutettavuutta, ja Vega-Lite JSON-koodi mahdollistaa joidenkin infografiikoiden visualisoinnin uudelleen.

Tavoitteena on, että koneellinen käyttö olisi mahdollisimman sujuvaa, eikä monien tahojen tarvitsisi tehdä PDF:n kääntämistä. Tämä säästää paitsi aikaa vähentää se myös turhaa energian kulutusta.

Toinen tärkeä tavoitteemme on, että sisältöolisi mahdollisimman saavutettavaa ja virheetöntä. CC-lisensoinnilla annamme oikeudet käyttää sisältöä vapaasti.

Miten voit käyttää datasettiä?

Megatrendit kuvaavat toisiinsa kytkeytyviä ilmiöitä, joiden avulla voi tutkia ja ymmärtää erilaisten muutosten vaikutuksia esimerkiksi omaan toimialaan ja sen näkymiin. Megatrendit 2026 data-aineistoa voi käyttää vaikkapa yritysten ja yhteisöjen strategiatyössä, eri toimialojen näkymiin varautumisessa ja uusien mahdollisuuksien kartoittamisessa.

Voit tehdä vaikka näin:

  1. Anna datasettitiedosto kielimallille
    Voit antaa JSON-datasettitiedoston kielimallille sellaisenaan, ja keskustella siitä sen kanssa. Voit pyytää tekoälyä esimerkiksi tiivistämään eri osioita tai vaikka koko selvityksen.
  2. Käytä datasettiä RAG-sovelluksessasi
    Voit hyödyntää JSON-datasettitiedoston rakenteellisuutta RAG-sovelluksessa. Infograafien tekstikuvaukset sulautuvat vektoritietokannassa muuhun tekstisisältöön. Sivunumeroita voit käyttää metatietoina.

JSON, siis mitä häh?

Miten tämä datasettitiedosto eroaa PDF-tiedostosta? Miksen vain antaisi PDF-tiedostoa tekoälylle? Miksen kääntäisi itse PDF-tiedostoa tekoälylle sopivaksi, ja käyttäisi sitä RAG-sovelluksessani?

JSON-muotoinen Megatrendit 2026 -datasetti eroaa PDF-tiedostosta siinä, että se on rakenteinen ja koneystävällinen. Sen sisältö on varustettu semanttisilla tiedoilla (otsikot, leipäteksti, lihavointi yms.), metatiedoilla, ja lisäksi kuvat sekä infograafit on valmiiksi kuvailtu tarkasti tekstinä, mikä tukee tarkempaa hakua, viittausten tekemistä ja kontekstin ymmärtämistä tekoälyjärjestelmissä. Lisäksi infografiikoista on tarjolla tekoälyavusteisesti luotuja teknisiä koodikopioita, joiden avulla voit piirtää infografiikan uudelleen.

Jos annat pelkän PDF-tiedoston tekoälylle, sen täytyy ensin parsia tekstit sekä tulkita kuvat, mikä voi johtaa virheisiin ja puuttuviin osiin. PDF-tiedoston kääntäminen tekstiversioksi ei myöskään ole suoraviivaista, sillä yksinkertaisesta käännöksestä puuttuvat kuvien tulkkaukset. JSON-datasetissä nämä ovat valmiina ja helposti hyödynnettävissä esimerkiksi RAG-sovelluksissa.

Miksi teimme tämän datasetin?

Sitran tavoitteena on, että mahdollisimman monille olisi hyötyä megatrendeistä, jotka vaikuttavat monin eri tavoin yhteiskuntaan ja arkeen. Siksi lähdimme tekemään megatrendisisällöstä myös erillistä datasettiä. Tällaista myös sidosryhmät toivoivat meiltä.

Paljon käytetty PDF on formaattina tehty palvelemaan ihmisen silmiä, ja se suoriutuu siitä hyvin, koska PDF-dokumentti näyttää kaikilla laitteilla aina samalta. Koneellisessa käytössä PDF on kuitenkin ongelmallinen. Vaikka PDF on digitaalinen, sen sisällä oleva tieto ei ole rakenteellisessa muodossa, ja koneellinen käyttö vaatii rakenteellisuutta. Rakenteellisuutta on mahdollista luoda jälkikäteen, mutta tällaisen muunnoksen tekemisen laatu riippuu käytetystä menetelmästä.

Megatrendit 2026 -selvityksen sisällön kääntämiseen ei ole käytetty yksittäistä valmista ohjelmaa tai muunninta, vaikka erilaisia työkaluja PDF-tiedoston kääntämiseen onkin tarjolla. Toistaiseksi emme löytäneet sellaista, joka olisi tuottanut tavoitteemme mukaista lopputulosta käytön monipuolisuuden sekä saavutettavuuden osalta.

Tekoälylläkään kaikki ei aina tapahdu hetkessä vaan käytimme jonkun verran aikaa datasetin tekemiseen. Näin saimme näkyvyyden esimerkiksi erilaisten muuntimien toimivuuteen ja tekoälyn tuottamaan tarkkuuteen. Datasetistä tuli julkaisukelpoinen vasta useampien kokeilujen ja ihmisen tekemien tarkastusten jälkeen.

Toivomme, että tekemästämme työstä on hyötyä. Itse opimme monta asiaa tulevien julkaisuprosessien varalle.

P.S. Jos käytät datasettiä, kuulemme mieluusti, miten se toimi ja oliko hyödyllinen (Anton ja Sari).

Lisenssit ja lähdeviittaukset

CC BY-SA 4.0 tarkoittaa, että voit käyttää sisältöä vapaasti myös esimerkiksi kaupallisessa tekoälysovelluksessa. Sinun tulee kuitenkin jakaa omaa tuotokseksi tällä samalla lisenssillä. Siihen viittaa lisenssi lopussa oleva SA eli share alike.

Noudata normaaleja lähdeviittauskäytäntöjä, kun käytät datasettiä. Rakenteisesta datasetistä löytyvät alkuperäisen julkaisun sivunumerotiedot ja alkuperäislähteet.

Julkaisu:
Dufva M., Kiiski-Kataja E., Lähdemäki-Pekkinen J. (2026). Megatrendit 2026. Sitran selvityksiä 251. Sitra.
sitra.fi/julkaisut/megatrendit-2026

Datasetti:
Dufva M., Kiiski-Kataja E., Lähdemäki-Pekkinen J. (2026) Megatrendit 2026. Dataset. Sitra.
huggingface.co/datasets/sitrafund/megatrendit-2026

Datasetin voit ladata tästä: Megatrendit 2026 -datasetti (JSON-datasetti zip-tiedostona). Löydät sen myös Hugging Face -alustalta.

Lue lisää

Tutustu myös