Mistä dataa tutkimus- ja kehityskäyttöön? 

Kun tutkija saa idean mielenkiintoisesta tutkimusaiheesta, tai yrittäjälle syntyy kiinnostus kehittää liiketoimintaansa, vastaan tulee yleisesti tunnistettu pulma: mistä löytyisi sopivaa aineistoa tutkimus- ja kehitystyön tueksi? Tutkimusaineistojen kerääminen on suuritöistä ja aikaa vievää. Hyvä uutinen onkin se, että kaikkea dataa ei tarvitse itse kerätä. Tässä blogissa kerrotaan, miten avoimeen dataan pääsee käsiksi.  

Avoin data on kaikkien vapaasti käytettävissä olevaa tietoa 

Digitalisaatio on johtanut datan määrän räjähdysmäiseen kasvuun. Se tarjoaa paljon uusia mahdollisuuksia esimerkiksi liiketoiminnan kehittämiseen. Yritykset ovat huomanneet datan arvon ja paljon keskitetäänkin liiketoiminnassa energiaa esimerkiksi tiedolla johtamisen kehittämiseen. Yritykset suhtautuvat kuitenkin vielä varovaisesti keräämänsä tiedon jakamiseen. Syyt ovat moninaisia, esimerkiksi liikesalaisuuksien suojeleminen tai tietoturvakysymykset.  

Avoin data on digitaalisessa muodossa olevaa informaatiota, joka on kaikkien vapaasti käytettävissä mihin tahansa käyttöön, kunhan sen alkuperäinen lähde mainitaan. Avointa dataa ovat esimerkiksi reaaliaikainen tieto bussien sijainnista tai tilastotieto suosituimmista nimistä. (Avoindata.fi).   

Avoin data voi olla hyvin monenlaista. Sen tunnistaa merkeistä Creative Commons, BY4 tai CC0 1.0. Suomalaisen avoimen datan lähteille opastaa Digi- ja väestötietokeskuksen ylläpitämä sivusto avoindata.fi. Sieltä löytyy 766 tuottajan 2146 tietoaineistoa, 90 rajapintaa ja 89 sovellusta. Esimerkkinä sivuston tarjoamasta avoimesta datasta on hallinnon ja julkisen sektorin tarjoamat tietoaineistot, jotka käsittelevät vaaleihin ja äänestämiseen, politiikkaan, hallintoon ja päätöksentekoon, vieraanvaraisuuteen ja lahjoihin liittyvää tietoa. (Avoindata.fi). 

Dataa täytyy jalostaa ja rikastaa 

Pelkästään datan kerääminen ei vielä auta kehittämään liiketoimintaa tai parantamaan palveluita. Dataan voidaan suhtautua kuin raaka-aineeseen, jota pitää jalostaa lisäarvoa tuottavaksi tiedoksi. Usein dataa on verrattu raakaöljyyn: ensimmäisessä vaiheessa öljy nostetaan öljynporauslautalle, kuljetetaan öljynjalostamolle, jossa raaka-aineesta jalostetaan bensaa, dieseliä, kaasua ja niin edelleen. Datalähteitä on monenlaisia, mutta oleellista on, että data on digitaalisessa muodossa, sillä muuten sen “nostaminen” on vaikeaa. Datan kuljettamiseen käytetään laivan sijasta pilvipalvelua ja viimeisessä vaiheessa data prosessoidaan tilastotieteen menetelmien avulla tai sitä rikastetaan ulkoisten lähteiden avulla. Datan jalostaminen tarkoittaa sen prosessointia, analysointia ja visualisointia. Datan rikastaminen tarkoittaa kahden tai useamman datalähteen yhdistämistä uuden tiedon tuottamiseksi. Datan käsittelyn viimeinen ja tärkeä vaihe on visualisointi, se tekee datasta lukijaystävällistä ja helpottaa kokonaisuuksien ymmärtämistä. (Rantonen 2023.)   

Datan visualisoinnista hyvä esimerkki on Kunta-Virveli. Se on liikuntatietoon keskittyvä maksuton, vuorovaikutteinen visualisointi- ja ennakointityökalu, jonka tarkoitus on auttaa kuntapäättäjiä näkemään oman kunnan tilannetta ja antaa vertailupohjaa muiden kuntien tilanteeseen. Kuntavirvelin tarjoamat tietosisällöt yhdistelevät tietoa kuntien väestöpohjasta, kuntien liikuntaan saamista valtion avustuksista, liikuntapaikkojen lukumäärästä, sijainti- ja tyyppitiedoista, valtakunnallisten liikunnan edistämisohjelmien seurantatiedosta, kuntien poikkihallinnollisen liikuntaneuvonnan tila ja saatavuus tiedosta, kouluterveyskyselyn liikunta ja terveyskysymysten sekä Move! -mittausten tuloksista sekä aikuisten liikkumisen ja terveyden FinSote- kyselyn koonnista. (Lehtonen & Kukko 2023.) 

Toisiolaki mahdollistaa sosiaali- ja terveystietojen toissijaisen käytön  

Suomessa sosiaali- ja terveystietojen tutkimuskäyttöä rajoittaa ja säätelee niin sanottu toisiolaki, eli laki sosiaali- ja terveystietojen toissijaisesta käytöstä. Toisiolaki koskee sosiaali- ja terveydenhuollon toimintayksiköiden sekä yritysten lisäksi kansallisia rekisterinpitäjiä, esimerkiksi Kelaa, Aluehallintovirastoa, Työterveyslaitosta ja Digi- ja väestötietovirastoa.  Sosiaali- ja terveysdataa kerätään ensisijaisesti terveyden- ja sairaanhoidon käyttötarkoituksiin. Sosiaali- ja terveysdatan toisiokäytöllä tarkoitetaan jo kerättyjen sote -tietojen käyttöä toissijaiseen tarkoitukseen, kuin miksi niitä on alun perin tallennettu. Toissijaiset käyttötarkoitukset ovat tilastointi, tieteellinen tutkimus, kehittämis- ja innovaatiotoiminta, opetus, tietojohtaminen, sosiaali- ja terveydenhuollon viranomaisohjaus ja -valvonta sekä viranomaisten suunnittelu- ja selvitystehtävät. (Findata.fi., STM.) 

THL:n yhteydessä toimiva Sosiaali- ja terveysalan tietolupaviranomainen Findata myöntää hakemuksesta luvan sosiaali- ja terveystietojen toissijaiseen käyttöön. Findatan verkkosivuilta voi valita haluamansa tietolähteen ja tehdä tietolupahakemuksen. Findata tarkistaa hakemuksen ja laskee palvelun kokonaiskustannuksen. Hakijan on hyväksyttävä sekä kustannusarvio että poimintakuvaus, jotta lupa voidaan myöntää. Tämän jälkeen poimintaehtoja ei ole mahdollista muuttaa. Mikäli hakijalle tulee muutostarpeita poimintaehtoihin, vaatii se uuden hakemuksen.  Hakijan saama tietolupa on aina määräaikainen. Tietolupien kustannukset vaihtelevat 250–3000 euron väliltä. Hintaan vaikuttaa tietopyynnön laajuus sekä hakemuksen käsittelyyn kuluva työaika. (Findata.fi.) 

Oleellisinta tietolupapyynnön tekemisessä on esivalmistelun tärkeys. Hyvä tutkimussuunnitelma on kaiken A ja O. Tutkimussuunnitelmassa on kuvattava, mitä ja miten tutkitaan, mitä rekisterejä tarvitaan ja mitä muuttujia tarkastellaan. Tutkimusjoukon poimintakuvaus ja muuttujien rajaus on laadittava huolellisesti. On myös oleellista, että tutkimussuunnitelmassa ja Findatan hakemuksessa on kuvattu sama poimintakuvaus. (Vuorento 2023.) 

Mikäli hakijan pyytämä data on luonteeltaan aggregoitua tilastoaineistoa, se lähetetään hakijalle sähköisesti ja sitä voi analysoida vapaasti. Jos taas data on yksilötasoista, sitä voi analysoida ainoastaan tietoturvallisissa ympäristöissä. Tätä varten Findata tarjoaa asiakkailleen tietoturvallisen Kapseli -käyttöympäristön.  Kapselin käytön kustannus riippuu siitä, kuinka tehokkaan suorituskyvyn konepaketille valitsee. Edullisimmat paketit maksavat noin 200 euroa kuukausittain. (Findata.fi.) 

Kirjoittajat: 

Leena Rasa, TKI-asiantuntija ja hoitotyön lehtori, Jyväskylän ammattikorkeakoulu 

Soile Laitinen, TKI-asiantuntija, Jyväskylän ammattikorkeakoulu 

HYTKI Hyvinvointi- ja terveysdatan kansallinen innovaatioekosysteemi on vuosien 2021–2023 aikana toteutettava viiden alueen ekosysteemien verkostoyhteistyöhanke, joka edistää terveys- ja hyvinvointialan datapohjaista innovaatiotoimintaa. Hanketta rahoittaa Pohjois-Pohjanmaan maakuntaliitto aluekehittämisen teemaverkostojen ja kehittämisvyöhykkeiden rahoituksella.  

Lisätietoa: https://www.hytki.fi  

Lähteet 

Avoindata.fi. Digi- ja väestötietovirasto. Viitattu 11.5.2023. Mitä on avoin data? | avoindata.fi  

Findata.fi. Sosiaali- ja terveysalan tietolupaviranomainen Findata. Viitattu 29.5.2023. https://findata.fi

Lehtonen, K. & Kukko, T. 2023. Kunta-Virveli – Liikunnan edistämisen tunnuslukuja kunnista. Hytki -webinaari 27.4.2023. 

Rantonen, M. 2023. Ota data haltuun: Avoin data ja sen hyödyntäminen. Jyväskylän ammattikorkeakoulu. Hytki -webinaari 27.4.2023. 

STM. Toisiolaki mahdollistaa sosiaali- ja terveystietojen tietoturvallisen käytön. Viitattu 29.5.2023. https://stm.fi/sote-tiedon-hyodyntaminen

Vuorento, M. 2023. Asiakaspuheenvuoro Findatan hakemusprosessista asiakkaan näkökulmasta. Hytki -webinaari 27.4.2023.