Kuvituskuva

Data projektin lähtökohtana

Ideat datan hyödyntämisestä syntyvät yleensä kahta vaihtoehtoista kautta. Joko ensin havahdutaan liiketoimintaongelmaan, jonka ratkaisuun tarvitaan dataa tai pohditaan, miten yrityksen olemassa olevasta datasta voitaisiin tuottaa lisäarvoa. Ensimmäisen turmioksi voi helposti koitua se, ettei soveltuvaa dataa ole. Jälkimmäisen kompastuskiveksi puolestaan innovatiivisuuden puute. Joskus ideoinnin tulppana voi olla tietämättömyys – ei tunnisteta mitä data on tai mitä tietoa on saatavilla. Data saatetaan mieltää pelkästään numeerisiksi mittausarvoiksi, vaikka se voi olla paljon muutakin. Yhtä lailla sitä ovat tekstit, twiitit, ääni, valokuvat, tutkakuvat ja monet muut tallennetut tiedot. Tieto voi olla valmiiksi digitaalisessa muodossa tai se voi löytyä papereista Ö-mapissa, jolloin liikkeelle on lähdettävä sen digitalisoinnista. Soveltuvan datan kokoamisessa ei myöskään tarvitse rajoittua yrityksen omiin varastoihin, vaan tietoa voidaan rikastaa esimerkiksi avoimista lähteistä saatavalla tiedolla. 

Mitä sitten tarkoitetaan soveltuvalla datalla, johon ensimmäisessä tapauksessa viitattiin? Tämä on projektikohtaista, mutta useimmiten kiteytyy joko laatuun, määrään tai sen sisältämiin muuttujiin. Hyvän datan ominaisuuksia ovat muun muassa: 

  • puuttuvien arvojen vähäisyys,  
  • suuri määrä,  
  • oikeellisuus ja  
  • kuvaavuus.  

Muutamien puuttuvien arvojen kanssa voidaan elää, nämä voidaan täyttää esimerkiksi edellisen ja seuraavan arvon keskiarvolla tai vastaavan ajankohdan tiedoilla. Nämä eivät todennäköisesti kuitenkaan vastaa oikeita arvoja. Jos puuttuvia arvoja on paljon, niiden korvaaminen on aina hankalampaa ja vastaa todellisuutta yhä huonommin. Virheelliset tiedot ovat puuttuvista arvoista taas astetta hankalampia. Näitä kun voi olla vaikea tunnistaa. Välttämättä aihealueen asiantuntijakaan ei voi jälkeenpäin tietää, onko kyseessä virheellinen arvo vai ei. 

Datan määrää tulee puolestaan ajatella useammastakin näkökulmasta. Ajatellaan esimerkkinä bussiliikenteen matkustajamääriä. Jos dataa on muutaman kuukauden ajalta, se ei kerro asiakkaiden määrää kaikkina vuodenaikoina. Toisaalta vuodenkaan data ei riitä kuvaamaan matkustajamääriä, jos tieto on kerätty poikkeavissa olosuhteissa, kuten esimerkiksi koronavuosina. Samalta aikaväliltä on myös mahdollista kerätä liian vähän tai riittävästi dataa. Jos lukemia on tallennettu kuukausittain, voidaan vertailla talvi- ja kesäkuukausia keskenään, mutta näistä ei saada selville eroja arki- ja pyhäpäivien tai aamuruuhkan ja yöajan välillä. Suuresta määrästä dataa voidaan tiivistää informaatiota, mutta toiseen suuntaan on hankala mennä. 

Viimeisimpänä päästään kysymykseen siitä, mistä muuttujista dataa pitäisi olla? Ennusteita tehtäessä on usein helppo nimetä ainakin muutamia ilmiöön vaikuttavia tekijöitä. Tarkemmin tarkasteltuna ilmiöt ovat kuitenkin kuviteltua monimutkaisempia. Joskus tarpeellisten muuttujien tunnistaminen on projektien vaikeimpia kysymyksiä, johon vastaamisessa tarvitaan liiketoiminnan ja ilmiön tuntemusta. Oleellisten tietojen tunnistaminen voi vaatia useamman työvaiheen, joita avaamme seuraavassa blogitekstissä. 

Kirjoittaja: Tarja Ajo, projektityöntekijä, Jyväskylän ammattikorkeakoulu, IT-instituutti

Tämä blogikirjoitus on osa Tieto tuottamaan -projektin syksyllä 2022 esitettävää Syty datasta -webinaarisarjaa. Webinaarisarjasta voit lukea lisää tästä.

Tieto tuottamaan -projektia rahoittaa Euroopan Unionin aluekehitysrahasto. 

Data-analytiikkaa voit opiskella Jamkissa mm. laajassa opintokokonaisuudessa avoimessa ammattikorkeakoulussa. Lue lisää koulutuksesta!