Neuroverkkokuvio ihmisen pään ympärillä

Laskentatehoa tekoälyn ja data-analytiikan kehittämiseen

JAMKin IT-Instituutissa on käynnissä data-analytiikkaan liittyviä hankkeita, joissa on investoitu ja kehitetty tietoturvallinen laskentapalvelin. Laskentapalvelin mahdollistaa suurten datamäärien käsittelyn ja paljon laskentatehoa vaativien data-analytiikan, koneoppiminen ja syväoppimisen tutkimuksen ja kehittämisen.

Laskentapalvelimen hankinta ja käyttöönotto

Syksyn 2018 aikana suoritettiin laitehankintojen kilpailutus ja laitetoimitukset saapuivat alkuvuonna 2019. Noin kuukauden intensiivisen asennustyön jälkeen laskentapalvelin saatiin testikäyttöön projektissa työskenteleville asiantuntijoille. Laskentapalvelin koostuu seuraavista laitteistoista:

  • Palvelin, jossa 4 CPUta ja muistia 786GB
  • 4 kpl Tesla V100 laskentakorttia

Asennetut ohjelmistot koostuvat projektin alkuvaiheessa tehdyn avoimen lähdekoodin ohjelmistojen selvityksen tuloksista. Asennettuina ovat seuraavat avoimen lähdekoodin ohjelmistot:

  • Python-ympäristö data-analytiikkaan

Pystytetystä laskentapalvelimesta on kirjoitettu tekninen julkaisu (JAMK High Performance Computing), joka kuvaa tarkemmin laskentapalvelimen arkkitehtuurin ja ohjelmistot.

Laskentapalvelimen käyttökohteet ja suorituskyky

Laskentapalvelimen mahdollistamaa laskentatehoa käyttää päivittäin projektissa mukana olevat noin 10 asiantuntijaa. Laskentaa vaativat työtehtävät liittyvät data-analytiikkaan, koneoppimiseen tai syväoppimiseen. Lisäksi laskentapalvelimelle on kehitetty drag-and-drop tyyppistä käyttöliittymää, jonka avulla selaimessa voidaan helposti toteuttaa haluttu neuroverkko.

Noin vuoden aikana ei ole havaittu suorituskykyongelmia, vaikka usea asiantuntija työskentelee samanaikaisesti laskentapalvelimella ja työtehtävät voivat sisältää erittäin laskentaintensiivisiä neuroverkkojen kouluttamiseen liittyviä työtehtäviä sekä suuria datamassoja. Esimerkiksi laskentapalvelimella on testattu WaveNet-neuroverkon opetus 5GB datasetillä, Autoencoder-neuroverkon opettamista Microsoftin Celeb-datasetillä (yli miljoona värillistä kuvaa ja koko preprosessoituna 37GB) ja CPU-laskenta testattu 500MT tiedostolla 64 säikeessä. Lisäksi samanaikaisesti 4 neuroverkon opetusta ja yksi Apache Spark-ajo yhtä aikaa ei aiheuta minkäänlaista viivettä. Tarkemmat suorituskykytestit tullaan tekemään kesän 2020 aikana.

Laskentapalvelimen testaaminen deepfaken avulla

Testasimme laskentapalvelimen suorituskykyä tekemällä deepfake-videon. Deepfaken avulla voidaan korvata automaattisesti toisen henkilön kasvot videoon tai väärentää jonkun puheääntä. Laskentapalvelimella tekemämme deepfake-neuroverkon kouluttamiseen meni noin 12 tuntia.

 

Lisätietoa hankkeesta

JAMKissa on käynnissä Euroopan aluekehitysrahaston (EAKR) rahoittamat ”Data-analytiikasta uutta osaamista ja liiketoimintaa”-hanke ja sen rinnakkaishanke ”Investoinnit tietoturvalliseen data-analytiikan kehittämisympäristöön”. Hankkeet saivat positiivisen rahoituspäätöksen toukokuussa 2018 ja hankkeet kestävät vuoden 2020 loppuun.

Hankkeet muodostavat kokonaisuuden, jonka osarahoittamiseen osallistuu energiasektorille tai siihen läheisesti liittyville toimialoille sijoittuvia yrityksiä. Hankkeessa mukana olevat yritykset ovat Alva, C2Smartlight, Fingrid ja Landis+Gyr.

Kirjoittaja:
– Mika Rantonen, lehtori, Jyväskylän ammattikorkeakoulu, IT-instituutti