Datan virtualisoinnista haastaja perinteisille tekniikoille

By Tue, April 20th 2021

Data virtualization

Datan virtualisoinnista haastaja perinteisille tekniikoille

Perinteisten ratkaisujen rinnalle tullut datan virtualisointi tähtää samaan lopputulokseen kuin tietoaltaat ja -varastot. Kumpi on parempi: itsepalvelua tukeva virtualisointi vai kattava tietovarasto? Onko virtualisointi hyödyllinen menetelmä myös sovellusten päivittämiseen palvelurajapinnan kautta?

Datan virtualisointi on tiedon käyttäjien itsepalvelu

Datan virtualisointi on uusi dynaaminen tapa etsiä ja hyödyntää dataa eri tietolähteistä. Virtualisoitu näkymä tarjoaa kehittäjälle dataa ilman, että sitä tarvitsee ensin siirtää tai kopioida. Virtualisoinnin yleisesti tunnettu käyttötapa on analytiikan kehittäminen, mutta sitä käytetään yhä enemmän myös datan tarjoamiseen sovellusten käyttöön. Virtualisointi avaa käyttäjille itsepalvelun yrityksen ja sen sidosryhmien tietolähteisiin nopeaa hyödyntämistä varten.

Virtualisointi tuo datan suoraan käyttäjien saataville

Virtualisointi tuo datan suoraan käyttäjien saataville 

Kilpaileeko datan virtualisointi tietovarastoinnin kanssa?

Tietovarastot täyttävät käyttäjien ennakoidut tarpeet hyvin, kun datalähteet ja -tyypit ovat vakiintuneet. Jatkuvat muutokset kuitenkin nostavat tietovarastoinnin kustannukset pilviin. Virtualisointi pienentää tarvetta liittää uusia lähteitä varastoihin. Samalla tarve datan siirtämiselle ja muokkaamiselle lähteiden ja tietovaraston välillä vähenee.  Tiedonsiirtotyö tehdään tyypillisimmin ETL-lataustyökalujen (Extract, Transform and Load) avulla. Kun analyytikot voivat virtualisoinnin ansiosta hakea datansa itse, vähenee riippuvuus lataustyökalujen vaatimista tietotekniikkaosaajista ja kehitystyö nopeutuu. Virtualisointi vähentää myös tietoliikenne- ja levykustannuksia. Turhan datan poistaminen laihduttaa tietovarastopalvelinta ja pienentää varakopioiden kokoa.

Datan virtualisoinnin käyttäjät näkevät virtualisointikerroksen tietokantana, johon he voivat tehdä kyselyjään erilaisilla raportointi-, analysointi- ja kehitystyökaluilla. Myös uusien tietolähteiden lisääminen on helppoa ilman syvällistä tietokantaosaamista. Hyvin suunniteltu virtualisointityökalu yhdistää erilaiset tietokantateknologiat mukaan lukien yleiset relaatiokannat, NoSQL:n, Hadoopin ja tavalliset tiedostomuodot (esim. CSV ja Excel) kooten ne yhdeksi SQL-näkymäksi. Se myös tunnistaa samanlaiset tietokantakaaviot ja esittää ne yhtenä kaaviona (schema folding). Esimerkiksi Sales-taulukko voi esiintyä 10 kertaa yhtä monen lähdejärjestelmän tietokannassa, mutta näkyy virtualisoidussa näkymässä yhtenä taulukkona.

Virtualisoinnin kehitystyötä ei kannata aloittaa toimivien tietovarastojen korvaamisesta. Varastojen ja altaiden datan yhdistävä näkymä on virtualisoinnin erinomainen käyttöesimerkki.

Virtualisoitu data palveluna sovellusten käyttöön

Analyyttisen käytön lisäksi virtualisointi auttaa kehitystyössä, kun data täytyy saada perinteisistä tietokantapohjaisista järjestelmistä mobiilikäyttäjien uusiin sovelluksiin.

Ratkaisuksi on kehitetty palvelurajapintoja, kuten suosittu REST API, jotka  tarjoavat nopean ja joustavan tavan syöttää dataa sovellusten tarpeisiin. APIen hallintaan on kehitetty myös omia API Gateway -ratkaisuja. Niissä ei kuitenkaan ole kehittyneitä työkaluja datan muokkaamiseen. Datan virtualisointi sisältää kaikki tarvittavat työkalut ulottuen datan teknisestä muunnoksesta (SQL – REST API) sen sisällön yhdistelyyn ja muuntamiseen sekä tietoturvan hallintaan.

Virtualisoinnin avulla saatavat hyödyt

  1. Datan virtualisoinnilla saavutetaan itsepalvelun edut, kuten työskentelyn nopeus ja iteratiivinen oppiminen innovatiivisuutta ruokkien.
  2. Dataa ei tarvitse kopioida lähteestä tietovarastoihin tai sovelluksiin, mikä pienentää teknisen alustan ja kehitystyön kustannuksia.
  3. Tietoturvariski pienenee. Virtualisoinnilla voidaan myös analysoida sensitiivistä dataa, vaikka sen siirtäminen lähteestä yrityksen tietovarastoihin tai sovelluksiin olisi kiellettyä.

Datan virtualisointi ja tietoturva

Yritysten monissa tietolähteissä on sensitiivistä dataa, jota ei voida viedä tietovarastoon tai sovelluksen käyttöön sellaisenaan. Tällöin virtualisointi on ratkaisu ongelmaan. Jos asiakkaiden henkilötietoa tarvitaan esimerkiksi sosiodemografisen analyysin tekemiseen, voidaan se laskea valmiiksi lähdetietokannassa ja tarjota tulos virtualisoinnin käyttäjälle. Tietoturvaluokituksen avulla voidaan myös määritellä, että sensitiivistä dataa voivat käyttää vain siihen oikeutetut. Muille data on joko kokonaan piilotettu, tai se näkyy satunnaistettuna merkkijonona.

Datakatalogi virtualisoinnin tukena

Yrityksissä on ydintietoa asiakkaista, tuotteista, markkinoista ja monista muista liiketoiminnan kannalta olennaisista asioista. Virtualisoinnin käyttäjän täytyy tietää mistä tarvittava data löytyy ja onko se luotettavaa.

Kirjastovertausta on usein käytetty kuvaamaan datakatalogin käyttöä. Kirjastoluettelo toimii kuin datakatalogi. Sen avulla käyttäjä löytää haluamansa teoksen monenlaisia hakukriteerejä käyttäen.

Kehittynyt virtualisointityökalu voi hyödyntää liiketoimintaa kuvaavaa sanastoa integroidun datakatalogiratkaisun avulla. Sen avulla käyttäjä näkee mistä tietokannasta ja sen osasta (taulu ja sarake) asiakkaaseen liittyvä tieto löytyy. Jos kirjastojärjestelmässä tekninen metadata kirjan sijainnista puuttuisi, joutuisi käyttäjä kysymään apua kirjastonhoitajalta. Vastaavasti virtualisoinnin tukena käytetyn liiketoimintasanaston luokittelu auttaa käyttäjää löytämään haluamansa tiedon ilman tietohallinnon apua. Huolellisesti suunniteltu hallinnointi takaa käyttäjien itsenäisyyden ja tyytyväisyyden.

Datakatalogeihin kehitetään jatkuvasti tekoälyn tukemaa logiikkaa datan löytämisen helpottamiseksi. Esimerkiksi koneopetettujen mallien avulla voidaan metadatan kartoitus automatisoida. Samoin datan laadun hallintaan voidaan rakentaa itsenäisiä korjausmekanismeja. Niputettuna kapeat tekoälyratkaisut alkavat vähitellen muistuttaa ihmisen kaltaista yleistä tekoälyä. Tekoälyn ja käyttäjän keskustelu voisi kuulostaa seuraavalta.

  1. Mitä haluat tehdä? Tee suunnitelma markkinointikampanjasta, ennuste menekistä ja hankintaehdotus ostajillemme yrityksemme pihagrillien kevätmyyntiä varten.
  2. Onko tiedossa uusia tietolähteitä, vai tukeudunko aiemmin käytettyihin? Analysoi itse löytyykö uusia mahdollisuuksia.
  3. Löysin internetistä kuluttajatutkimuksen kiinaksi, joka näyttää olevan julkinen tutkimus. Se vaatii kirjautumisen Lisäksi havaitsin maksullisen palvelun kanadalaisesta markkinointitutkimuksia tekevästä yrityksestä, joka liittyy aiheeseen. Lähetä molemmat linkit niin kerron mitä niille tehdään.
  4. Otetaan molemmat tietolähteet mukaan. Tässä on käyttäjätunnukseni molempiin palveluihin. Data virtualisoitu, analysoitu ja toimenpide-ehdotukset muodostettu.
  5. Tässä on kolme kokonaiskatteen mukaan optimoitua ehdotusta sisältäen kuluttajien kohderyhmät, kampanjaohjelman, ennusteen menekistä tuotemerkeittäin sekä listan toimittajaehdokkaista tavoitenettohintoineen ostoneuvotteluja varten. Lähetä minulle ehdotukset vakiokuvausten kera.
  6. Lähetetty. Olisiko kiitos paikallaan näin kovan työn jälkeen? Ai niin, unohdin inhimillisyysalgoritmisi. Suurkiitos!

Edellä kuvattu dialogi saattaa kuulostaa otteelta tieteiskirjallisuudesta. Markkinoilla on kuitenkin jo ratkaisu, jossa on niputettu alla olevan kuvan mukaisesti kapeaa tekoälyä hyödyntäviä, käyttäjää avustavia työkaluja. Lähivuosina kehitys johtaa yhä kattavampiin tekoälyprosesseihin, mutta ihmistä tarvitaan vielä pitkään muun muassa uusien ideoiden etsimiseen ja yrityksen arvojen puntarointiin.

IBM Cloud Pak for Data -ratkaisun ominaisuuksia analytiikan kehittämiseen

IBM Cloud Pak for Data -ratkaisun ominaisuuksia analytiikan kehittämiseen

Linkki datan virtualisoinnin tekniseen toteutukseen

Virtualisoinnilla askeleen lähemmäksi tehtävien autonomista analysointia

Datan virtualisointi ei siis korvaa tietovarastojen kehitystyötä, eikä edes tietovarastoja. Se tuo kuitenkin uusia mahdollisuuksia käyttäjälle ja vähentää olennaisesti tietohallinnon tehtäviä ja kustannuksia. Se tuo myös askeleen lähemmäksi maailman, jossa tekoäly suorittaa autonomisesti analysointitehtävän alusta loppuun, datan lähteiltä liiketoiminnalle annettavaan suositukseen.

Analytiikan lisäksi datan virtualisointi helpottaa sovelluskehitystä. Se on kuin pikaliima, jonka avulla perinteistä tietokantamaailmaa edustavien ratkaisujen data kiinnitetään moderneihin mobiili- ja selainsovelluksiin.

IBM Data Virtualization– ja Watson Knowledge Catalog -ratkaisut ovat osa kattavaa IBM Cloud Pak for Data -tuotetta, jossa on datan virtualisoinnin ja datakatalogin lisäksi integroituja työkaluja analytiikan ja tekoälyn kehityksen tueksi. Kysy asiasta lisää allekirjoittaneelta.

Lisätietoa:

Datakatalogiblogeja (2), Hannu Löppönen, IBM

Q&A with Intel: What data virtualization means for the insight-driven enterprise

What is Data Virtualization (video)

 

Hannu Löppönen
Data & AI Sales, IBM Finland
hannu.lopponen@fi.ibm.com
+358-400 839 730

[autopilot_shortcode]