AI & Machine learning

Itseoppiva tiedon luettelointi – jatkokertomus datakatalogeista

Share this post:

Tämä on jatkokertomus datakatalogien kehitysnäkymistä. Kuinka niiden avulla voidaan tehostaa ja automatisoida tiedon hallinnointia ja analysointia tekoälyn kehittämistä tukien? Mitkä ovat kehitystyössä huomioonotettavat avainasiat? Lue aiemmin julkaistu artikkeli täältä

Johdanto

Ensimmäisessä datakatalogi-blogissani kirjoitin kevennykseksi tulevaisuuden yrityksestä vuonna 2044. Sen liiketoiminnan ohjaus oli ulkoistettu tekoälylle, joka kysyi johtoryhmän neuvoa vain vaikeissa päätöksissä. Autonomisesti johdettuihin yrityksiin on pitkä matka, mutta mikä on vaadittava pohjatyö? Miten nykyiset datakatalogit auttavat kehittämään yritysten digitaalista transformaatiota ja tekoälyratkaisuja?

Tekoälyn kilpavarustelu

Autot, lentokoneet ja laivat kulkevat pian itsestään. Vaikeinta on kehittää täysi automaatio, joka selviää myös poikkeuksellisissa liikennetilanteissa ja olosuhteissa. Samoin on liiketoiminnassa. Erotuksena kulkuneuvojen kapeaan tekoälyyn liike-elämässä tarvittaisiin monesti yleistä, laaja-alaista älyä, sillä yritysten päätöksenteko on olennaisesti haastavampaa kuin auton ohjaus. Vaikeutta lisää markkinoiden jatkuva muutos.

Tekoälyn hyödyntäminen asettaa uusia kehityshaasteita yrityksille. Aidosti globaaleilla markkinoilla palkkio ensimmäiseksi ehtineelle on valtava. Avainhenkilöiden osaamiselle asetetaan yhä kovempia vaatimuksia. Ennen riitti, että hallitsi oman ydinalueensa suvereenisti. Nyt täytyy hallita myös tekoälyn kehitystä tukevia moderneja työkaluja ja datan käytön periaatteita.

Uusia työkaluja ovat muun muassa kognitiivinen tietojenkäsittely, koneoppiminen ja itseoppivat neuroverkot. Ne näyttävät suuntaa miten tietotekniikan avulla kehitetään yhä monipuolisempia kapeaa tekoälyää hyödyntäviä ratkaisuja yleisen tekoälyn läpimurtoa odotellessa. Uusille ratkaisuille on myös yhteistä pohjaton ruokahalu datan suhteen. Mikä tahansa tieto ei kelpaa. Sen tulee olla korkealaatuista ja helposti käyttäjien saatavilla. Datan valmistelua ja käyttöä voi lähestyä teknisestä tai intuitiivisesta näkökulmasta.

Tekninen lähestyminen korostaa luokittelua, hallinnointia, yhteisiä käsitteitä ja laadunhallintaa. Intuitiivisuus tarkoittaa tässä yhteydessä, että käyttäjien on helppo hyödyntää erityisesti uutta dataa.

Insinööri mallintaa yrityksen

Insinööri näkee markkinat sääntöihin perustuvana ympäristönä, jossa liiketoiminta voidaan mallintaa tarkasti. Myös kauppatieteilijöiden opetuksen tukena käytettävät yrityspelit ovat osoittaneet, että liiketoimintaa voidaan tarkastella sääntöohjattuna maailmana. Vertailussa shakkipeliin liiketoiminnan ohjaus (pelaaminen) täydennettynä optimoinnilla (paras siirto) vastaa tuotantoresurssien käytön suunnittelua annetuissa rajoissa. Tällä periaatteella shakinpelaaja – kone tai ihminen – laskee erilaisia vaihtoehtoja ja niiden seurauksia nykytilanteesta eteenpäin.

Sääntöpohjaisessa maailmassa paras mallintaja ja organisoija voittaa. Tämä edellyttää ymmärrystä paitsi yrityksen prosesseista ja kilpailueduista myös asiakkaiden ja kilpailijoiden käyttäytymisestä.

Tiedon hallinnointi on kaiken lähtökohta. Ideaalitilanteessa datan käsittelyn tietomallit heijastavat täydellisesti yrityksen ja sen toimialan tarpeita. Liiketoiminnan sanasto määrittelee yksiselitteisesti avaintermit. Sen avulla datan tekninen hallinta kytketään liiketoiminnan käsitteisiin. Kun käyttäjä hakee tietoa termillä yksityisasiakas, hän näkee paitsi liiketoiminnallisen määrityksen myös tekniset tiedot sen takana. Näitä ovat mistä termin jalostettu versio löytyy (esimerkiksi tietovarasto), sen koostamiseen käytetyt alkuperäiset tietolähteet, sekä sen, miten dataa on muokattu matkalla. Kerran järjestetty tieto on myös helppo pitää kunnossa kunhan laadunhallinnan prosessit on suunniteltu ja otettu käyttöön.

Mallinnettu ja standardoitu maailma on mainio pelikenttä kapeaa tekoälyä edustaville ratkaisuille. Tekoälylle voidaan antaa ohjeet opetella ja optimoida esimerkiksi suoramarkkinointi tai kuljetuslogistiikka, kun yrityksen liiketoiminnan säännöt ja käytettävissä oleva data tunnetaan.

 

Tekoäly hyödyntää yrityksen organisoitua dataa

 

Pelimäisen viitekehyksen käyttö keskittyy tarkasti rajattuihin toimintoihin. Uusien ideoiden ja datan hyödyntäminen vaatii ihmisen osallistumista kehitystyöhön.

Taiteilija luottaa intuitioon

Taiteilijaluonne ei usko tekniikan voimaan monimutkaisen ympäristön hahmottamisessa. Hän haluaa tarkastella markkinoita ilman sääntelyä ja etukäteisrajauksia. Tämä tarkoittaisi shakissa, että  enemmän investoimalla voisi ostaa kilpailijoita pois (yritysostot), lisätä shakkinappuloiden määrää (tuotantopanokset), saada nappulat liikkumaan kilpailijoita paremmin (kehitys ja innovointi), tehdä protesteja vastustajien pelitavasta (patenttihaasteet), palkata parempia pelaajia omaan joukkueeseen jne. Kilpailukenttään voisi tulla myös uusia yrittäjiä, jotka haastavat perinteisen tavan pelata shakkia kuten Uber ja Airbnb ovat tehneet omilla markkinoillaan (kuljetus ja majoitus).

Taiteilijan maailmassa käytettävissä oleva data elää, uusia tietolähteitä löytyy jatkuvasti ja vain taivas on tekoälyn hyödyntämisen kattona. Tällöin myös datakatalogityökalujen täytyy mukautua jatkuvaan muutokseen.

Intuitiivinen lähestyminen ilman datan organisointia johtaa yksipuoliseen ratkaisuun. Yrityksen omat tietovarannot ovat pahimmillaan tiedon etsijälle kuin tietojärjestelmäspagetti, josta insinöörikään ei ota selvää (kuva alla).

 

Klassinen tietojärjestelmäspagetti

Mahdollisuus datan luovaan käyttöön on erittäin haastavaa kapean tekoälyn näkökulmasta. Se voi kuitenkin koneoppimisen avulla tutkia miten käyttäjät hakevat ja hyödyntävät dataa, ja antaa sen perusteella suosituksia. Tämän lisäksi käyttäjiltä voidaan kysellä suosituksia tietolähteiden toimivuudesta.

Monipuolinen datakatalogi on osa kokonaisuutta

Ihanteellinen ratkaisu yhdistää optimoidun sääntömaailman taiteilijamaiseen luovuuteen. Uusia tietolähteitä voidaan etsiä ja hyödyntää kehityksen tueksi ilman rajoituksia. Voittava kehitystiimi koostuu ihmisestä ja oppivasta tekoälystä. Avoimen lähdekoodin periaate tuo lisäksi globaalin yhteisön kehitysvoiman yrityksessä tehtävän työn tueksi.

IBM:n kokonaisratkaisussa insinöörin ja taiteilijan näkökulmat yhdistyvät avoimen koodin yhteisöjä hyödyntäen.

Datakatalogin suunnittelussa on hyvä tarkastella seuraavia asioita:

  1. Helppo ja monipuolinen hakutyökalu, joka osaa hakea sekä avainsanojen että sisällön perusteella.
  2. Yrityksen hierarkkista liiketoimintaa kuvaavan sanaston hallinta, johon on integroitu teknisen metadatan tietohakemisto. Automaattinen metadatan luonti perustuen esimerkiksi koneoppimiseen. Tiedon läpinäkyvyys lisää käyttäjien luottamusta tiedon oikeellisuuten ja tukee GDPR-auditointiprosessia.
  3. Datan laadunhallinta kattaen tietolähteiden analysoinnin, datan puhdistamisen, monitoroinnin ja elinkaaren hallinnan sekä tiedon luokittelun ja validoinnin käyttäjän toimesta.
  4. Erilaisten tietolähteiden käsittely. Perinteisen relaatiomallisen ja muun rakenteellisen datan lisäksi tarvitaan liittymät uusiin tietolähteisiin (some, IoT, dokumentit jne.). Kuvantunnistus osana tietovarantojen hyödyntämistä ja luokittelua.
  5. Tiedon integrointiratkaisut: ETL (Extract, Transform ja Load) ja datan virtualisointi.
  6. Alustariippumattomuus. Ratkaisun tulee toimia sekä yritysten omissa että yleisissä pilviympäristöissä.
  7. Näytetään käyttäjälle automaattisesti vain hänelle sallittu tieto. Työprosesseihin ja -projekteihin integroidut käyttöoikeudet.
  8. Tuki avoimen metadatan rajapinnoille. Mahdollisuus siirtää datakatalogilla valmisteltuja otoksia avoimen lähdekoodin analytiikkatyökaluihin.
  9. Käytön opastus. Järjestelmä tutkii automaattisesti, miten käyttäjä hakee ja hyödyntää dataa ja tekee myöhemmin suosituksia sen perusteella (Netflix). Ratkaisu pyytää käyttäjältä suosituksia (käyttäjien antamat arvostelut) käytetyn datan hyödyllisyydestä.
  10. Ydintiedon hallinta (MDM) esimerkiksi referenssidatan avulla.

Lopuksi

Datakatalogit helpottavat olennaisesti tekoälyn kehitystä. Parhaimmillaan ne opastavat käyttäjän oikean ja vain hänelle sallitun tiedon äärelle riippumatta löytyykö data yrityksen omista järjestelmistä vai ulkoisista tietolähteistä.

Lisätietoa:

IBM Watson Knowledge Catalog:
https://www.ibm.com/cloud/watson-knowledge-catalog
https://ibm-dte.mybluemix.net/watson-knowledge-catalog

Click here to rate this article

Rate this article :

IBM Analytics Sales

More AI & Machine learning stories
By Rami Ahola on Thu, August 8th 2019

5G teollisuudessa – Miten ja miksi?

Viidennen sukupolven mobiiliverkkojen rakentaminen on jo alkanut kokeiluilla eri puolilla maailmaa, ja todellista kasvua odotetaan kuluvan vuoden lopulta alkaen. Operaattorit ja verkkolaitevalmistajat ovat tehneet asiaa tunnetuksi jo pitkään, ja ihmiset tiedemiehestä taksikuskiin puhuvatkin jo sujuvasti ”5G”:stä. Mutta mistä oikeastaan on kyse, kuka tarvitsee 5G:tä ja mitä juuri minun yritykseni pitäisi tehdä? Mitä 5G tarkoittaa? Edelliseen […]

Continue reading

By Vieraskynä on Mon, June 17th 2019

Etsitään luotettavaa verkkokauppaa tositarkoituksella

Olen kolmekymppinen mies, joka etsii luotettavaa, inspiroivaa ja lisäarvoa elämään tuovaa verkkokauppaa tositarkoituksella. Sinussa luotettavuus on kaikki kaikessa. Olen jo nähnyt monia ja täytyy myöntää, että ilman pettymyksiä en ole selvinnyt. Mahdollisesti tästä johtuen olenkin oppinut, että pelkkä pinta ylistävineen korulauseineen ei vielä tarjoa tuota sisältä kumpuavaa aitoa välittämistä, joka on integroitu kaikkeen tekemiseen. Toivon, […]

Continue reading

By Vieraskynä on Tue, June 11th 2019

Energiayhtiö, laita data töihin!

Ennakoiva analytiikka auttaa ymmärtämään asiakasta entistä paremmin myös energia-alalla. Niin laiterikko kuin poistuva asiakaskin on mahdollista tunnistaa datasta. Historiatietoja asiakkaiden energiankulutuksesta alkaa olla tallessa yhä kattavammin, kiitos muun muassa etäluettavien kulutusmittarien. Tämä IoT-data kannattaa ehdottomasti valjastaa liiketoiminnan käyttöön ja hyödyntää datassa piilevä potentiaali. Kulutusdataa seulovalla algoritmilla on mahdollista kasvattaa asiakasymmärrystä, mikä taas auttaa sekä asiakaspalvelun […]

Continue reading