IBM & Vasaloppet

Hundra år av Vasaloppsdata: Vad skrevs om loppet 1922?

Share this post:

På ett möte tillsammans med Vasaloppets ledningsgrupp tog en idé form i huvudet på mig: Skulle man kunna använda AI för att vaska fram intressant kuriosa om hundraåringen Vasaloppet? Ur gamla källor, som varit glömda och gömda under många år? Kan det finnas fakta från dessa år som inte ens de mest pålästa känner till och som dagens AI skulle kunna lyfta fram och presentera på ett spännande sätt?

DN 3 mars 1922

Klipp ur Dagens Nyheter, 3 mars 1922

Redo att dyka ner i hundraåriga datakällor

Den första aktiviteten i Hundra år av Vasaloppsdata var att skaffa en översikt på vilka datakällor som fanns. En projektgrupp formades snabbt med två kollegor till mig. Tillsammans med Vasaloppet listade vi ganska snabbt ett tiotal källor, både interna och externa. Till de externa hörde SVT, Wikipedia, Väderdata, Vallningbolag, Riksarkivet, Kungliga Biblioteket (KB), Vasaloppets tidslinje och Dagens Nyheters Arkiv.

Vi började titta på att få (digitala) utdrag ur Riksarkivet och KB, men slöt oss ganska snabbt till att vårt syfte fanns inte så mycket att gå på. Som dessutom var lättillgängligt och kunde testas på. Det digitala arkivet på DN visade sig öppna för listning och sökning i gamla artiklar i tidningen från starten 1922 och framåt.

Inläsningen av data skapade trubbel

Vi gick vidare med några exempel på DN-artiklar från 1920-talet, men ganska snart körde vi fast i inläsningen av filerna (OCR från jpeg format). Det visade sig att upplösningen och kvaliteten på texten skapade utmaningar i förmågan att ta fram intressant data med en sökning i IBM-tjänsten Watson Discovery. Att just den tjänsten valdes som första alternativ kom av anledningen att vi jobbat med den tidigare och att den låg oss närmast som arbetande med AI från IBM. Vi testade med flera olika sätt att ta ut bilder och texter från arkivet samt även använda metadata för att söka. Men inget sätt verkade fungera för att få möjligheten att få ut intressanta insikter från texterna med tanke på att vi på förhand inte kunde veta vilka frågor som skulle ställas. Det viktiga var att ursprungstexten var digitaliserad i så komplett form som möjligt.

Här kändes det hopplöst och vi trodde vi kört fast!

Genom en intern rundfrågning och sökningar fick vi tips om att förbättra själva inläsningen i ett förbearbetsningssteg. Här skulle alltså ett open source verktyg som heter tesseract-ocr ta in den grumliga bilden och leverera texten, som sedan kunde matas till söktjänsten. Första testet med tesseract visade sig lyckat och artikeln ovan från DN kom ut som nedan text:

“STOR ENTUSIASM FÖR”VASALOPPET” I HELA DALARNA.Ett svenskt Holmenkollen, tro Morakamraterna.Inte Mora—Sälen, utan Salen—Mora, ett nytt förslag.Sportnyheterna meddelado på sin tid ett förslag av redaktör A. Pers i Vestmanlands Liäns Tidning att oett nationellt skidlopp skulle anordnas don 8 mil långa och historiska sträc-kan Mora—Sälen, som Morakarlarna Engolbrokt från Morkarlby och Lars i Kettilbo för drygt 400 år sedan ski-dade för att hämta tillbaka Gustaf Eriksson Vasa; ett för visso betydel-enfullt skidlopp.Förslaget har i hela Dalarne och mest på ort och ställo, d. v. s i Mora, mottagits medöversvallandeentusiasm, och Morakamraterna, som skulle ligga pirmast till hands -att arrangera, ha redan dryftat saken ingående. Från Stockholm har förslag kommit till Höreningen att ta initistiv till en dylik tävling, som i detta sammanhang kallades ”Vasalöppet”, ett namn som torde kunna ’göra anspråk på att stå tig.Styrelsen för Morakamratorna Har gjort ett uttalande i saken, och föl-jande utdrag kan ha sitt givna in-tresse.

Den förbearbetade texten görs sökbar i Watson Discovery

Den här texten laddades in i Watson Discovery och gjordes därmed sökbar på fler sätt än bara genom vanlig nyckelordssökning. En spännande funktion är läsförståelsen där man kan ställa frågor till Watson Discovery på texten i former som Vem, Hur, Vilka, När, Vad och svaret hittas genom att söktjänsten förstår innehållet och kan svara på frågan. Här är språkprocesseringen och svenskastödet avgörande för lyckat resultat. Som i detta exempel där frågan ställs vem som arrangerade loppet. Det första loppet sattes upp av Morakamraterna kan man utläsa av DN artikeln och Watson Discovery presenterar mycket riktigt det svaret.

 

Vilka skatter finns i dina ostrukturerade datakällor?

Hur det kan vara relevant för dig och din organisation, sitter du och tänker? Ja, har ni också gamla, ostrukturerade datakällor från 20, 50 eller 100 år tillbaka i tiden, som ni vill använda för att skapa affärsvärde idag? Det kan antingen vara som ett stöd för interna expertanvändare som förbättra sitt eget arbete med träffsäkra insikter från källorna eller som en tjänst till era kunder/medborgare att kunna dra nytta av (fram till nu) gömda skatter i form av insikter. Med hjälp av tilltagande digitalisering, kraftfulla algoritmer och datorstöd är det nu möjligt!

Om du är nyfiken på andra projekt och samarbeten vi gjort med Vasaloppet under åren, kan du läsa om några av dem i tidigare inlägg här på THINK-bloggen. Mer läsning i ämnet att hitta svar i gömda källor finns i denna utmärkta artikel på Medium.com.

/Johan

Data&AI Technical Specialist, IBM Technology Sales i Sverige

More IBM & Vasaloppet stories

Fem år med THINK-bloggen – nu skickas pennan vidare

Sedan jag tog över som chefredaktör för den svenska THINK-bloggen på hösten år 2016, har jag och framförallt mina kollegor tillika THINK-bloggare skrivit och postat drygt 230 blogginlägg. Ämnena har varierat stort, med den gemensamma nämnaren att de alltid handlat om tankar, metoder och lösningar för att göra världen lite bättre. Viljan att beskriva svåra […]

Läs mer

Vi på IBM i Sverige: möt Fredrik Alpen

Det här är Fredrik Alpen, en kreativ IBM:are i Sverige med ett brinnande intresse för att förbättra kundupplevelser och hållbarhet. Fredriks konsultkarriär startade efter att han tagit en MBA i Nederländerna, då han blev management-konsult på PwC Consulting, som år 2002 slogs samman med IBM. Idag har Fredrik två roller på IBM Global Business services: […]

Läs mer

Vi på IBM i Sverige: säg hej till Isabella Holmberg

Säg hej till Isabella Holmberg, Storage partner på IBM i Kista! Efter att ha tagit examen vid Luleå  Tekniska Universitet, och efter en ögon-öppnande studieresa med besök på flera tech-bolag i Asien, visste Isabella att hon ville arbeta på ett företag som ligger i framkant vad gäller teknisk innovation. Denna ledstjärna förde henne till IBM, […]

Läs mer