IBM & Vasaloppet

Hundra år av Vasaloppsdata: Vad skrevs om loppet 1922?

Share this post:

På ett möte tillsammans med Vasaloppets ledningsgrupp tog en idé form i huvudet på mig: Skulle man kunna använda AI för att vaska fram intressant kuriosa om hundraåringen Vasaloppet? Ur gamla källor, som varit glömda och gömda under många år? Kan det finnas fakta från dessa år som inte ens de mest pålästa känner till och som dagens AI skulle kunna lyfta fram och presentera på ett spännande sätt?

DN 3 mars 1922

Klipp ur Dagens Nyheter, 3 mars 1922

Redo att dyka ner i hundraåriga datakällor

Den första aktiviteten i Hundra år av Vasaloppsdata var att skaffa en översikt på vilka datakällor som fanns. En projektgrupp formades snabbt med två kollegor till mig. Tillsammans med Vasaloppet listade vi ganska snabbt ett tiotal källor, både interna och externa. Till de externa hörde SVT, Wikipedia, Väderdata, Vallningbolag, Riksarkivet, Kungliga Biblioteket (KB), Vasaloppets tidslinje och Dagens Nyheters Arkiv.

Vi började titta på att få (digitala) utdrag ur Riksarkivet och KB, men slöt oss ganska snabbt till att vårt syfte fanns inte så mycket att gå på. Som dessutom var lättillgängligt och kunde testas på. Det digitala arkivet på DN visade sig öppna för listning och sökning i gamla artiklar i tidningen från starten 1922 och framåt.

Inläsningen av data skapade trubbel

Vi gick vidare med några exempel på DN-artiklar från 1920-talet, men ganska snart körde vi fast i inläsningen av filerna (OCR från jpeg format). Det visade sig att upplösningen och kvaliteten på texten skapade utmaningar i förmågan att ta fram intressant data med en sökning i IBM-tjänsten Watson Discovery. Att just den tjänsten valdes som första alternativ kom av anledningen att vi jobbat med den tidigare och att den låg oss närmast som arbetande med AI från IBM. Vi testade med flera olika sätt att ta ut bilder och texter från arkivet samt även använda metadata för att söka. Men inget sätt verkade fungera för att få möjligheten att få ut intressanta insikter från texterna med tanke på att vi på förhand inte kunde veta vilka frågor som skulle ställas. Det viktiga var att ursprungstexten var digitaliserad i så komplett form som möjligt.

Här kändes det hopplöst och vi trodde vi kört fast!

Genom en intern rundfrågning och sökningar fick vi tips om att förbättra själva inläsningen i ett förbearbetsningssteg. Här skulle alltså ett open source verktyg som heter tesseract-ocr ta in den grumliga bilden och leverera texten, som sedan kunde matas till söktjänsten. Första testet med tesseract visade sig lyckat och artikeln ovan från DN kom ut som nedan text:

“STOR ENTUSIASM FÖR”VASALOPPET” I HELA DALARNA.Ett svenskt Holmenkollen, tro Morakamraterna.Inte Mora—Sälen, utan Salen—Mora, ett nytt förslag.Sportnyheterna meddelado på sin tid ett förslag av redaktör A. Pers i Vestmanlands Liäns Tidning att oett nationellt skidlopp skulle anordnas don 8 mil långa och historiska sträc-kan Mora—Sälen, som Morakarlarna Engolbrokt från Morkarlby och Lars i Kettilbo för drygt 400 år sedan ski-dade för att hämta tillbaka Gustaf Eriksson Vasa; ett för visso betydel-enfullt skidlopp.Förslaget har i hela Dalarne och mest på ort och ställo, d. v. s i Mora, mottagits medöversvallandeentusiasm, och Morakamraterna, som skulle ligga pirmast till hands -att arrangera, ha redan dryftat saken ingående. Från Stockholm har förslag kommit till Höreningen att ta initistiv till en dylik tävling, som i detta sammanhang kallades ”Vasalöppet”, ett namn som torde kunna ’göra anspråk på att stå tig.Styrelsen för Morakamratorna Har gjort ett uttalande i saken, och föl-jande utdrag kan ha sitt givna in-tresse.

Den förbearbetade texten görs sökbar i Watson Discovery

Den här texten laddades in i Watson Discovery och gjordes därmed sökbar på fler sätt än bara genom vanlig nyckelordssökning. En spännande funktion är läsförståelsen där man kan ställa frågor till Watson Discovery på texten i former som Vem, Hur, Vilka, När, Vad och svaret hittas genom att söktjänsten förstår innehållet och kan svara på frågan. Här är språkprocesseringen och svenskastödet avgörande för lyckat resultat. Som i detta exempel där frågan ställs vem som arrangerade loppet. Det första loppet sattes upp av Morakamraterna kan man utläsa av DN artikeln och Watson Discovery presenterar mycket riktigt det svaret.

 

Vilka skatter finns i dina ostrukturerade datakällor?

Hur det kan vara relevant för dig och din organisation, sitter du och tänker? Ja, har ni också gamla, ostrukturerade datakällor från 20, 50 eller 100 år tillbaka i tiden, som ni vill använda för att skapa affärsvärde idag? Det kan antingen vara som ett stöd för interna expertanvändare som förbättra sitt eget arbete med träffsäkra insikter från källorna eller som en tjänst till era kunder/medborgare att kunna dra nytta av (fram till nu) gömda skatter i form av insikter. Med hjälp av tilltagande digitalisering, kraftfulla algoritmer och datorstöd är det nu möjligt!

Om du är nyfiken på andra projekt och samarbeten vi gjort med Vasaloppet under åren, kan du läsa om några av dem i tidigare inlägg här på THINK-bloggen. Mer läsning i ämnet att hitta svar i gömda källor finns i denna utmärkta artikel på Medium.com.

/Johan

Data&AI Technical Specialist, IBM Technology Sales i Sverige

More IBM & Vasaloppet stories

Johan tränar: Tomheten infann sig – vad göra?

Mot slutet av den första sjumånadersperioden med träningsmål, där alla målen var uppnådda, började en tomhet infinna sig. Vad nu då? Är jag klar, vad ska nästa steg vara? Hur förbättrar jag mig efter den första tidens ganska branta förbättringskurva och jag känner att jag planat ut? Mer poddar och artiklar fick bli källan till […]

Läs mer

Johan tränar: Börja mäta!

Hemmavasan blev ändå startpunkten för mig att börja mäta mer i träningen. Dagen efter mitt lopp laddade jag ner en gratis träningsapp, som hade funktioner för att följa pass både med tid och sträcka m m. Mitt första delmål för att slå tiden som jag såg att en kollega till mig gått i mål på […]

Läs mer

Johan tränar: Sätt mål för nästa etapp!

Jag fick ett knippe frågor från ett par IBM-kollegor, som anat att min hälsa förbättrats under pandemin och under det att jag varit engagerad i vårt sponsorskap av Vasaloppet. Frågor som: hur sätter jag mål för min träning? Hur hittar jag motivation och inspiration? Vilken koppling har min träning till jobbet? Vilken koppling har min […]

Läs mer