IBM & Vasaloppet

Hundra år av Vasaloppsdata, del två

Share this post:

Stavningsrättning av OCR-texten

På min YouTube-kanal finns en kort video där jag tränar OCH tänker på det här projektet, samtidigt:

Efter att jag tagit mig till etappsegern “Hundra år av Vasaloppsdata: Vad skrevs om loppet 1922?” i jakten på insikter från tidningsartiklar från när Vasaloppet var ungt, ville jag se om kvaliteten på texten som AI läste kunde bli bättre.

DN 3 mars 1922

Klipp ur Dagens Nyheter, 3 mars 1922

För att repetera stegen så utgick jag från denna inscannade originaltext från 3 mars 1922 i Dagens Nyheter. Med ett verktyg som kan läsa OCR fick jag ut innehållet i klartext, som såg ut så här (delar av hela artikeln):

STOR ENTUSIASM
FÖR”VASALOPPET”
I HELA DALARNA.

Ett svenskt Holmenkollen, tro
Morakamraterna.

Inte Mora—Sälen, utan Salen—
Mora, ett nytt förslag.

Sportnyheterna meddelado på sin
tid ett förslag av redaktör A. Pers i
Vestmanlands Liäns Tidning att oett
nationellt skidlopp skulle anordnas
don 8 mil långa och historiska sträc-
kan Mora—Sälen, som Morakarlarna
Engolbrokt från Morkarlby och Lars
i Kettilbo för drygt 400 år sedan ski-
dade för att hämta tillbaka Gustaf
Eriksson Vasa; ett för visso betydel-
enfullt skidlopp.

 

 

Om jag zoomar in på ett avsnitt i ursprungsartikeln kan vi se ett par utmaningar med texten:

Detalj från artikel i Dagens Nyheter 3 mars 1922

 

Från bild (jpeg format) till text med ocr-vertyget blir det:

 

mottagits medöversvallandeentusiasm,

och Morakamraterna, som skulle ligga

pirmast till hands -att arrangera, ha

redan dryftat saken ingående. Från

 

Via rättstavningsverktyget så blir några “stavfel” rätt men just här är det fortsatt problem:

  • medöversvallandeentusiasm {”type”:”spelling”,”offset”:614,”length”:25,”message”:”Stavfel”,”suggestions”:[]},
  • pirmast {”type”:”spelling”,”offset”:678,”length”:7,”message”:”Stavfel”,”suggestions”:[”Irmas”,”pirat”,”präst”]},

 

Raden som fått för små mellanslag för att passa in i kolumnen i tidningen, tolkas som ett enda ord av ocr. Vi ser att det ska vara “med översvallande entusiasm”, men varken ocr eller rättstavningskontrollen hittar det.

Nästa är ordet “pirmast” som beror på litet suddigt “n” i originalet. Vi ser sammanhanget “ligga °°rmast” är förstår att “närmast” är bästa alternativet. Rättstavningen går helt fel här och föreslår Irmas, pirat och präst, eftersom den inte tar hänsyn till “ligger”.

Slutsats av mitt test med att förbättra texten med rättstavningsprogram är att det inte ger så mycket mervärde. Dels för att svenskan i texten är något äldre (1920-tal), dels för att rättstavningen måste ta hänsyn till sammanhanget för att lyckas.

PS. Apropå rättstavning och träning så är stavgångspass i backe en mycket bra träningsform året om. Kolla här på min YouTube-kanal när jag och några kompisar tränar!

Data&AI Technical Specialist, IBM Technology Sales i Sverige

More IBM & Vasaloppet stories

Johan tränar: Tomheten infann sig – vad göra?

Mot slutet av den första sjumånadersperioden med träningsmål, där alla målen var uppnådda, började en tomhet infinna sig. Vad nu då? Är jag klar, vad ska nästa steg vara? Hur förbättrar jag mig efter den första tidens ganska branta förbättringskurva och jag känner att jag planat ut? Mer poddar och artiklar fick bli källan till […]

Läs mer

Johan tränar: Börja mäta!

Hemmavasan blev ändå startpunkten för mig att börja mäta mer i träningen. Dagen efter mitt lopp laddade jag ner en gratis träningsapp, som hade funktioner för att följa pass både med tid och sträcka m m. Mitt första delmål för att slå tiden som jag såg att en kollega till mig gått i mål på […]

Läs mer

Johan tränar: Sätt mål för nästa etapp!

Jag fick ett knippe frågor från ett par IBM-kollegor, som anat att min hälsa förbättrats under pandemin och under det att jag varit engagerad i vårt sponsorskap av Vasaloppet. Frågor som: hur sätter jag mål för min träning? Hur hittar jag motivation och inspiration? Vilken koppling har min träning till jobbet? Vilken koppling har min […]

Läs mer