Artikelsegmentering i projekt Digidaily

I slutet av augusti var vi några från KB som gick på kurs med våra kollegor på MKC  i artikelsegmentering. Vi försöker i projekt Digidaily hitta så rationella och ekonomiska metoder som möjligt för att kunna ha råd med en större framtida tidningsdigitalisering. Detta gäller även  segmentering av artiklar. Den mjukvara som idag används för OCR-tolkning hos MKC tillåter just detta med automatiserad segmentering.

Så här går det till:
En operatör skrollar igenom ett urval ur låt oss säga Aftonbladet från 1909 till 1929. Ser layouten homogen ut kan man göra en sk. regel för dessa år. Denna regel talar om att t.ex. en rubrik har fontstorleken  20, en annan rubrik är 25 punkter och kursiv, en tredje är 72 punkter och fet o.s.v.  Det finns otroligt många parametrar att ställa in. Sedan kör man en test på några tidningar från de åren man undersökt. Men mycket skicklighet och lite tur får man ett gott segmenteringsresultat. När tidningen under tid ändrar layout eller utseende måste en ny regel göras.

Ju renare och enklare en tidningssida är desto bättre resultat. De äldre tidningarna är problematiska då kolumnerna ligger väldigt tätt och knappt ingen luft  finns mellan raderna. Även moderna tidningar med väldigt stora rubriker och artiklar/bilder som löper över uppslag är svåra att få korrekta. Men vi hoppas på att mertalet artiklar kommer bli korrekt segmenterade,

En manuell segmentering skulle ta väldigt mycket tid och pengar i anspråk, man räknar med 2-4 minuter/sida. I vårt projekt kommer vi att göra 3 miljoner sidor. Multiplicerar man med 2 min skulle det bli 6 milj minuter = 208 arbetsdagar, vilket skulle innebära runt ett helt års arbete.

I många  länder med tidningsdigitaliseringsprojekt har man valt en annan metod, att lägga ut segmentering av artiklar och rättning av rubriker i låglöneländer som Rumänien, Indien eller Kambodja.

Segmentering av ett gammalt Aftonbladet. De olikfärgade segmenten visar på se olika artiklarna i tidningen.

Det här inlägget postades i Okategoriserade och har märkts med etiketterna , . Bokmärk permalänken.

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *