KB bygger visningsgränssnitt för digitaliserade dagstidningar

Under senvåren 2014 kommer KB att lansera ett nytt visningsgränssnitt för digitaliserade dagstidningar.

Läs mer om projektet på kb.se och följ arbetet på Librisbloggen

Jonas Ahlberg

 

Publicerat i Okategoriserade | 1 kommentar

Svenskamerikansk press

Hej!
Digidaily är inte det enda digitaliseringsprojekt som Tidningsenheten på KB arbetar med.
Nedan kan du läsa mer om Svenskamerikans press.
Trevlig midsommar!
//Heidi

 

Internationellt samarbetsprojekt

Kungliga biblioteket (KB) driver tillsammans med Minnesota Historical Society (MHS) i S:t Paul, Swenson Immigrant Research Center (SSIRC) i Rock Island och American Swedish Institute (ASI) i Minneapolis ett projekt där ett urval viktiga historiska svenskamerikanska tidningar ska digitaliseras och tillgängliggöras fritt på webben.

Själva digitaliseringen har gjorts av Riksarkivets Mediakonverteringscentrum i Fränsta (MKC) och är just avslutad. Cirka 300 000 sidor representerande 25 titlar har digitaliserats. Detta arbete har möjliggjorts med hjälp av finansiering från Riksbankens jubileumsfond.

Nästa steg i projektet är skapandet av ett tvåspråkigt visningsgränssnitt och för detta har projektet just beviljats ett anslag på fem miljoner kronor av Wallenbergstiftelserna. Gränssnittet kommer att byggas av MHS och den nya projekttiden är på två år.

Detta är givetvis mycket goda nyheter och vi på KB ser mycket fram emot det kommande visningsgränssnittet och det fortsatta samarbetet med våra amerikanska och svenska samarbetspartners.

Jonas Ahlberg
Enheten för dagstidningar

hemlandet

Publicerat i Okategoriserade | Etiketter , , | Lämna en kommentar

Digitalisering av kulturarvet

Per Wirtén skrev en intressant artikel i Expressen den 12 juni om digitaliseringen av det svenska kulturarvet. Läs- och tänkvärd!

http://www.expressen.se/kultur/in-i-dimman/

Hälsar
Heidi

Publicerat i Okategoriserade | Etiketter , , , | Lämna en kommentar

Uppdatering fördjupningsprojekt Digidaily

Nu är det full fart i fördjupningsprojekt Digidaily, eller Digidaily 2 som vi själva säger.

Vi har inledningsvis valt ut två  titlar för digitalisering, Dagens Industri och Expressen. Dessa är nu levererade till MKC där de prepareras och snart ska börja skannas. Valet av tidningar grundar sig i att båda är moderna, DI blev dagstidning 1983 (tidigare var den tidskrift) och Expressen startade 1944. DI är tryckt på färgat papper vilket är intressant ur OCR hänseende. Båda tidningarna är ”behändigt” stora till både format och  volym och efterfrågas ofta av våra användare.

Projektet har också börja testa ny bildfångstutrustning, en digitalkameralösning, och i höst ska andra skanners testas och utvärderas. Vad gäller förbättring av OCR-resultat jobbar vi med flera olika idéer.

Parallellt med Digidaily 2 har KB börjat bygga ett visningsgränssnitt som ska vara klart under hösten 2014.

 

Mer info följer.
Hälsar
Heidi

 

Publicerat i Okategoriserade | Etiketter , | Lämna en kommentar

Digidaily lever vidare

Den sista mars i år är projekt Digidaily slut och det har länge varit ovisst vad som händer framöver. KB har tyvärr inte har fått några medel för fortsatt  tidningsdigitalisering i stor skala och ett tag trodde vi att allt det vi har byggt upp i projektet skulle hamna i malpåse. Men så blir det tack och lov inte.

Vi fortsätter i ytterligare ett år som fördjupningsprojekt Digidaily!
Och återigen är det Tillväxtverket, Länsstyrelsen i Västernorrland, KB och Riksarkivet som skjuter in pengar.

I fördjupningsprojekt Digidaily ska vi arbeta med modernt material. Det skiljer sig produktionsmässigt från det äldre materialet; det är bland annat tunnare papper, mer färgtryck, kanske färgat tidningspapper etc. Vi ska också förfina och snabba på OCR-tolkningen. En del ny utrustning i form av digitalkameror och skanners ska också testas för att se om vi kan få ett ännu mer fördelaktigt slutpris men med bibehållen eller bättre bildkvalité.

Ännu är inga tidningstitlar klara och diskussioner pågår. Jag återkommer med mer information.

5597902400_2faf491209_b

Vi hörs!

Heidi

 

 

 

Publicerat i Okategoriserade | Etiketter | 2 kommentarer

Digidaily – i världsklass

Tiden går fort när man har roligt och den sista mars är projekt Digidaily slut.

Den 6-7 februari hade projekt Didgidaily sitt slutseminarium på MKC i Fränsta. Bland de inbjudna gästerna fanns två internationella digitaliseringsexperter, Simon Tanner (Director of Digital Consultancy, Dept of Digital Humanities at King´s Collage London, England)  och Edwin Klijn (The NIOD Institute for War, Holocaust and Genocide Studies och fd projektledare på Koninklijke Bibliotheek, Holland) samt kollegor från de norska och finska tidningsdigitaliseringsprojekten. Även riksbibliotekarien Gunilla Herdenberg, riksarkivarie Björn Jordell, medlemmar ur Digisam och Isobel Hadley-Kamptz från Digitaliseringskommissionen närvarade.
Det var två späckade och intressanta dagar där projektet presenterades, diskuterades, nöttes och blöttes. Dag två summerade Simon Tanner och Edwin Klijn sina tankar om Digidaily och vi blev helt överväldigande; Digidaily är i världsklass med sina fantastiska resultat, det var helt enkel det bästa de hade sett!

Digidaily slutseminarium- Edwin Kleijn

Edwin Klijn summerar sina tankar om Digidaily

Projektets förmåga att samarbeta och tillsammans arbeta för kvalitetsförbättringar, utvecklandet av produktionsstödet, den höga kvalitén på det digitaliserade materialet, metadatan, ”tänket” bakom lagringsplattformen på KB samt sist men inte minst det låga priset per digitaliserad sida var några av de faktorer som ligger grund till världens bästa tidningsdigitaliseringsprojekt!

Men vi fick även råd om hur vi kan fortsätta att förbättra processerna, t.ex. segmenteringen, för att slutanvändaren ska kunna använda materialet på ett maximalt sätt. Vi diskuterade även användargränssnitt och fick smakprov på hur The National Library of Wales nya söksida för tidningar kommer att se ut (kommer att lanseras i mitten på mars 2013, http://www.llgc.org.uk). Vi på KB fick många konkreta idéer att arbeta vidare med gällande slutanvändaren och visningsgränssnitt och så fick vi inspiration, massor med  inspiration!

Digidaily slutseminarium-Simon Tanner

Simon Tanner delar med sig av sina kunskaper

Så tack alla inblandade i projektet och tack alla som visar intresse och läser/kommenterar Digidailybloggen! Det känns fantastisk att vara världsbäst 🙂

Följ oss också gärna på Twitter
#digidaily

Mer information om dagsläget och framtiden kommer inom kort.
Vi hörs!
//Heidi

Publicerat i Okategoriserade | Etiketter , , , | 1 kommentar

Publicering, upphovsrätt och avtalslicenser

Först som sist: ett stort tack till alla som har kommenterat vårt tidigare inlägg om tillgängliggörande av digitaliserade dagstidningar. Era kommentarer får oss att tänka bättre, även om vi inte kan göra som ni föreslår.

Det enda viktiga för KB vid digitaliseringen är inte alls att undvika upphovsrättsintrång och vi är nog de som bäst inser nyttan med att tillgängliggöra det historiska tidningsmaterialet, som i original och stora mängder är extremt svårhanterligt på bibliotek. Vi har en drygt 30-årig historia av omformatering av svensk dagspress till mikrofilm och ser att denna metod har varit mycket framgångsrik,  men att den nu är döende. Den bör alltså ersättas med digitalisering och naturligtvis publicering av det digitaliserade materialet.

KB har hittills publicerat allt man har digitaliserat av dagstidningar, nämligen Posttidningarna 1645-1721 och resultatet av TELplus-projektet, cirka 30 titlar och 200 000 sidor 1750-1920. Detta material går alltså mycket längre fram än vad vi nu har för avsikt att göra i publicering, men vi har bestämt oss för en annan hållning sedan detta projekt. Vi tar inte ned den nuvarande tjänsten trots det sena slutåret, eftersom den sedan länge är mycket använd, inte innehåller så mycket material och inte har utsatts för klagomål.

Vi håller nu på med ett visningsgränssnitt för resultatet av Digidailyprojektet med 2-3 miljoner sidor av Aftonbladet 1830-2010 och Svenska dagbladet 1884-2010. Det har tagit alldeles för lång tid att komma fram till den produktion vi har i projektet och det återstår 119 miljoner sidor i vår tidningssamling. Den verksamhet som bedrivs sker på projektpengar utan någon garanti för fortsättning. Något uppdrag från Utbildningsdepartementet att digitalisera dagstidningar har KB hittills inte fått och alltså inte heller någon motsvarande finansiering. Att inom KB frigöra de cirka 24 miljoner kronor per år som skulle behövas för en rimlig takt i digitaliseringen (hela samlingen klar på 30 år) är tyvärr idag en omöjlighet.

Att mer maskinellt kontrollera vad som kan visas och inte är en klart intressant tanke, men möjligen svårt att kombinera med det gränssnitt KB är på väg att skaffa. Det är vidare möjligen så att fler upphovsrättsinnehavare skulle uppskatta återpublicering i KB:s digitalisering än klaga på den och kräva ersättning av KB, men det är inte de enskilda KB kan förhandla med utan de organisationer som företräder dem. Vi vet inte hur höga ersättningsnivåer det skulle röra sig om i enskilda fall, men en potentiellt stor hantering av enskilda ärenden är inte något KB skulle kunna eller ens vilja hantera.

Det stämmer att man i olika länder valt olika brytår för allmän publicering av digitaliserade dagstidningar, men det är till exempel i Finland ett eget påhitt med att ha en rullande hundraårsgräns. I Frankrike tycks det finnas en lagstiftning som tillåter publicering fram till cirka 1945. I USA är det 1923 enligt lag. I Nya Zeeland använder man oftast 1950 som gräns, men markerar att upphovsrätten ibland snävar in detta, och så vidare.

Det är onekligen ett väldigt teoretiskt resonemang att sätta gränsen till 1862/1863 och det av flera olika skäl. Antalet tioåriga bidragsgivare i dåtidens dagspress var säkert försvinnande litet, antalet tioåringar 1862 som blev 90 år är också en väldigt liten mängd och kombinationen blir nästan oändligt liten. Om man dessutom tänker på att enormt mycket material i äldre tidningar var helt osignerat är vi sannolikt nere på noll i sannolikhet.

Riskerna med att publicera digitaliserat material fram till 1912 som i Finland torde vara minimala, men vi tror ändå att det kan vara klokt att påbörja diskussionerna om brytår, avtalslicenser och ersättningsnivåer från en sorts nollpunkt, alltså 1862/1863. Det kommer sannolikt att vara mycket svårt att hävda höga – eller kanske ens några – ersättningsnivåer ganska långt fram i tiden och vi utgår från att vi rätt snabbt kan hamna i ett läge där vi har avtalat om material en bit in på 1900-talet, och därefter rimliga ersättningar i flera steg fram till 1950-talet åtminstone. De kontakter vi har haft hittills med upphovsrättsorganisationer tyder på att vi för en rätt klok politik. Att andra inte gör rätt är i sig inte ett skäl för oss att göra fel.

Publicerat i Okategoriserade | Etiketter , | 6 kommentarer

Kommentarer och svar på inläggen om upphovsrätt

Tack för alla inlägg om tillgängliggörande!

Vi ville få till en diskussion och det fick vi! Vi kommer att skriva ihop en text och kommentera/svara på era frågor men det kommer att ta några dagar.

Men fortsätt att kommentera, fråga och komma med konstruktiv kritik. Detta är ett viktigt ämne. Och vårt mål är naturligtvis att kunna tillgängliggöra så mycket material som möjligt, men vi måste hitta metoderna.

//Heidi

Publicerat i Okategoriserade | Etiketter | Lämna en kommentar

Tillgängliggörande av digitaliserat tidningsmaterial

Många har efterfrågat, och med all rätta, hur och när materialet kommer att börja visas.
KB har tyvärr idag inget gränssnitt för visning av det nya digitaliserade tidningsmaterialet, men jag kan med glädje berätta att vi arbetar hårt med att få till ett användargränssnitt just för tidningar under året!

Tidningsmaterialet vi nu digitaliserar, Aftonbladet 1830-2010, och SvD 1884-2010, består av både upphovsrättsfritt och upphovsrättsskyddat material och måste således behandlas på olika sätt. I korthet tänker vi oss att det fria materialet från 1862 och äldre kommer att tillgängliggöras fritt sökbart på Internet. Material från 1863 och nyare kommer att finnas sökbart på KB.

Anledningen till 1862 är lagstiftningen och dess tolkning som grundar sig i att verken är skyddade i 70 år efter upphovsmannens eller kvinnans död. Använder man sig av schablonen att en människa lever tills hen blir 90 år (och ponerar att ett barn i 10-års åldern KAN ha målat en teckning eller skrivit en text som sedan publicerats under signatur) blir ekvationen 70 år + 80 år = 150 år. 2012–150 = 1862.

Vi är medvetna om att det finns fritt material även efter 1862, men för att kunna påvisa detta säger lagstiftningen att man måste granska varje enskilt verk (läs tidningsnummer) och leta namn på skribenter/fotografer och sedan söka deras dödsår. En sådan åtgärd skulle ta alltför mycket tid, väldigt många timmar per tidning, och vi har helt enkelt inga resurser för ett sådant arbete.
Därför börjar man nu avtala fram s.k. avtalslicenser. En avtalslicens är ett kommersiellt avtal mellan den som vill publicera upphovsrättsskyddat material och en upphovsrättsorganisation. En avtalslicens skulle underlätta tillgängliggörandet av större volymer material. Observera att inte ens en tidning kan publicera ”sitt eget” gamla material i digital form utan att först klarera rättigheterna, då rättigheterna inte tillhör tidningen utan de enskilda skribenterna/fotograferna.

Flera länder i Europa jobbar nu med avtalslicensfrågan, t.ex. Storbritannien och Tyskland. I USA talar man ofta om ”cut off date”. Deras lagstiftning är inte uppbyggd som Sveriges och deras skyddstid är av historiska skäl kortare än vår.
Beträffande Creative Commons-licenser är detta inte heller något som kan användas då KB inte är rättighetshavaren.

Vi arbetar för att kunna visa så mycket tidningsmaterial som möjligt, men vi måste som myndighet förhålla oss till de lagar och regler som förelagts oss.

Vi vill gärna höra vad du tycker!

Publicerat i Okategoriserade | Etiketter , , , | 34 kommentarer

Artikelsegmentering i projekt Digidaily

I slutet av augusti var vi några från KB som gick på kurs med våra kollegor på MKC  i artikelsegmentering. Vi försöker i projekt Digidaily hitta så rationella och ekonomiska metoder som möjligt för att kunna ha råd med en större framtida tidningsdigitalisering. Detta gäller även  segmentering av artiklar. Den mjukvara som idag används för OCR-tolkning hos MKC tillåter just detta med automatiserad segmentering.

Så här går det till:
En operatör skrollar igenom ett urval ur låt oss säga Aftonbladet från 1909 till 1929. Ser layouten homogen ut kan man göra en sk. regel för dessa år. Denna regel talar om att t.ex. en rubrik har fontstorleken  20, en annan rubrik är 25 punkter och kursiv, en tredje är 72 punkter och fet o.s.v.  Det finns otroligt många parametrar att ställa in. Sedan kör man en test på några tidningar från de åren man undersökt. Men mycket skicklighet och lite tur får man ett gott segmenteringsresultat. När tidningen under tid ändrar layout eller utseende måste en ny regel göras.

Ju renare och enklare en tidningssida är desto bättre resultat. De äldre tidningarna är problematiska då kolumnerna ligger väldigt tätt och knappt ingen luft  finns mellan raderna. Även moderna tidningar med väldigt stora rubriker och artiklar/bilder som löper över uppslag är svåra att få korrekta. Men vi hoppas på att mertalet artiklar kommer bli korrekt segmenterade,

En manuell segmentering skulle ta väldigt mycket tid och pengar i anspråk, man räknar med 2-4 minuter/sida. I vårt projekt kommer vi att göra 3 miljoner sidor. Multiplicerar man med 2 min skulle det bli 6 milj minuter = 208 arbetsdagar, vilket skulle innebära runt ett helt års arbete.

I många  länder med tidningsdigitaliseringsprojekt har man valt en annan metod, att lägga ut segmentering av artiklar och rättning av rubriker i låglöneländer som Rumänien, Indien eller Kambodja.

Segmentering av ett gammalt Aftonbladet. De olikfärgade segmenten visar på se olika artiklarna i tidningen.

Publicerat i Okategoriserade | Etiketter , | Lämna en kommentar