Doorgaan naar hoofdcontent

Transcriptie-software nu open source beschikbaar

Transcriptie-software nu open source beschikbaar
Voor het ontcijferen van handschriften in archieven ontwikkelde het KNAW Humanities Cluster de transcriptie-software Loghi. De software is per direct open source beschikbaar. Het Nationaal Archief en het KNAW Humanities Cluster blijven Loghi verder doorontwikkelen. Het ontcijferen van zeventiende-eeuwse handschriften, of veel modernere, zoals uit de periode van de Tweede Wereldoorlog is tijdrovend en vaak moeilijk. Transcriptie-software maakt dit veel eenvoudiger door er een digitale tekst van te maken. Tegelijkertijd biedt die transcriptie ook nieuwe onderzoeksmogelijkheden, omdat gedigitaliseerde tekst doorzoekbaar is. Het vinden van alle vermeldingen van bijvoorbeeld 'suiker' in een archief van miljoenen archiefstukken kost slechts een paar minuten in plaats van vele jaren. De transcriptie-software Loghi, geeft tot wel 96 procent correcte transcripties van handgeschreven, getypte en gedrukte teksten. Hierdoor is Loghi geschikt voor erfgoedorganisaties die historische, slecht leesbare teksten beschikbaar en doorzoekbaar willen maken voor bezoekers en onderzoekers. De software is open source, wat betekent dat het beschikbaar is voor iedereen, maar ook dat het kan worden aangepast aan de eigen specifieke behoeften. Loghi is per direct voor iedereen toegankelijk op via de GitHub website. Op die manier kunnen ontwikkelaars er mee aan de slag en een bijdrage leveren aan het verbeteren van Loghi. Loghi is in staat om uiteenlopende teksten te ontcijferen of het nu handgeschreven, getypt of gedrukt is. De software doet dat in twee stappen. Eerst stelt het vast op welke lijn een regel loopt, de zogenaamde baseline. Op die manier weet de software welke zinnen bij elkaar horen. Daarna zet Loghi het plaatje van de tekst om naar digitale tekst. Door deze twee stappen kan Loghi niet alleen rekening houden met aantekeningen in de kantlijn of tussen regels, maar ook met teksten die verticaal zijn geschreven in bijvoorbeeld tabellen. De software herkent al die verschillende vormen van tekst en geeft de digitale weergave daarvan in de juiste context weer.
 
Wil je het laatste nieuws in jouw mailbox ontvangen?
Meld je dan aan voor de nieuwsbrief.