vrijdag 7 december 2007

Optische tekenherkenning voor oude teksten - IMPACT

In 2008 start een nieuw project, waarin o.a. de Koninklijke Bibliotheek deelneemt, dat de techniek wil ontwikkelen waarmee drukwerken van voor 1850 d.m.v. OCR (optical character recognition) doorzoekbaar kunnen worden.
Het digitaliseren van boeken en handschriften is inmiddels behoorlijk gemeengoed, maar met name de oudere drukwerken blijken voor de huidige OCR-software een te groot probleem. Het foutpercentage is veel te hoog.

Om handschriften met behulp van OCR-software doorzoekbaar te maken is nog een stap verder. Deze techniek is onderwerp van onderzoek. Diverse postbedrijven werken al op grote schaal met deze techniek, maar daarbij gaat het om relatief eenvoudige acties van voornamelijk gestandaardiseerde input. Postcode en huisnummer is al voldoende om een brief op de juiste plaats te krijgen.
Google houdt zich bezig met het digitaliseren en vervolgens OCR-ren van oude Indiase handschriften in het Sanskriet en Kannada door hun product ORCopus.
Voor archieven zou de doorontwikkeling van dit soort technieken een zegen zijn. Pas dan kunnen kilometers archief op eenvoudige wijze ontsloten worden. Tot die tijd blijft dat arbeidsintensief werk voor specialisten.

Geen opmerkingen: