Metodo e apparato per riconoscere testo in immagini digitali raffiguranti pagine di un documento antico

Barbuti, Nicola; Caldarola, T.

Si tratta di un applicativo altamente innovativo, in grado di elaborare full text da immagini a colori di manoscritti, libri e documenti antichi, carte, mappe, spartiti, etc. con percentuali di restituzione di testo corretto assolutamente elevate e mai raggiunte prima per riproduzioni digitali di tali materiali. L'applicativo, difatti, a fronte delle percentuali di restituzione dei correnti OCR e IWR in uso (che oscillano dall’1% fino a un massimo del 30-35%), si basa su funzioni di Intelligent Character Recognition del tutto nuove, in grado di transcodificare in full text immagini di materiali antichi con una percentuale di esattezza che oscilla tra il 45-70% per i manoscritti e il 60-99% per i materiali a stampa. Caratteristica fondamentale è che l’applicativo genera full text basandosi su una quantità di informazioni inserite manualmente assolutamente minima, in quanto si basa su un sistema di acquisizione di dati basato su autoapprendimento. Inoltre, per le sue caratteristiche funzionali, non necessita di thesauri semantici strutturati di riferimento, in quanto effettua un processo di segmentazione e indicizzazione delle immagini basato sulle caratteristiche tipografiche di ciascuna immagine su cui opera. Il SW prevede anche funzioni di OCR per immagini di testi e documenti moderni o mappe, stampe, spartiti, etc., e di IWR per documenti manoscritti in grafie difficilmente leggibili anche all’occhio umano o afflitti da difetti o danni che ne rendono particolarmente rumorosa l’immagine digitale.