Tu sei qui

Specifiche tecniche e standard

L'infrastruttura del sistema informativo
La BEIC Digitale è costituita da tre moduli: un modulo per assicurare la conservazione a lungo termine delle immagini dei documenti digitalizzati e dei metadati ad esse associati; un modulo per la pubblicazione e un modulo per la ricerca e il recupero. La realizzazione della BEIC digitale è iniziata nel 2008 ed è il frutto della collaborazione tra la Fondazione BEIC e il Politecnico di Milano. Le aziende che a vario titolo hanno contribuito a questa realizzazione sono state IBM (anche attraverso una sua Business Partner: Sowre) e Ex Libris. In particolare IBM ha fornito l’architettura hardware e software di base: Sowre le applicazioni per il caricamento, la gestione e la trasformazione delle immagini e dei metadati ad esse associati. Di Ex Libris sono l’applicazione per la ricerca (Primo) e quella per la pubblicazione (DigiTool).

I. Conservazione
Oggetto della conservazione a lungo termine sono le immagini ad alta definizione (in formato TIFF) e i metadati descrittivi, amministrativi e strutturali ad asse associati. I metadati sono inseriti all’interno di un documento XML conforme allo schema METS. Per i metadati descrittivi sono stati utilizzati gli elementi dell’insieme Dublin Core, mentre per quelli amministrativi si è utilizzato lo schema MIX.
Prima di essere inseriti all’interno dell’Archivio delle collezioni digitali, le immagini e i metadati ad esse associati sono sottoposti ad una serie di verifiche che riguardano la qualità delle immagini stesse, la buona forma e la validità dei documenti XML; la corrispondenza tra il numero e il nome delle immagini descritte nei documenti XML e quelli delle immagini consegnate; la corrispondenza tra le caratteristiche tecniche delle immagini (dimensione, larghezza, altezza, risoluzione orizzontale, risoluzione verticale e profondità di colore) e la loro descrizione contenuta nei documenti XML.

II. Pubblicazione
La pubblicazione delle immagini prevede una serie di passaggi il primo dei quali riguarda la generazione di immagini in formato Jpeg e Jpeg 2000 e di un documento PDF a partire dalle immagini in formato TIFF. La scelta di utilizzare due formati di immagini è fatta per mettere a disposizione immagini di qualità più alta per collezioni di particolare pregio, come nel caso degli Incunaboli in lingua italiana.
Il secondo passaggio è l’arricchimento del documento XML associato alle immagini con l’inserimento sia di una sezione descrittiva conforme allo schema XML MARC sia di una sezione strutturale in cui è descritta la struttura logica del documento.
Durante il processo di pubblicazione è prevista la possibilità di effettuare un riconoscimento ottico dei caratteri (OCR) per dare la possibilità di effettuare ricerche a testo pieno all’interno dei documenti. Tale possibilità è utilizzata nel caso di volumi che assicurino un alto tasso di riconoscimento (sono stati esclusi, ad esempio, i Manoscritti giuridici medievali).
Come ultimo passaggio, le immagini, il documento PDF e il nuovo documento XML vengono quindi caricati in DigiTool.

III. Catalogo
L’ultimo modulo è quello che permette la ricerca e il recupero dei documenti. Le registrazioni inserite in DigiTool sono recuperate automaticamente e messe così a disposizione per l’interrogazione. Poiché possono riguardare solo documenti pubblicati (monografie, fascicoli di periodico, immagini e così via), si è scelto di aggiungere a quelle presenti in DigiTool una serie di registrazioni relative a monografie superiori, periodici o articoli in modo da facilitare le ricerche.

Standard tecnici
La sezione amministrativa del document XML che contiene le informazioni relative alle immagini è conforme allo schema MIX (Metadata for Images in XML schema). Questo schema è stato sviluppato dal Library of Congress' Network Development and MARC Standards Office, in collaborazione con il NISO Technical Metadata for Digital Still Images Standards Committee. Esso fornisce un formato per la conservazione e lo scambio dei dati specificati nel Data Dictionary - Technical Metadata for Digital Still Images (ANSI/NISO Z39.87-2006).

Standard biblioteconomici
Per i documenti contenenti i metadati relativi alle immagini, si è scelto di utilizzare lo schema METS, più diffuso rispetto al MAG e che conosce una continua evoluzione (la prima versione è del 2001, l’ultima, la 1.9, del febbraio 2010).
Per la sezione descrittiva si è invece utilizzato lo schema XML MARC, il più completo e flessibile per la descrizione di questo tipo di risorse.

Interoperabilità
Particolare attenzione è stata posta nell’assicurare l’interoperabilità tra la BEIC Digitale e altre iniziativi simili. DigiTool dispone infatti di un modulo Protocollo OAI-PMH.