Tu sei qui

Specifiche tecniche e standard

L'infrastruttura del sistema informativo
La BEIC Digitale è costituita da tre moduli: un modulo per assicurare la conservazione a lungo termine delle immagini dei documenti digitalizzati e dei metadati ad esse associati; un modulo per la pubblicazione e un modulo per la ricerca e il recupero.

La realizzazione della BEIC digitale è iniziata nel 2008 ed è il frutto della collaborazione tra la Fondazione BEIC e il Politecnico di Milano. Le aziende che a vario titolo hanno contribuito a questa realizzazione sono state IBM (anche attraverso una sua Business Partner: Sowre) e Ex Libris. In particolare IBM ha fornito l’architettura hardware e software di base, Sowre le applicazioni per il caricamento, la gestione e la trasformazione delle immagini e dei metadati ad esse associati. Di Ex Libris sono l’applicazione per la pubblicazione (DigiTool) e quella per la ricerca (Primo).

Conservazione a lungo termine
Oggetto della conservazione a lungo termine sono le immagini ad alta definizione (in formato TIFF) e i metadati descrittivi, amministrativi e strutturali ad asse associati. I metadati sono inseriti all’interno di un documento XML conforme allo schema METS. Per i metadati descritti sono stati utilizzati gli elementi dell’insieme Dublin Core, mentre per quelli amministrativi si è utilizzato lo schema MIX.
Prima di essere inserite all’interno dell’Archivio delle collezioni digitali, le immagini e i metadati ad esse associati sono sottoposte a una serie di verifiche che riguardano la qualità delle immagini stesse, la buona forma e la validità dei documenti XML; la corrispondenza tra il numero e il nome delle immagini descritte nei documenti XML e quelli delle immagini consegnate; la corrispondenza tra le caratteristiche tecniche delle immagini (dimensione, larghezza, altezza, risoluzione orizzontale, risoluzione verticale e profondità di colore) e la loro descrizione contenuta nei documenti XML.

Sistema di pubblicazione
La pubblicazione delle immagini prevede una serie di passaggi il primo dei quali riguarda la generazione di immagini in formato Jpeg e Jpeg 2000 e di un documento PDF a partire dalle immagini in formato TIFF. La scelta di utilizzare due formati di immagini è fatta per mettere a disposizione immagini a più alta qualità per collezioni di particolare pregio, com’è il caso degli Incunaboli in lingua italiana.
Il secondo passo è l’arricchimento del documento XML associato alle immagini con l’inserimento di una sezione descrittiva conforme allo schema XML MARC e di una sezione strutturale in cui è descritta la struttura logica del documento.
Durante il processo di pubblicazione è prevista la possibilità di effettuare un riconoscimento ottico dei caratteri per dare la possibilità di effettuare ricerche a testo pieno all’interno dei documenti. Tale possibilità è utilizzata nel caso di volumi che assicurino un alto tasso di riconoscimento (sono stati esclusi, ad esempio, i Manoscritti giuridici medievali)
Le immagini, il documento PDF e il nuovo documento XML sono quindi caricati in DigiTool.

Catalogo
L’ultimo modulo è quello che permette la ricerca e il recupero dei documenti. Le registrazioni inserite in DigiTool sono recuperate automaticamente e messe così a disposizione per l’interrogazione. Poiché però essere possono riguardare solo documenti pubblicati (monografie, fascicoli di periodico, immagini e così via), si è scelto di aggiungere a quelle presenti in DigiTool una serie di registrazioni relative a monografie superiori, periodici o articoli in modo da facilitare le ricerche.

Standard tecnici
La sezione amministrativa del document XML che contine le informazioni relative alle immagini è conforme allo schema MIX (Metadata for Images in XML schema). Questo schema è stato sviluppato dal Library of Congress' Network Development and MARC Standards Office, in collaborazione con il NISO Technical Metadata for Digital Still Images Standards Committee. Esso fornisce un formato per la conservazione e lo scambio dei dati specificati nel Data Dictionary - Technical Metadata for Digital Still Images (ANSI/NISO Z39.87-2006).

Standard biblioteconomici
Per I documenti contenenti in metadati relative alle immagini, si è scelto di utilizzare lo schema METS, più diffuso rispetto al MAG e che conosce una continua evoluzione (la prima versione è del 2001, l’ultima, la 1.9, del febbraio 2010).
Per la sezione descrittiva si è invece utilizzato lo schema XML MARC, il più completo e flessibile per la descrizione di questo tipo di risorse.

Interoperabilità
Particolare attenzione è stata posta nell’assicurare l’interoperabilità tra la BEIC Digitale e altre iniziativi simili. DigiTool dispone infatti di un modulo Protocollo OAI-PMH.