Logo Regione Toscana
Sei in: Home / Cultura / Biblioteche / Manuale per la progettazione digitale
15 settembre 2009
|

Manuale per la progettazione digitale

A cura di Gabriele Lunati e Giovanni Bergamin



 

Introduzione

Da alcuni anni anche in Toscana, come nel resto d'Italia, si sono moltiplicate le iniziative ed i progetti nel campo della digitalizzazione. La sensazione prevalente, da parte dei pubblici amministratori che si trovano a finanziare molte di queste iniziative è, tuttavia, che l'entusiasmo che accompagna la progettualità non sia spesso sostenuto da conoscenze appropriate e da metodologie consolidate frutto anche di raffronti con esperienze altrui, sia italiane che estere e di cui si dispone in rete di ampia documentazione.
Da questo presupposto nasce l'idea di fornire, attraverso un percorso progettuale ideale - dalla scelta alla realizzazione - una sorta di strumento di riferimento per l'impostazione e l'avvio di un progetto di digitalizzazione.

Tutte le fonti a cui si fa riferimento sono solo ad accesso pubblico e disponibili su Internet.
Lo scopo è quello di mettere a disposizione in modo ordinato e ragionato una serie di suggerimenti disponibili in rete, per permettere di evitare errori e di replicare soluzioni già realizzate da altri. La maggior parte dei documenti è in inglese ma in ogni caso, dove possibile sono citate e segnalate fonti italiane.

Nel testo sono inseriti i link attivi sia alla fonte sia alla traduzione, dove prevista; quest'ultima, che è possibile visualizzare in una finestra separata cliccando su [Versione italiana], è la vera novità di questa edizione, unitamente all'introduzione di pagine dedicate ad alcuni temi specifici.

Nelle traduzioni, non di rado, ci si è trovati in difficoltà a riprodurre in italiano un linguaggio ed una terminologia fortemente gergali; in taluni casi è stata fatto un adattamento ed una riduzione del testo originale oppure sono stati omesse le indicazioni interne all'ente. Le omissioni sono segnalate da (...) mentre le inserzioni a cura della redazione sono in corsivo tra parentesi [ ].
Gli autori ringraziano in anticipo coloro che invieranno segnalazioni di errore ma anche commenti, critiche e indicazioni di ulteriori strumenti di approfondimento e ne terranno conto per eventuali integrazioni ed aggiornamenti.

 

La scelta

In ogni studio sulla progettazione digitale il primo punto affrontato è quello della scelta, che non è solo relativo alla scelta del materiale ma parte da problemi più ampi e generali sulle finalità di digitalizzare. Esattamente come si fa per la politica degli acquisti o per quella dei servizi.
Questo problema, dunque, si inquadra nell'ambito più ampio della definizione di una politica del digitale tanto che molte università e biblioteche (estere) hanno definito un proprio percorso ed una propria "carta del digitale".
E' interessante attraverso questi strumenti confrontare i vari punti di vista sul problema della scelta per arrivare a determinarne uno proprio. E' quanto invitiamo a fare con la breve rassegna che segue.

Stabilire dei principi è fondamentale; lo ricorda Paul Conway nel breve Summary of Key Principles and Points al termine di un capitolo introduttivo del Handbook for digital projects, edito da NDCC.
La serie dei punti segue un ordine logico che arriva fino alla parte relativa alla documentazione degli errori e delle difficoltà; un aspetto non secondario legato alla comunicazione sul progetto stesso (si veda in merito la seconda parte del capitolo sul Web).

Versione italiana - Sommario dei punti e dei principi chiave

  1. Definire confini chiari per un progetto di conversione digitale, in modo particolare il punto finale
  2. Sviluppare nuove idee attraverso discussioni propositive (brainstorming): in termini non tecnici, stabilire i risultati finali desiderati secondo le fonti ed i requisiti funzionali per le riproduzioni digitali
  3. Dar ragione del perché la riproduzione digitale, piuttosto che l’analogica, sia necessaria, ovvero:
    1. descrivere l’utenza e i suoi bisogni
    2. descrivere cosa le copie digitali potranno fare che le analogiche non possono
  4. Progettare la vita per le riproduzioni digitali
  5. Pianificare: elaborare il piano del progetto e il budget e l’altra documentazione relativa alla pianificazione, fissare un limite temporale
  6. Fare un bilancio preventivo per il flusso di lavoro, pianificandolo sulla base dei risultati della scansione e della catalogazione di un campione significativo di materiale
  7. Fare un bilancio preventivo (in tempo, se non in denaro) per l’addes-tramento
  8. Attuare: coordinare flussi di lavoro simultanei o sovrapposti
  9. Separare il materiale in serie per la conversione e per il controllo di qualità
  10. Documentare le fasi del progetto
  11. Elaborare una relazione conclusiva sulle esperienze acquisite, in modo particolare sui fallimenti e sui vicoli ciechi; aiutare voi stessi ed i vostri colleghi ad imparare dagli errori

L'intero cap. 4 del già citato Handbook è dedicato alla scelta. In particolare, l'autrice Diane Vogt-O'Connor si domanda Why Select for Scanning?
Tra le altre cose l'autrice pone l'accento sul rapporto tra la qualità del prodotto digitale e la credibilità dell'istituzione che ne è all'origine; inoltre essa richiama l'attenzione necessaria verso l'impatto sociale della pubblicazione digitale considerata anche la destinazione molto più ampia che essa ha tramite Internet.

 

Versione italiana – Perchè scegliere per la scansione?

L’accesso web come pubblicazione. Quando vengono proposte sul web, le collezioni digitali raggiungono un pubblico assai diversificato e ampio, mondiale. L’utenza del web è composta di ricercatori, studenti, grande pubblico, professionisti dell’informazione, sponsor, creatori di collezioni, registi, editori e specialisti di settore, ma anche da utenti meno desiderabili, quali potenziali ladri, vandali e chi infrange i diritti sulla proprietà intellettuale.
Una volta al corrente del patrimonio di un’istituzione, questi utenti sono inclini a richiedere riproduzioni, di alta qualità, permessi per la pubblicazione e accesso agli originali. La difesa delle collezioni, le politiche per la duplicazione, i permessi per la pubblicazione e per l’accesso dovrebbero essere poste in essere molto prima che la migliorata visibilità delle collezioni generi un aumento delle richieste e degli accessi [all'originale]. Un’efficace pre-programmazione può mitigare l’impatto dell’aumento delle richieste di accesso, duplicazione e quelle per i permessi di pubblicazione o di esposizione degli oggetti digitalizzati.

Alti costi e bilanci limitati. Alla maggior parte delle istituzioni mancano le risorse per digitalizzare il loro intero patrimonio, per quanto opportuno ciò possa risultare per migliorarne l’accesso.
I costi iniziali per la selezione e la digitalizzazione scompaiono a fronte di quelli per il controllo di qualità, per la produzione dei metadati, per l’indicizzazione e la catalogazione. Quando acquisire digitalmente l’intera collezione non è finanziariamente fattibile, la selezione diventa non soltanto possibile ma essenziale.

L’ipoteca digitale. I file digitali arrivano con una ipoteca. Ogni istituzione deve preventivare di trasferire i vecchi file in nuovi formati allorchè software e hardware cambiano e  e i media elettronici raggiungono il punto finale della loro relativamente breve aspettativa di vita (Puglia, 1999). Il budget preventivato provvede a finanziare non solo il sostanzioso investimento iniziale per la digitalizzazione ma anche l’infrastruttura digitale che comprende il personale, i contratti, l’attrezzatura e il software. Poiché i file digitali sono significativamente più costosi da gestire nel tempo rispetto al materiale cartaceo, le istituzioni devono identificare e programmare risorse consistenti per la gestione delle grandi raccolte di file digitali che hanno creato (Lowry &Troll, 1996; Marcum, 1998). I costi del progetto non vengono a cessare quando esso appare sul sito web.

Aspetti legali. Le istituzioni spesso non detengono i diritti di proprietà intellettuale e i permessi sul materiale in loro possesso. Copyright, diritti di riservatezza e di pubblicità, problemi connessi all’oscenità e alla diffamazione, informazioni su luoghi protetti dalla legge (siti sacri, siti archeologici protetti), se non trattati adeguatamente, possono portare a cause e a costosi risarcimenti . La digitalizzazione intrapresa senza una selezione ragionata può dare luogo alla creazione di file digitali che non possono essere effettivamente usati a causa di restrizioni legali (Smith Levine, 1995). Individuare lo stato legale dei materiali destinati alla scansione è un passo cruciale in ogni processo di selezione digitale. La richiesta dei permessi per i materiali scelti inizia subito dopo la selezione.
(...)

L'attenzione verso i partecipanti [indiretti] al progetto ("stakeholders"). Pubblicare sul web materiale sensibile da un punto di vista culturale o etnico può sollevare una valanga di proteste, anche se le collezioni non sono soggette per legge ad alcuna restrizione. Si deve esercitare un giudizio ponderato che concili il bisogno di rispettare le comprensibili preoccupazioni delle persone [indirettamente] coinvolte nel progetto con il desiderio di evitare una censura arbitraria. Consultatevi con gli "stakeholders" se trattate tipi di materiali quali:

  • informazione culturale normalmente circoscritta a membri di speciali gruppi o culture, informazioni di carattere sacro, [informazioni che possano arrecare danno se divulgate in modo particolarmente ampio, ecc.]
  • materiali soggetti a vincoli da parte di un donatore, quale la richiesta di evitarne la divulgazione [entro un certo numero di anni] dalla morte del donatore.

Documentazione. Durante la selezione, si deve verificare che i materiali candidati alla scansione siano ben documentati e completi di accurati dati catalografici. Se così non è, l’istituzione sta rischiando una significativa spesa supplementare per fare ricerche sui materiali, controllare le informazioni e scrivere appropriate descrizioni di accompagnamento che forniscano un contesto chiaro ed accurato. Gli addetti dei National Archives stimano che fino ai due/terzi del costo reale della digitalizzazione durante i primi 10 anni di un progetto digitale sono dati dalla creazione dei metadati e dal lavoro del controllo di qualità (Puglia, 1999). (...)

La credibilità istituzionale. Durante la selezione, si devono verificare l’esattezza e l’autorevolezza di tutte le informazioni da inserire nelle risorse elettroniche. Si devono correggere le informazioni inesatte per proteggere la propria credibilità e reputazione. Sempre più, il pubblico che utilizza il web valuta le risorse elettroniche per la qualità. I criteri comuni di valutazione sono l’autorevolezza di una istituzione, la formazione culturale e la reputazione dell'autore, le note a piè di pagina o le citazioni che si affiancano ai materiali trattati.

Il termine stakeholder è ormai diventato un neologismo, al quale economisti e non ricorrono per indicare l'insieme dei soggetti interessati dall'attività d'impresa e in grado, direttamente o indirettamente, di influenzarne gli esiti  In: Reference Finanza Marketing e Produzione n.4 dicembre

Un altro contributo molto ampio e qualificato Guidance for selecting materials for digitisation redatto da quattro enti prestigiosi quali il RLG, JISC, UKOLN e NPO, propone una tabella di domande dedicate alla scelta.
Si tratta di 20 domande suddivise in quattro ambiti: valutazione generale, vantaggi, standard e aspetti amministrativi. Segnaliamo, tra le altre, l'ultima domanda della prima riga che pone la questione: conservazione o tutela? Due concetti e due scopi sui quali è assai opportuno riflettere.

Un vero e proprio percorso ad ostacoli è la tabella denominata Decision making Matrix; sono più o meno le medesime domande esposte sotto forma di flowchart. Se riuscite ad arrivare indenni all'ultima casella potrete iniziare a valutare seriamente l'ipotesi di avviare un progetto digitale.

Il problema della scelta viene affrontato anche nel capitolo 2.3 del manuale Digitisation guidelines edito dal NCECHO con una lista di domande seguita da un esempio. Le domande ripropongono in modo forse meno organico di altri manuali argomenti analoghi ai precedenti.
L'esempio [non tradotto] di scelta, tratto da una situazione reale, illustra bene cosa si intende per progetto sostenibile ed il senso di una scelta orientata a privilegiare la qualità sulla quantità.

 

Versione italiana – Selezionare

[La traduzione si basa sulla versione precedente del manuale; quella attuale ripropone le stesse domande riclassificate in modo più ordinato]

(…) Come si fa a scegliere i materiali migliori per la digitalizzazione? Pur riconoscendo che la selezione è il più delle volte guidata da valutazioni soggettive, le seguenti sono domande che possono guidare le decisioni di selezione in modo più obiettivo.

  • Chi sono gli utenti attesi? Chi è l’audience destinataria?
  • Il materiale sarà interessante per un vasto pubblico?
  • La digitalizzazione fornirà un migliore accesso ai materiali per un pubblico ampio?
  • Il progetto duplicherà dei materiali disponibili altrove o si tratta di materiali unici per la vostra collezione?
  • La collezione digitale che verrà prodotta avrà un valore duraturo nel tempo?
  • La digitalizzazione aiuterà la tutela di materiali in fase di deterioramento?
  • Resisteranno i materiali sottoposti alla manipolazione ed ai processi richiesti dalla digitalizzazione? Sarà necessaria una cura speciale per maneggiarli? Sarà costosa questa particolare attenzione?
  • Disponete del copyright sui materiali che state per digitalizzare o potete ottenere il permesso da chi detiene il copyright per digitalizzarlo?
  • La richiesta per i materiali/oggetti è già soddisfatta da un surrogato? Il surrogato si trova presso un’altra istituzione?
  • La digitalizzazione fornirà una migliore indicizzazione e un miglior controllo bibliografico del materiale?
  • Il costo della conservazione del materiale [originale] sarà ridotto grazie all’accesso digitale?
  • Lo scopo del progetto è alla portata  del vostro budget e del vostro organico?
  • Le vostre conoscenze tecnologiche sono sufficienti a risolvere le esigenze del materiale?
  • Il prodotto avrà utilità immediata?
  • I materiali originali saranno adatti per diversi livelli di utente o per una utenza specifica?
  • Il progetto renderà il contenuto disponibile in modo più ampio?
  • Il progetto renderà disponibili materiali ad una popolazione che altrimenti sarebbe impossibilitata ad usare la collezione (per esempio, popolazione disabile, utenti internazionali o costretti a casa)?
  • La digitalizzazione incrementerà la richiesta per i materiali o per altri, correlati materiali? (e se così, siete organizzati a gestirne le richieste?)
  • La digitalizzazione darà alla collezione un valore aggiunto?
  • La versione digitale migliorerà l’utilizzo grazie ad accessi standard?
  • La digitalizzazione migliorerà la leggibilità degli originali?
  • Il progettò fornirà materiale di studio che può essere usato nell’apprendimento basato sulle fonti?
  • Le collezioni digitalizzate avranno la capacità di attrarre fondi, sia attraverso elargizioni esterne (per esempio [essendo coerenti con i principi di] enti finanziatori?) o in termini di raccolta di entrate (per esempio essendo commerciabile)?
  • Il progetto genererà un prestigio istituzionale?
  • Il progetto inalzerà le competenze del personale all’interno dell’istituzione?
  • Il progetto sarà in armonia con le politiche a livello istituzionale?
  • Il sito web avrà elementi di attrazione on line?

Un documento da prendere in considerazione è quello, molto sintetico, predisposto dalla Library of Congress Selection Criteria for Preservation Digital Reformatting. La breve pagina riguarda la scelta in vista della digitalizzazione a fini di tutela.

 

Versione italiana – Criteri di selezione per la conversione digitale a fini di tutela

La selezione dei materiali per il passaggio in digitale a fini di tutela è basato sul valore, l’uso, le condizioni e  le caratteristiche dell’oggetto originale e sull’adeguatezza delle riproduzioni digitali per l'uso e l’accesso.

Il valore – Viene data la priorità a materiali di interesse nazionale di alto valore e a rischio. La consegna di una riproduzione digitale è altamente desiderabile per materiali di questa categoria, sia a scopi di tutela preventiva, come pure di sicurezza, sia per ridurre la manipolazione degli originali.

CondizioneGli oggetti che non sono disponibili per la cosnultazione a causa di danni o per fragilità sono candidati alla conversione digitale, così come lo sono oggetti conservati su supporti instabili.

Uso – I materiali originali che hanno un alto numero di richieste o  alti costi di consultazione sono preferibili candidati alla conversione digitale

Caratteristiche degli originali – Originali su formati fisici differenti e con differenti caratteristiche sono adatti per la conversione digitale; tra essi materiali cartacei rilegati e a fogli sciolti, fotografie, negativi e immagini a colori. (...)

Accettabilità dell’oggetto digitale finale – L’oggetto digitale che risulta dal processo di riconversione deve soddisfare i requisiti [stabiliti dalla Division ...]. In alcuni casi la tecnologia e/o la metodologia possono non esistere, o essere immatura per produrre risultati desiderati su larga scala. Comunque, alcuni oggetti o collezioni possono essere selezionate per la conversione digitale al fine di testare i risultati, gli approcci o le metodologie e determinarne la fattibilità di su larga scala.

Strumenti per la ricercaStrmenti per la ricerca di ogni tipo sono candidati alla conversione digitale, specialmente quando i vantaggi della tecnologia digitale miglioreranno significativamente l’accesso alle raccolte a stampa o su microfilm. [Oltre a questo, altri supporti alla ricerca degli oggetti digitali quali: guide, indici e database, possono essere creati per le raccolte digitali.]

 

Interessante il documento proposta dalla Columbia University Selection Criteria For Digital Imaging che suddivide i propri principi sei categorie: 

1.      sviluppo delle raccolte, 

2.      valore aggiunto, 

3.      proprietà intellettuale, (copyright)

4.      conservazione

5.      fattibilità tecnica, 

6.      criteri di controllo (organizzazione e gestione intellettuale dei prodotti digitali).


L'Università della California nei suoi Selection Criteria for Digitization suddivide in due grandi categorie i suoi criteri:

1.       rispetto alle raccolte da trattare 
(sviluppo delle raccolte / conservazione e organizzazione)

2.       rispetto alle raccolte digitali prodotte
(sviluppo delle raccolte / conservazione / accesso  e organizzazione)

Infine i criteri della National Library of Canada Selection of Materials for Digitization riassunti  dalla tabella iniziale.
Nonostante la concisione, il documento è interessante soprattutto per il richiamo alla crescita sociale ed ai bisogni dell'utenza.
Consapevole dei compiti propri di un istituto centrale la Nazionale canadese stabilisce un criterio propedeutico a qualunque scelta di digitalizzazione: 

Before embarking on developing criteria for the selection of materials for digitization, the Task Force realized that it was necessary to take stock of current federal digitization activities.

Criterio pienamente condivisibile.

 

Versione italiana – La selezione dei materiali da digitalizzare

I progetti di digitalizzazione basati sulle raccolte e sul patrimonio di informazioni possedute a livello federale e sostenute da un finanziamento apposito dovrebbero:

  • sostenere l’educazione e l’apprendimento permanente
  • rinforzare una coscienza nazionale condivisa e (un diritto alla) cittadinanza informata
  • essere collegati alla crescita economica e alla creazione di (posti di) lavoro.

Le decisioni in merito alla selezione dei materiali per la digitalizzazione dovrebbero anche basarsi su un approccio simil-aziendale che:

  • identifichi l'utenza destinataria
  • capisca i bisogni e le aspettative degli utenti
  • identifichi risultati misurabili a dimostrazione dei benefici (della digitalizzazione)
  • comprenda un piano di promozione/commercializzazione
  • determini costi unitari
  • tenga in conto il lavoro necessario per chiarire le questione sul copyright per il materiale da digitalizzare

Per chi desidera approfondire questo argomento suggeriamo una serie di messaggi raccolti dal moderatore di lista, sotto il titolo DigLib Collection Development Policies è visibile sulla lista DigLib alla data del 22 Feb 2002.

Infine, il problema è trattato nella Guida alle buone pratiche di MINERVA (trad. italiana basata sulla ver 1.2, 2003) al capitolo Selezione (p.21), con rinvio a numerose altre fonti.

La scelta riguarda fin qui la selezione per la produzione, cosa diversa dalla scelta di fonti digitali native da proporre alla propria utenza. In quest'ultimo caso il problema si sposta sui criteri di valutazione, tema sul quale c'è un'ampia pubblicistica.
A titolo di sommario segnaliamo un esempio di criteri adottati da un istituto specializzato in Scienze della terra; si tratta di un esempio facilmente trasferibile in altri ambiti disciplinari. DLESE - How to Identify the Best Resources for the Reviewed Collection.

A parte i criteri ci sembrano interessanti sia la tabella proposta, sia il processo di valutazione sotto forma di flowchart in cui si evidenzia il ruolo affidato all'utente nel giudizio finale da esprimere.

 

La definizione del progetto

Un progetto si suddivide sostanzialmente nelle seguenti fasi:

1.       Selezione

2.       Pianificazione

3.       Produzione

4.       Pubblicazione

All'interno o oltre questi grossi blocchi operativi vi possono essere altre fasi o operazioni quali l'immagazzinamento, il test, l'aggiornamento.

Ne da conto con una dovizia di dettagli significativa la Checklist predisposta dalla Library of Congress per American Memory che suddivide in ben 9 fasi tutto l'iter.


Come fa notare la stessa LOC:

"Not every collection requires all of the steps listed; some collections require additional steps not listed".

E nel caso in cui si volesse tradurre su un GANNT l'intera procedura si tenga presente che:

"many of the operations are carried out in parallel and not sequentially".

Da notare, infine, che la sola fase II Plan the approach to digitization è di gran lunga la più complessa, suddivisa in due parti per un totale di ca. 30 passi da compiere.

 

Versione italiana – La lista di controllo della NDLP per la pianificazione di un progetto

II. Pianificare l'approccio alla digitalizzazione

  • A. Sviluppare metodologie e risorse per la preparazione e la digitalizzazione della raccolta.
    • 1. Sviluppare un piano per il trattamento richiesto.
    • 2. Sviluppare un piano per il trattamento di salvaguardia.
    • 3. Completare la valutazione delle condizioni fisiche dei documenti con suggerimenti.
    • 4. Definire i formati per la cattura, l'archiviazione e la presentazione
    • 5. Definire il formato fisico (numero dei caratteri, immagini) e gli speciali requisiti di produzione.
  • B. Definire i requisiti per il deposito.
    • 1. Determinare uno schema per l'assegnazione dei nomi dei file.
    • 2. Registrare un nome aggregato per la raccolta.
    • 3. Fare una stima dello spazio richiesto per l'immagazzinamento della collezione digitale.
    • 4. Aggiornare le previsioni per l'immagazzinamento.
    • 5. Valutare gli strumenti per la ricerca già disponibili ed i record bibliografici e sviluppare un piano per gli strumenti di accesso.
    • 6. Sviluppare un piano per la struttura [in cui si inseriranno gli oggetti digitali].
    • 7. Sviluppare un piano per le restrizioni e l'implementazione [dei file] (copyright, vincoli delle donazioni, pubblicità e riservatezza).

III. Produrre la collezione digitale e strumenti per l'accesso

  • C. Cattura dell'oggetto.
    • 1. Preparazione
      • a) preparare gli oggetti
      • b) preparare le istruzioni per la scansione, specifiche per la raccolta
    • 2. Catturare l'immagine.
      • a) scannerizzare la collezione
      • b) trattare le immagini scannerizzate
      • c) rivedere le immagini per la qualità
      • d) coordinare la ri-lavorazione
      • e) notificare all'appaltatore l'approvazione delle immagini [in caso di outsourcing]
    • 3. Archiviare le immagini in un deposito.
    • 4. Cattura del testo.
      • a) Preparare le istruzioni per la digitazione del testo specifiche per una raccolta o una serie
      • b) Marcatura e digitazione del testo
      • c) Revisionare il testo completo per la qualità
      • d) Coordinare la ri-lavorazione
      • e) Trattare il testo in una forma finale
    • 5. Archiviare il testo in un deposito.

 

  • D. Lo sviluppo degli strumenti per l'accesso
    • 1. Modifica degli strumenti di ricerca esistenti
      • a) sviluppare le istruzioni per la digitazione
      • b) fotocopiare e marcare gli strumenti di ricerca a stampa esistenti
      • c) coordinare la digitazione fuori sede
      • d) marcare secondo EAD Encoded Archival Description [standard deciso per la LOC]
      • e) revisionare gli strumenti di ricerca per accuratezza e completezza.
    • 2. Creazione di un nuovo strumento di ricerca
      • a) verificare il trattamento finale e l'ordinamento della raccolta
      • b) elaborare una bozza di strumento di ricerca
      • c) marcare secondo EAD
      • d) revisionare lo strumento di ricerca per accuratezza e completezza.

 

 

Della stessa Checklist è disponibile anche una sintesi di una paginetta.
Da questa versione riportiamo le semplici regole indicate per avviare il controllo di qualità.

Per avere un'idea della stima percentuale per le varie fasi di progetto si può fare riferimento ad un capitolo del già citato manuale Digitisation guidelines edito dal NCECHO; in questo caso le fasi elencate sono 8 e le due fasi preliminari Scelta e Organizzazione occupano già il 40% del progetto.

 

Versione italiana – Fasi di progetto e definizione temporale

In un progetto di digitalizzazione le tappe generalmente seguono gli “8 elementi comuni” sotto elencati, ma dettagliano i processi che si trovano all’interno di questi elementi. I tempi per la digitalizzazione delle collezioni saranno naturalmente determinati dagli scopi istituzionali dei vari progetti digitali, dal personale dell’istituzione, e dal budget disponibile. (...) Il quadro può aver bisogno di alcuni adattamenti a seconda degli obiettivi di ogni singola istituzione.
Va sottolineato che, solo perché un progetto è stato portato a compimento e montato sul web, non significa che il personale possa ignorare il prodotto digitale.
E’ a questo punto che inizia la cura relativa alla manutenzione del sito e della migrazione dei dati. Anche se i prodotti digitali si mantenessero da soli continuerebbero a coinvolgere il personale.
La maggior parte delle raccolte digitali ha come risultato l’aumento degli impegni connessi alle attività di reference delle istituzioni che le hanno create.

Come rilevano gli autori, una volta terminato il progetto e pubblicato sul Web, non lo si può abbandonare all'oblio:

It should be noted that just because a project has been completed and mounted on the Web, does not mean that staff may ignore the digital product. It is at this point that concerns regarding site maintenance and data migration begins.

Allo scopo di facilitare la preparazione di un progetto il settore Preservation Resource di OCLC mette a disposizione dei formulari scaricabili (in PDF) che si riferiscono sia a progetti di microfilmatura sia di scansione.
Rispetto alla digitalizzazione i materiali per cui sono offerti i formulari sono:

  • periodici,
  • volumi a stampa,
  • manoscritti,
  • ritagli sciolti (scrapbook),
  • fotografie.

 

La produzione 

I vari tipi di file ed il loro trattamento tramite scansione sono trattati nello Studio di fattibilità sulla BD sia nella sua prima versione (2001) ai capitoli 2.2.1 e sgg. sia al cap. 3.1.1.
Maggiori approfondimenti sono invece disponibili nell'Aggiornamento dello Studio (2002); in particolare richiamiamo i due capitoli 6 e 7 dedicati rispettivamente ai formati digitali ed ai connessi problemi di storage (immagazzinamento).

Una guida esauriente sui problemi tecnici della conversione è Guides to Quality in Visual Resource Imaging del 2000, predisposta dal RLG in collaborazione con la DLF. Suddivisa in 5 parti di autori diversi tratta tutte le tematiche tecniche tra cui un ampio capitolo dedicato alla scelta di uno scanner.
Segnaliamo, nello stesso capitolo (par 5.6) una tabella riguardante la relazione che intercorre tra qualità dell'immagine (della scansione) e tipo di documento trattato.

Sullo stesso argomento segnaliamo anche il capitoletto Selecting scanner dal manuale Introduction to Imaging: Issues in Constructing an Image Database edito dalla Getty Information Institute.
Nonostante l'età del manuale (quasi 10 anni) resta valido per una prima classificazione degli scanner e delle loro caratteristiche d'uso.

 

Versione italiana – Selezionare gli scanner

Il processo di scansione è un lavoro impegnativo e costoso e richiede un investimento significativo nei lavori di gestione del materiale e di scansione dei prodotti artistici o delle loro immagini surrogate. I materiali devono essere portati allo scanner, l’illuminazione sistemata, il materiale centrato, cambiato il fuoco delle lenti, eseguita la scansione, il materiale rimesso a posto e si deve produrre un’adeguata documentazione durante il processo. (...)
Immagini di qualità sufficiente (ad alta risoluzione e di conseguenza in file di dimensione molto ampia) dovrebbero essere catturate per permettere una larga gamma di usi. Comunque, le risorse richieste per fornire immagini di alta qualità on-line sono di solito al di sopra dei mezzi finanziari e tecnici della maggior parte delle istituzioni. Una strategia è catturare una immagine ad una qualità veramente alta e mantenerla come immagine d’archivio, immagazzinandola off-line su strumenti più economici quali il nastro magnetico o il CD-ROM [ora sconsigliato; lo scritto è del 1995 (Ndr)]. Tecniche come la compressione con perdita di dati o la riduzione di immagine (subsampling) possono quindi essere usate per produrre una immagine più piccola da mantenere on-line. Col tempo, sviluppandosi la capacità di rendere disponibili immagini di qualità superiore, sarà possibile ritornare al file archiviato e creare una immagine di qualità superiore da mettere on-line senza i costi di una nuova acquisizione. Questo metodo aiuterebbe a rendere a prova di futuro l’investimento iniziale nell’acquisizione delle immagini.

I progetti che catturano immagini di alta qualità usando una macchina fotografica digitale sono di solito rari; questa sezione riguarda la cattura dell’immagine da un surrogato fotografico. La scansione richiede sia un dispositivo hardware, cioè uno scanner, sia un software che controlli parte del processo di scansione. Spesso le due cose si trovano in uno stesso pacchetto. Il software viene usato per un certo numero di finalità, che comprendono il controllo dell’esposizione, l’aggiustamento della risoluzione, l’inquadratura dell’immagine e l’immagazzinamento del file d’immagine in un formato adeguato.

La scansione può essere fatta in proprio o appaltata fuori. L’efficacia economica dipende dal volume e dal tipo dei materiali da trattare e questo cambia rapidamente con le condizioni del mercato. Il tipo di scanner scelto per un progetto sarà influenzato dal fatto che la cattura avvenga da originale o da riproduzione fotografica. Preoccupazioni sulla salvaguardia possono influenzare la scelta di un metodo che usi una copia intermediaria fotografica. Molti scanner possono gestire solo materiale trasparente, altri scanner possono gestire solo materiale riflettente. La maggior parte degli scanner non possono gestire materiali oltre determinati formati. Alcuni scanner richiedono un materiale bidimensionale o materiale abbastanza flessibile da potersi arrotolare intorno a un largo rullo. Prima che sia scelto uno scanner o un servizio di scansione, si dovrebbero esaminare la natura e le caratteristiche del materiale per definire tutte le possibili limitazioni.

Ci sono 5 tipi generali di scanner: a planetario, piano, a rullo, per slide, e digitalizzatori video (cattura-fotogrammi). Ogni scanner ha i suoi punti di forza e di debolezza.

(immagine) Gli scanner a planetario assomigliano ai planetari per la microfilmatura; una macchina fotografica digitale è usata al posto di una macchina fotografica a pellicola normale. Il materiale sorgente è posto sul piano e la macchina fotografica viene alzata o abbassata per far collimare il materiale all’interno del suo campo di ripresa. Questo permette la scansione di originali di varie dimensioni.

(Immagine) Negli scanner a rullo il materiale sorgente è posizionato su un tamburo che poi viene fatto ruotare sotto una fonte luminosa ad alta intensità che cattura l’immagine. Gli scanner a rullo tendono ad offrire la più alta qualità di immagine, ma richiedono un materiale sorgente flessibile di misure limitate che possano essere arrotolati attorno al rullo.

(Immagine) Gli scanner piani assomigliano a delle macchine fotocopiatrici; il materiale sorgente è sistemato piano sul vetro e catturato dalle componenti ottiche (CCD arrays) che vi passano sotto. Gli scanner piani richiedono un materiale sorgente che non sia più largo del vetro e che giaccia con il verso in giù e piatto.

(Immagine) Gli scanner per diapositiva assomigliano a piccole scatole con una fessura sul lato grande abbastanza per inserirvi una diapositiva di 35mm. Dentro la scatola, la luce passa attraverso la diapositiva per colpire un dispositivo ottivo (CCD array) dietro la diapositiva. Gli scanner per diapositiva possono generalmente scannerizzare solo i materiali sorgenti trasparenti delle dimensioni di 35mm.

Gli scanner che digitalizzano i video (cattura-fotogrammi) sono schede inserite dentro un computer, connessi ad una videocamera standard. Tutto quello che può essere ripreso da una videocamera può essere digitalizzato, includendo gli oggetti tridimensionali e i film. Gli scanner cattura video-fotogrammi offrono la scansione più veloce (1/30 di secondo) ma sono limitati dalla qualità dell’immagine video. (...)

Una volta ristretto il campo dei tipi di scanner, deve essere fatta una scelta tra le caratteristiche e le capacità dei vari modelli, prestando attenzione a caratteristiche quali la risoluzione massima possibile e la gamma dinamica. Altre caratteristiche da considerare quando si sceglie uno scanner includono le funzioni di anteprima quali il ritaglio dei margini, la centratura dell’immagine, l’individuazione automatica dei  bordi e l’esposizione automatica. Una supervisione manuale per ogni funzione automatica è essenziale perché la macchina potrà occasionalmente valutare male le caratteristiche del materiale. Sono desiderabili anche gli aggiustamenti post-scansione (come il ritaglio, l’aggiustamento di luminosità, il contrasto, ombre, etc.); e il trattamento di una parte o dell’intera immagine (come la possibilità di eliminare difetti di sfondo, ammettere la correzione del colore, e la possibilità di unire testo e immagini da differenti scanner). (...)

Il software di scansione dovrebbe essere scelto sulla base delle sue funzionalità, che includono l’abilità di salvare un file di immagine in una varietà di formati di immagazzinamento standard (che includono TIFF, GIF, JFIF, SPIFF, PICT, TGA, EPS, CGM, e Photoshop) usando una gamma di schemi di compressione differenti (come il JPEG, JBIG, LZW e Quicktime). Questa abilità fornirà la più ampia gamma di opzioni di consegna delle immagini. Il software dovrebbe anche rendere possibile l’importazione di file che possono essere stati creati con altri scanner, immagazzinati in vari formati standard e compressi secondo una varietà di differenti schemi. Utili anche gli strumenti che convertono i file di immagine da un formato ad un altro.

Resta sempre di grande interesse il documento predisposto nel 1996 dalla Library of Congress Recommendations for the Evaluation of Digital Images Produced from Photographic, Microphotographic, and Various Paper Formats scaricabile in PDF (884 K)

Il tutorial Moving theory into practice della Cornell University tratta la materia nel capitolo Conversion, in cui, dall'ultimo paragrafo rimanda ad una tabella comparativa molto interessante: vi si confrontano le soluzioni adottate in vari progetti. La tabella riguarda  materiale a stampa, immagini, grandi formati e manoscritti. In calce alla tabella si trova il rinvio a varie esperienze e metodi di lavoro, tra cui gli esempi della Vaticana (studio IBM) e del Centro di digitalizzazione tedesco (Gottinga).

Per avere una serie di indicazioni per calcolare la dimensione delle immagini suggeriamo il cap. Planning an Imaging Project di  Linda Serenson Colet al paragrafo 2.4. Sono indicazioni da prendere in conto considerando l'evoluzione intervenuta nel frattempo nella produzione di scanner, schermi e stampanti.

Materiali diversi necessitano di differenti soluzioni di scansione. ne parla sinteticamente la Quick Guide del manuale Technical Recommendations for Digital Imaging Projects della Columbia University.

Dal manuale del Getty Information Institute Introduction to Imaging: Issues in Constructing an Image Database, segnaliamo le  voci: Risoluzione e Compressione.

 

Versione italiana

La risoluzione

Il numero dei pixel in una data area definisce la risoluzione di una immagine. La risoluzione è una misura della nitidezza, o del dettaglio, e può riferirsi sia ad un file di immagine sia ad un dispositivo, come il monitor, utilizzato per visualizzarla. La risoluzione dell’immagine-file è spesso espressa come una relazione tra grandezze, come 1000x2000; una relazione similare, 640x800, per esempio, è usata per caratterizzare gli schermi dei monitor. La risoluzione di stampa è più comunemente espressa in termini di punti per pollice (dots per inch, dpi). La risoluzione dell’immagine-file e la risoluzione di uscita (output di stampa o di visualizzazione) si combinano per influenzare la nitidezza di un’immagine digitale quando questa viene visualizzata.

[Segue una serie di immagini esemplificative] per mostrare l’incidenza dei diversi livelli di risoluzione sull’aspetto di un’immagine digitale e sulle dimensioni del file d’immagine stesso. Sono state estratte dalla scansione originale e sono mostrate ingrandite per poterle paragonare. La nitidezza della definizione sarà influenzata dal monitor sul quale queste immagini sono mostrate.
[gli esempi sono da 600 / 300 / 150 / 60 / 30 dpi]

La compressione

La compressione dell’immagine è il processo di riduzione della dimensione dei file di immagini attraverso metodi quali l’abbreviazione delle informazioni ripetute o l’eliminazione delle informazioni che sono  difficilmente leggibili dall’occhio umano. Una immagine decompressa e vista dopo la compressione senza perdita di informazioni (lossless compression) sarà identica allo stato precedente la sua compressione. La serie di immagini [di esempio] illustra gli effetti relativi della compressione con e senza perdita di informazioni sulla qualità dell’immagine digitale (le dimensioni del file citate sono quelle dei file originali, non dei GIF mostrati).

(...)
Una immagine decompressa e vista dopo una compressione con perdita di informazioni differirà dal suo stato precedente la compressione perché alcune informazioni saranno state eliminate.

(...)
I formati di compressione usati comunemente comprendono CCITT Group III o Group IV (usati dalla maggior parte dei fax), JPEG, JEBIG  e LZW.Subsampling, che, per esempio, eliminando sistematicamente ogni secondo, terzo o ennesimo pixel sia in larghezza sia altezza, possono anche ridurre le dimensioni dell’immagine. Tutti questi metodi, eccetto la compressione senza perdita, danno luogo a qualche perdita di dati e quindi di qualità.

Non tutte le immagini rispondono alla compressione nella stessa maniera. Quando una immagine viene compressa, particolari tipi di caratteristiche visive, come le variazioni tonali sottili, possono produrre alterazioni o effetti visivi non voluti. Altri tipi di immagini, come le pagine di un testo, si comprimono con una minima perdita. Alcuni schemi di compressione, come il JPEG, permettono agli utenti di definire un particolare livello di perdita. Attraverso test accurati si può ottenere un bilanciamento tra la qualità visiva e le dimensioni del file.

(...)
La compressione senza perdita di solito riduce lo spazio di immagazzinamento di circa il 50%. Si possono ottenere risparmi di spazio di archiviazione significativamente più grandi se si è intenzionati a compromettere in parte la qualità usando la compressione con perdita di dati.
La scelta del formato di compressione dovrebbe essere presa in considerazione se il software o l’hardware per decomprimere l’immagine è disponibile laddove le immagini saranno utilizzate.

 

Un problema oggetto di studio e di ricerca continua è quello della protezione del digitale grazie a tecniche di marcatura tramite "filigrana elettronica" (Watermarking). Il sito che segnaliamo Web / Multimedia / Digital Watermarks - WebReference.com  costituisce una pagina di riferimento a risorse sull'argomento; comprende link sia a sw commerciali sia a contributi scientifici.
Vi proponiamo da questa pagina una definizione del watermarking.

 

Metadati

Un'ampia parte dello Studio di fattibilità sulla BD è dedicata alla problematica dei metadati, rispettivamente al cap. 3.1.3 della prima parte e al cap. 1.6.1.2 della seconda sezione. La situazione è aggiornata al 2000.
Infine nell'aggiornamento al 2003 l'intero cap.5 parla dei metadati.

Non è semplice fissare la questione dei metadati considerato che essa si basa su standard  in continua evoluzione e sperimentazione. Questo manuale non pretende quindi di dare tutte le risposte, ma di suggerire il maggior numero di "precauzioni" necessarie in un progetto di digitalizzazione. La complessità del tema, dunque, ha imposto una trattazione più articolata e più ampia.

 

Cosa sono i metadati

Un recente articolo si chiede se non sia arrivato il tempo per una moratoria sui metadati Negli ultimi dieci abbiamo avuto una produzione davvero rilevante di standard relativi ai metadati (con convegni, discussioni su riviste professionali ecc.). Nello stesso periodo l'uso dei metadati per la creazione di strumenti di accesso e di gestione dell'informazione non è stato invece molto significativo: un metaparadosso?  

Tutti in genere concordano con l'affermazione che i metadati sono dati usati per descrivere altri dati: si dice - ad esempio - che il record bibliografico ha la funzione di metadato nei confronti del libro (il dato)

Questa parte del manuale si occupa dei metadati in quanto realmente usati nei progetti di digitalizzazione. Per i metadati in generale, potrà essere utile rinviare a Riccardo Ridi,  Metadata e metatag: l'indicizzatore a metà strada fra l'autore e il lettore (1999): 

  • «Metadata (o metadati, a seconda dei gusti): niente di nuovo sotto il sole, ovvero vino vecchio in botti nuove o catalogare sotto un altro nome, come a più riprese hanno fatto notare in pubblicazioni, corsi e convegni numerosi specialisti... »
  • «il termine metadata è attualmente utilizzato in letteratura quasi esclusivamente con riferimento al contesto dell'informazione elettronica in rete».

 

Quello che cambia nel mondo digitale è infatti la dipendenza tra il dato (la risorsa) e i relativi metadati: nel mondo digitale infatti l'esistenza stessa di una risorsa dipende dai metadati. La risorsa digitale - ad esempio questa pagina html - non è altro che un inseme di bit, ma questi possono veicolare contenuti solo se sono sempre accompagnati da una chiave che li rende comprensibili da un eleboratore oltre che da un essere umano -- è la codifica in html che permette al browser di visualizzare questo testo

Inoltre molti usano oggi il termine metadati con un significato esteso (non limitato cioè alle risorse digitali):

  • «In questo testo si farà uso di una definizione del tutto liberale. Metadati è qui usato per riferirsi a qualsiasi informazione strutturata su risorse informative (che possono presentarsi su qualsiasi supporto e in qualsiasi formato. In questo contesto non è rilevante che le informazioni strutturate siano elettroniche, oppure che le risorse informative siano reperibili o meno in rete»[Caplan, Priscilla. Metadata fundamentals for all librarians. Chicago: American library association, 2003, p. 2-3]

 

Tipologie di metadati

  I metadati possono essere distinti in due grandi categorie:

  • metadati finalizzati al recupero della risorsa (metadati descrittivi);
  • metadati necessari alla gestione della risorsa (metadati gestionali).

  Per riprendere l'esempio del libro potremmo dire che il record bibliografico può contenere oltre a informazioni bibliografiche propriamente dette (metadati descrittivi) anche informazioni (metadati) di tipo gestionale: per esempio l'inventario, la collocazione o lo stato di conservazione di un determinato esemplare.

  Nel mondo dei metadati la terminologia si sta ancora consolidando e in letteratura si possono trovare distinzioni più articolate tra le varie tipologie di metadati come ad esempio:

  • metadati descrittivi, strutturali e ammininistrativi: distinzione proposta dalla Library of Congress con METS 
  • metadati amministrativi, descrittivi, per la conservazione, tecnici, per l'utilizzo (use) è invece una distinzione proposta da Anne Gilliland-Swetland in Introduction to Metadata: pathways to digital information (2000, 2. edizione) 

   Le varie proposte sembrano concordare su: 

  • può essere utile distinguere i metadati su base funzionale: a che cosa serve questo determinato metadato? 
  • uno stesso metadato può rientrare in categorie diverse (per esempio il fatto che un file sia in formato pdf è un metadato utile sia alla conservazione che all'amministrazione

A ben vedere i metadati sono strumenti che assolvono determinate funzioni. Potranno quindi esserci tante categorie di metadati quante sono le funzionalità che una determinata tipologia di metadati è in grado di garantire. In altre parole l'elenco delle tipologie è aperto (può sempre nascere l'esigenza di nuove e specifiche funzionalità)

I metadati descrittivi

I metadati descrittivi hanno come obiettivo il recupero e l'identificazione della risorsa. 

La proposta Dublin Core è in questo campo quella più conosciuta: «rendere più facile il ritrovamento dell'informazione» è il motto in evidenza nella Home Page della Dublin Core Metata Initiative 

Il set dei 15 elementi DC si possono trovare in versione italiana: Dublin Core Metadata Element Set, versione 1.1: traduzione italiana a cura dell'ICCU. 

Lo stato dell'arte aggiornato si può trovare in DC-2004

In estrema sintesi si può dire che Dublin Core

·        nasce - 1995 - per l'autocatalogazione delle risorse pubblicate su internet da parte degli stessi/autori e produttori, ma viene scarsamente usato a questo proposito. Su questo tema è fondamentale Who will create metadata for the internet di Charles F. Thomas e Linda S.Griffin - 1998; 

·        sta raccogliendo sempre più consensi come standard che facilità l'interoperabilità tra domini (musei, archivi e biblioteche -- ma non solo) in quanto minimo comune denominatore. Un lavoro molto citato è A Grammar of Dublin Core di Thomas Baker - 2000. 

Quello che si può affermare con sicurezza è che Dublin Core non intende sostituire gli standard descrittivi (o di resource discovery) specialistici che provengono da vari domini o comunità: (es ISBD per le biblioteche, ISAD per gli archivi ecc.). Dublin Core è interessato alla ricerca attraverso i vari domini che - con standard differenti - pubblicano risorse informative (metadati) in rete. 

MARC e Dublin Core

Ecco la risposta di Rebecca S. Guenther a una bibliotecaria della American University of Beirut che chiedeva: «In futuro Dublin Core sostituirà il MARC?».
(Risposta pubblicata il 23-10-2001 nella mailing list DC-LIBRARIES@JISCMAIL.AC.UK)

 

Cara Signora Medawar,
Il suo messaggio mi è stato inoltrato. Sono esperta in standard bibliografici e mi occupo sia di MARC che di Dublin Core. Coordino anche Gruppo di lavoro DC-Libraries (Dublin Core per le bibliotehce) Non conosco esattamente quale è l'uso che voi fate dei record bibliografici (numero di elementi e livello di spcificità richiesti), ma posso ragionevolmente pensare che i vostri record siano molto vicini al MARC visto che vi trovate in una una biblioteca universitaria.

No, noi non ci aspettiamo che Dublin Core possa sostituire MARC. Le finalità sono davvero differenti e DC non ha le stesse funzionalità del MARC visto che non gestisce tutta la complessità di un insieme di elementi MARC. La scelta tra MARC e DC dipenderà dall'uso che farete dei dati bibliografici

L'insieme elementi Dublin Core è pensata come un minino comune denominatore tra i diversi schemi di metadati (il MARC è uno di questi). E' un linguaggio semplice che altri linguaggi più complessi possono usare per comunicare reciprocamente a un livello veramente generale. Usare il Dublin Core significa guadagnare molto in semplicità e perdere molto in specificità. In un ambiente bibliotecario, per soddisfare ricerche complesse è necessario uno schema di metadati più complesso

Per esempio, Dublin Core prevede 3 elementi per i responsabili associati ad una risorsa: Creator, Contributor e Publisher. DC non prevede regole per la formulazione di questi elementi, pertanto non è possibile sapere

·       come quel nome sia stato espresso: in ordine inverso (cognome, nome) o diretto (nome cognome);

·       se si tratta di una persona oppure di un ente il ruolo che la persona/ente ha avuto per quella risorsa. se vi sono elementi aggiunti al nome (qualificazioni) per permettere la distinzione tra omonimi

D'altro canto, il MARC permette di indicare attraverso l'uso di una determinata codifica

·       se si tatta di un nome di persona o di un ente ,

·       il ruolo che la persona/ente ha avuto per quella risorsa

·       la forma controllata di un determinato nome (attraverso il confronto con gli authority files)

·       campi separati per fornire ulteriori informazioni sul nome, etc.

Questo permette precisione nella ricerca e nella identificazione dei documenti - attraveso l'uso dei sistemi informatici per la gestione delle biblioteche

C'è un enorme investimento sul MARC a livello mondiale, con molti milioni di record bibliografici (ma anche di record di autorità e di record relativi al posseduto che contribuiscono alla ricchezza dei dati). E' l'insieme di metadati più affermato ed usato per i dati bibliografici. Il MARC definisce sia una sintassi che un insieme di elementi con le relative definizioni. Si possono prevedere cambiamenti per quanto riguarda la sintassi, ma ma è improbabile che l'intero insieme elementi MARC possa essere sostituito. Dublin Core è solo un insieme di elementi senza alcuna regola per la loro formulazione.

Sarò felice di rispondere ad ogni altra domanda che vorra' pormi.

Rebecca S. Guenther
Senior Networking and Standards Specialist - Network Development and MARC Standards Office - Library of Congress

Per approfondire il rapporto MARC-Dublin Core è fondamentale la lettura di Metadati o catalogazione di Michael Gorman (tradotto in italiano da Stefano Gambari e Mauro Guerrini) e - sempre dello stesso Gorman - di From card catalogues to WebPACS

Progetto di digitalizzazione e oggetto della catalogazione 

Un progetto di digitalizzazione può avere differenti obiettivi. Semplificando molto potremmo avere: 

·        la digitalizzazione come valorizzazione dell'oggetto analogico (un libro, un manoscritto, un disco). Qui per valorizzazione si intende la predisposizione di altre (e non sostitutive) modalità di fruizione dell'oggetto analogico. [Per il rapporto tra digitalizzazione e conservazione si veda il Capitolo 6 di questo manuale] Si tratta dell'uso della digitalizzazione con obiettivi analoghi a quello della microfilmatura. Per esempio la digitalizzazione della rivista Il ponte 

·        la digitalizzazione come riedizione dell'oggetto analogico. Prendendo un esempio da Liber Liber si può facilmente rilevare che le funzionalità offerte dalla edizione elettronica del 2002 dei Promessi sposi sono davvero diverse di quelle dell'edizione analogica di riferimento del 1995 

Alla domanda Quale standard dovrò usare per la descrizione dell'oggetto digitale? si può ragionevolmente rispondere che: 

·        nel primo caso è sufficiente segnalare nel proprio Catalogo (OPAC) nella descrizione bibliografica dell'edizione originale che - ad esempio - il periodico è accessibile come copia digitale : si ritiene infatti che al pari dei microfilm in questo caso la copia digitale non sia ricercabile come edizione originale: l'utente è semplicemente interessato al periodico su carta e potrebbe trovare in molti casi utile l'accesso alla copia digitale

·        nel secondo caso è abbastanza evidente che si tratta di due edizioni diverse che come tali vanno offerte alla ricerca dell'utente 

Edizione e born again digital. UNIMARC: etichette 856 e 956

Tornando al caso della digitalizzazione come valorizzazione dell'oggetto analogico (chiamato anche rinato digitale o born again digital : si discute se la copia digitale prodotta nelcorso di un progetto di digitalizzazione e disponibile in rete sia da considerarsi come pubblicata e quindi descrivibile autonomamente come edizione

ISBD(ER) recita infatti al punto 4. che «In the context of applying the ISBD(ER), all remote access electronic resources are considered to be published». 

Una spia del problema può essere vista nelle scelte descrittive di Gallica per la descrizione copia digitale del 1995 dell'edizione del 1914 di Du côté de chez Swann di Marcel Proust 

In UNIMARC come è noto, l'etichetta 856 ospita il puntamento all'oggetto digitale (in genere URL). 

 

Tuttavia UNIMARC prevede che l'etichetta 856 si riferisca esclusivamente alla localizzazione (ELECTRONIC LOCATION AND ACCESS) della edizione descritta. In pratica non si dovrebbe usare l'etichetta 856 per quello che abbiamo chiamato la copia digitale 

Se si guarda a MARC21 si vede invece che l'etichetta 856 prevede anche il caso della copia digitale: con il valore del secondo indicatore si può precisare «that the location in field 856 is for an electronic version of the resource described by the record. In this case, the item represented by the bibliographic record is not electronic but an electronic version is available» 

Con 856 di UNIMARC non è quindi possibile puntare a una versione della risorsa ma solo alla risorsa originale. 

Risorse digitali

Come si diceva - oltre ai metadati descrittivi - nel mondo digitale sono particolarmente importanti i metadati necessari alla gestione della risorsa (metadati gestionali) 

Una definizione molto generale (e molto citata) di risorsa è quella che segue: 

A resource can be anything that has identity. Familiar examples include an electronic document, an image, a service (e.g., "today's weather report for Los Angeles"), and a collection of other resources. Not all resources are network "retrievable"; e.g., human beings, corporations, and bound books in a library can also be considered resources.

Come si diceva la risorsa digitale non è altro che un'insieme di bit. Citiamo - questa volta da una edizione a stampa (Il mondo digitale. Introduzione ai nuovi media di Fabio Ciotti, Gino Roncaglia.  Roma [ecc.], Laterza, 2000, p. 348)

Informazioni di tipo diverso possono essere tutte ridotte allo stesso codice di base, alle lunghe catene di 0 e di 1 dell'informazione digitalizzata. Questa, che potremmo chiamare convergenza di codifica, diventa anche una vera e propria convergenza tecnologica nel momento in cui il computer si propone come strumento in grado di gestire efficacemente grosse quantità di informazioni in formato digitale; ecco allora che al posto di strumenti basati su tecnologie totalmente diverse (macchina tipografica, televisore, radio, telefono, macchina da presa, proiettore cinematografico, macchina fotografica...) compaiono strumenti certo spesso diversi per funzioni e interfaccia, ma il cui "cuore" è costituito da un microchip e la cui funzione è quella di acquisire, manipolare e distribuire informazione in formato digitale.

Si tratta di lunghe catene di 0 e 1 disposte in un certo modo o codificate

 

Il modello OAIS

Per un punto di vista funzionale sui metadati gestionali occorre riferirsi a un modello di archivio. Il modello OAIS (attenzione non OAI) sta raccogliendo sempre più consensi e merita di essere visto più da vicino.

Una delle raccolte più complete di informazioni sul modello OAIS si può trovare sul sito web RLG

Un modello di archiviazione ci consente di capire 

  • quali servizi deve fornire un determinato archivio 
  • quando si può dire che un archivio ha raggiunto il suo scopo 

Il termine archivio in questo contesto sta per «un'organizzazione di soggetti e sistemi che hanno accettato la responsabilità di conservare l'informazione e di mantenerla disponibile per la comunità di riferimento» 

Una presentazione molto chiara in lingua italiana del modello OAIS è quella di Gloria Cirocchi al Seminario nazionale sui metadati, ICCU, 3 aprile 2001.
Può essere inoltre utile fare riferimento a Open Archival Information System Reference Model: Introductory Guide di Brian F. Lavoie del 2004. [Versione italiana]

Il modello OAIS vede la risorsa digitale (Content information nella terminologia OAIS) come inseparabilmente composta da: 

  • A.1 Content data object che consiste in una sequenza (stream) di bit o in un set di sequenze di bit 
  • e da A.2 Representation information (metadati che traducono il Content data object in conoscenza accessibile - per esempio processabile da un computer - e dotata di significato - per esempio comprensibile ad un essere umano). Come esempio di Representation information si può pensare alla codifica di un documento eseguita tramite il ben noto programma Microsoft Word

Il modello OAIS individua inoltre altre tipologie di metadati che, a differenza della Representation information, sono logicamente esterni alla risorsa digitale: 

  • B. Descriptive information: i famosi metadati descrittivi 
  • C. Packaging information: danno informazioni relative al tipo di rapporto tra risorsa e supporti che la veicolano (per esempio in che server in che directory ecc. si trova quel determianto file); 
  • D. Preservation description information: veicolano informazioni che hanno come obiettivo primario la conservazione nel tempo della risorsa 

L'insieme logico composto da A + B + C+ D forma l'Information Object

Occorre notare infine che:

  • la preoccupazione principale del modello è la conservazione nel lungo periodo (vista la ben nota fragilità del digitale) e che quindi 
  • il modello non da evidenza diretta ad altre tipologie di metadati come quelli relativi ai diritti di proprietà, alle autorizzazioni di accesso ecc.)
  • per applicare il modello OAIS non occorre fare ricorso a software e/o hardware specifici: si tratta appunto di un modello, non di una particolare tecnologia

 

Risorsa digitale e supporto

Può essere significativo ricordare brevemente come la legislazione italiana abbia - in questi ultimi anni - preso in considerazione le risorse digitali (o documenti informatici)

E' interessante rilevare la contraddittorietà tra due differenti definizioni di documento informatico:

  • La prima identifica - erroneamente - il supporto informatico con il documento:

"per documento informatico si intende qualunque supporto informatico contenente dati o informazioni aventi efficacia probatoria o programmi specificamente destinati ad elaborarli" [Articolo 491-bis del codice penale, introdotto dalla legge 23 dicembre 1993, n. 547]

  • La seconda - più correttamente - rende indipendente il documento informatico dal suo supporto e lo definisce come

"la rappresentazione informatica di atti, fatti o dati giuridicamente rilevanti "[DPR 10 novembre 1997, n. 513]

La rappresentazione informatica "come ormai tutti sanno, è una sequenza di bit, che, elaborata da un sistema informatico, può essere resa visibile su uno schermo, stampata sulla carta o inviata a distanza".

Si tratta di "un cambiamento radicale nella concezione e nell'uso del documento, così come lo conosciamo da migliaia di anni, nella sua natura di res signata, cioè di una cosa che riporta dei segni, delle informazioni. "

Più in generale il documento digitale non dipende quindi necessariamente da un supporto ma assume "una funzione autonoma rispetto alla sua (eventuale) fissazione su un supporto materiale ".

Più in generale abbiamo visto come il modello OAIS definisca la risorsa digitale come un insieme logico e non separabile di dati e relativi metadati.

Nota: le citazioni di questa pagina sono tratte dall'interessante lavoro di Manlio Cammarata e Enrico Maccarone La natura del documento informatico

 

Metadati gestionali in biblioteca

L'informazione digitale si è resa indipendente dal supporto ma come abbiamo visto è strutturalmente dipendente dai metadati che la rappresentano: una sequenza (stream) di bit è inutilizzabile senza metadati in grado di trasformarla in risorsa

Il modello OAIS può così contribuire a mettere meglio a fuoco l'oggetto della catalogazione. In particolare la distinzione che ISBD(ER) propone tra risorsa ad accesso locale e risorsa ad accesso remoto appare ancora come dipendente da considerazioni relative al supporto della risorsa stessa e può dar luogo ad equivoci: ad esempio repertori bibliografici su CD ROM (risorse ad accesso locale) sono disponibili in rete in molte biblioteche (in questo modo diventano risorse ad accesso remoto). Analoghi problemi sono posti dalla distinzione tra risorse online e offline.

Gli standard di catalogazione mettono ancora troppa enfasi nella descrizione analitica del supporto della risorsa. In realtà è l'Information object che occorre prendere in considerazione: a questo accede l'utente in biblioteca e su questo oggetto occorre investire per la conservazione nel lungo periodo. Il supporto fisico - come abbiamo visto - non è parte essenziale e costitutiva della risorsa digitale

Si può verificare il caso - non tanto raro - che una determinata risorsa sia fruibile solo a partire da un determinato supporto. Vengono cioè messi in atto meccanismi che limitano o che impediscono la possibilità di copiare, eseguire ecc. i file. In questo caso la risorsa sarebbe indipendente da supporto, ma - di solito per proteggere i diritti di proprietà intellettuale - l'editore ricorre a particolari funzionalità che impediscono che la risorsa sia fruita indipendentemente dal supporto di origine. La recente legge sul deposito legale (che estende il deposito legale ai "documenti diffusi su supporto informatico" e ai "documenti diffusi tramite rete informatica") prevede un bilanciamento tra le esigenze di accesso e le esigenze di protezione dei diritti d'autore. Sulla base di questo le biblioteche depositarie si dovranno attivare per assicurare in questo come in tutti gli altri casi che l'informazione archiviata non sia legata al supporto

Più in generale spesso le risorse hanno una Representation information non aperta o - come si dice - di tipo proprietario. Questo pone serie ipoteche sulla loro fruibilità futura quando per le mutate condizioni tecnologiche non sarà più a disposizione un hardware e software appropriato. Ma questo significa anche che le biblioteche possono dichiarare di possedere una risorsa solo se possiedono sia il Content data object che la Representation information. A questo fine è poco rilevante che la risorsa sia offline o online.

Rinvio alle pagine del servizio PADI per tutte le problematiche di conservazione nel lungo periodo delle risorse digitali

 

Metadati e progetti di digitalizzazione

In questi ultimi anni le biblioteche e molte altre "istituzioni della memoria" hanno dato vita a rilevanti - almeno dal punto di vista degli investimenti economici - progetti di digitalizzazione

In generale gli obiettivi di un progetto di digitalizzazione possono essere così riassunti:

  • promuovere un nuovo utilizzo da parte degli studiosi mediante la diffusione su larga scala di collezioni locali o uniche;
  • migliorare l'uso dei documenti attraverso tecniche di manipolazione dell'immagine (per esempio per aumentare la leggibilità di testi macchiati, rovinati ecc.);
  • creazione di collezioni virtuali attraverso l'integrazione di vari formati o di materiali distribuiti in luoghi diversi;
  • limitare la consultazione diretta di documenti originali in particolari condizioni di criticità;
  • facilitare l'accesso a materiale di difficile fruizione (per esempio carte geografiche di notevoli dimensioni).

Molti progetti di digitalizzazione ancora oggi non si pongono il problema dei metadati gestionali. In un progetto di digitalizzazione si producono normalmente molti file: questi vanno archiviati, conservati, resi disponibili alle applicazioni attuali e a quelle future. Le soluzioni artigianali sono ampiamente insufficienti: ad esempio - nel caso della digitalizzazione di un libro - metadati inseriti nel nome del file (pagina1.tif, pagina2.tif ecc.) o nell'organizzazione in directory (che prendono il nome dal titolo oppure dal numero d'inventario ecc.).

Oltre ai metadati strutturali (in grado di rendere conto della struttura dell'oggetto digitalizzato) un progetto di digitalizzazione dovrebbe farsi carico della raccolta - in un formato standard - di tutti quei metadati che renderanno possibile l'archiviazione, la conservazione e la fruizione.

Tra le proposte di standard per questi metadati è da segnalare il lavoro della Library of Congress noto con l'acronimo METS. Lo standard METS - Metadata Encoding & Transmission Standard - è basato sul modello OAIS e fa uso della sintassi XML per i metadati gestionali. Si tratta di uno Schema XML per la "codifica dei metadati descrittivi, amministrativi e strutturali relativi a oggetti che fanno parte di una biblioteca digitale".

MAG

Tenendo conto dello standard emergente METS, la riflessione italiana del Gruppo di studio sugli standard e le applicazioni di metadati nei beni culturali e della Biblioteca Nazionale Centrale di Firenze è orientata verso un Application profile in grado guidare la raccolta di metadati durante il processo di digitalizzazione

Con l'acronimo MAG - Metadati Amministrativi e Gestionali - viene proposto uno Schema XML che ha appunto l'obiettivo "di dare le specifiche formali per la fase di raccolta e di trasferimento dei metadati e dei dati digitali nei rispettivi archivi" . La raccolta di questi metadati può essere quasi interamente automatizzata, ma va prevista in fase di acquisizione degli oggetti digitali. Inoltre dato che per l'attività di digitalizzazione le istituzioni ricorrono sempre più a servizi esterni (outsourcing), le specifiche riguardanti i metadati gestionali da raccogliere dovrebbero essere indicate nei capitolati di gara al pari - ad esempio - delle specifiche per la risoluzione delle immagini

L'ultima versione con esempi di MAG può essere trovata sul sito web della Biblioteca Nazionale Centrale di Firenze e sul sito web dell'Istituto centrale per il catalogo unico

Lo schema si compone di sei sezioni:

  • GEN: metadati generali sul progetto di digitalizzazione
  • BIB: metadati descrittivi generalmente importati dal sistema di catalogazione in uso
  • IMG: metadati tecnici sui file digitali (digitalizzazione in formato immagine di materiale nato in forma digitale: p. es. libro a stampa)
  • OCR: metadati tecnici sul riconoscimento ottico (OCR) del testo
  • STRU: metadati relativi alla struttura del testo digitalizzato(per esempio capitoli)

DOC: metadati tecnici sui file digitali ("nati" digitali: p. es. un file html

 

Ancora su MAG

Come si diceva MAG è un application profile ovvero un insieme definito di elementi pensato per una particolare applicazione.

MAG per quanto possibile cerca di fare uso di elementi tratti da schemi definiti e riconosciuti a livello nazionale o internazionale.
Ad esempio per i metadati tecnici relativi alle immagini MAG fa uso dello standard definito da NISO (ecco perché alcuni metadati nell'esempio precedente avevano il prefisso "niso:"). Solo dove non siano reperibili definizioni già consolidate MAG propone un proprio insieme di elementi (gli elementi che non hanno prefisso).

E' in corso una evoluzione di MAG (l'attuale è la versione 1.5). Le novità principali riguardano l'introduzione di tre nuove sezioni. Due riguardano le risorse digitali audio e video. La terza è pensata per la fruizione della risorsa all'interno di circuiti di cooperazione quali il Network turistico culturale. In questo modo MAG potrà essere inserito all'interno di una "riposta" del protocollo OAI (attenzione ... non OAIS).

Inoltre per garantire maggiori possibilità di interoperabilità verrà prodotto a cura del Gruppo di studio sugli standard e le applicazioni di metadati nei beni culturali uno strumento per la conversione da MAG a METS.

Strumenti e obiettivi

Un progetto di digitalizzazione presenta oggi molti rischi. Uno di questi è sicuramente la confusione tra strumenti (soluzioni tecnologiche) e finalità (servizi da offrire). Molti progetti ad esempio ruotano attorno alla scelta di un determinato software o di un determinato hardware con il rischio di mettere in secondo piano gli obiettivi: "se l'unico strumento che hai è un martello, tutti i problemi cominceranno ad assomigliare a un chiodo" .

Per quanto riguarda la scelta di strumenti informatici può essere utile richiamare le raccomandazioni CNIPA . In generale un sistema informatico dovrebbe:

  • adottare soluzioni informatiche aperte di tipo web oriented (non legate a uno specifico produttore o a una specifica applicazione; che fanno largo uso del protocollo HTTP e della sintassi XML);
  • favorire un quadro di riferimento per lo sviluppo/acquisizione di applicazioni semplici e snelle, largamente indipendenti tra di loro ma interoperabili;
  • essere sostenibile anche in termini di gestione: tutti i componenti di questa architettura comunicano in rete e sono indipendenti sia dal luogo, sia dal gestore con la possibilità di:
    • avere soluzioni altamente scalabili (crescere a secondo delle esigenze, ma anche a secondo delle risorse economiche disponibili);
    • avere più gestori del servizio;
    • evolvere nel tempo senza vincoli imposti da fornitori.

In particolare un progetto di digitalizzazione deve essere inserito all'interno di architetture informatiche in grado di:

- ridurre la frammentarietà delle esperienze;

- aumentare la visibilità e la possibilità di coordinamento tra i progetti di digitalizzazione;

- valorizzare i servizi locali (della singola istituzione) in quanto inseriti in una o più reti di cooperazione (p. es. una biblioteca può cooperare sia in una rete a livello nazionale, sia in una a livello regionale e contemporaneamente fare parte di una rete di biblioteche specializzate su uno specifico argomento);

In tutto questo i metadati gestionali giocano un ruolo sempre più importante. Oggi gli strumenti che abbiamo a disposizione ci permettono di concentrarci sugli obiettivi. Le barriere degli alti costi e delle limitazioni tecnologiche si stanno sempre più abbassando. Possiamo finalmente progettare i servizi che attraverso la digitalizzazione vogliamo erogare e scegliere - di conseguenza - gli strumenti più adatti.

Nota bibliografica

 

Il Web

La letteratura professionale su questo tema è talmente vasta che ci limiteremo a poche indicazioni.
Si tratta di un argomento su cui, anche in Italia, principalmente grazie all'AIB, si è manifestato un forte interesse con particolare attenzione alle tematiche dell'accessibilità.

La creazione di un sito per la pubblicazione dei prodotti digitali deve essere finalizzata alla tipologia di utenti che si vogliono servire o raggiungere. E' questo il senso dei brevi incisi dedicati all'ambiente in cui si fruiscono le risorse digitali e all'utenza che trovate nel manuale (già citato) del Getty Institute.

Il primo argomento è affrontato in The working environment.

Versione italiana - L’ambiente di lavoro

L’implementazione di un database di immagini richiede il bilanciamento dei bisogni degli utenti conosciuti e potenziali con l’infrastruttura tecnologica disponibile per sostenere la disponibilità elettronica delle immagini e l’impegno di  risorse umane e finanziarie. Il numero degli utenti, all’interno e all’esterno dell’istituzione, deve essere previsto (all’inizio, al momento dell’implementazione a regime e per il futuro). Si deve considerare la dislocazione degli utenti (tutti in un solo posto, locati in un solo edificio o ampiamente distribuiti in un campus o nel mondo). Si devono definire le capacità tecnologiche della postazione di lavoro dell’utente (sistema operativo, memoria interna, capacità di immagazzinamento, qualità del monitor, capacità della rete e velocità). Si dovrebbe anticipare anche l’uso potenziale delle immagini, come l’integrazione con altri strumenti o applicazioni (vedi Utenti diversi, diversi usi).

Si devono predisporre anche i mezzi per consegnare i dati di un’immagine. L’accesso on line può essere offerto attraverso la rete digitale, o il database di immagini può essere distribuito ad ogni utente attraverso un mezzo di  pubblicazione (come il Cd-rom o il videodisco). Se si desidera l’accesso in rete on line e multi-utente, si devono prendere ulteriori decisioni su dove le differenti capacità debbano essere implementate; per esempio, sulla postazione di lavoro di un client o sul server in un sistema client/server.

Si devono identificare i formati dei file da supportare. Per ragioni amministrative, può essere consigliabile immagazzinare le immagini in un solo formato (come TIFF, GIF, PICT o JFIF), sebbene la capacità di scrivere immagini in altri formati sia utile per lo scambio di informazioni. Si dovrebbero stabilire le linee guida per assicurare che la stessa versione di un formato scelto sia usata all’interno dell’istituzione (per esempio, ci sono molte versioni del formato TIFF) (...).


Il rapporto con l'utenza in Various Users, Various Uses.

 

Versione italiana – Utenti diversi, usi diversi

La scelta delle tecnologie per il trattamento digitale delle immagini sarà influenzata dagli utenti e dall'uso che si vorrà fare del database di immagini. Capire i bisogni dell’utenza richiede la verifica delle caratteristiche di gruppi diversi. Gli studi sull’utenza tengono conto di suddivisioni per soggetto (per esempio: arte rinascimentale, fotografia contemporanea, architettura buddista, scultura romana); per funzione o ruolo (curatori, storici dell’arte, conservatori, ecc.); o per tipo di uso (scorsa, ricerca, analisi).
Usi ed utenti specifici possono essere associati a particolari requisiti, che comprendono un livello desiderato di qualità dell’immagine, la richiesta di facilitazioni per l'accesso, o una infrastruttura di rete predefinita (vedere l’Ambiente di lavoro).
Quando si completa un’analisi sui requisiti per l’utenza, si dovrebbero prendere in considerazione tanto gli utenti e gli usi correnti (per esempio, in un sistema non elettronico) quanto gli utenti e gli usi del prossimo futuro. Le attività future potrebbero includere il riutilizzo delle immagini digitali nelle pubblicazioni su cd-rom, chioschi interattivi, siti web o come fonte per il tradizionale prodotto a stampa, che include cartoline, cataloghi di mostre e manifesti.

Il modo in cui un’immagine sarà utilizzata determinerà l’ammontare delle informazioni che deve obbligatoriamente contenere – cioè la risoluzione richiesta e la gamma dinamica. Per esempio, immagini di una particolare raccolta con una risoluzione media possono essere sufficienti per un uso scolastico da parte di studenti di scuole superiori, ma contengono troppo poche informazioni per un conservatore che esamini la costruzione tecnica di un’opera. Un’immagine a 256 colori può essere adeguata a scopo di riconoscimento, ma troppo poco definita per poter sostenere un’analisi comparativa della tavolozza di un’artista. Un file immagine che verrà utilizzato per un prodotto a stampa deve essere di una qualità molto superiore a quello usato solo per una visualizzazione sullo schermo.

Devono essere inoltre esaminati i bisogni funzionali di ogni categoria di utenti potenziali.

  • Sarà necessaria una “postazione di lavoro da studioso”, con molteplici funzioni di ricerca?
  • Gli utenti vorranno integrare la visualizzazione dell’immagine con altre informazioni? (Per esempio, gli utenti potrebbero volere visualizzare un record da un database di ricerca, o una critica da un articolo on line, accanto all’immagine?).
  • Potrebbe un utente desiderare che i risultati di una ricerca in un sistema di gestione delle raccolte museali  visualizzino immagini per ogni record?
  • Gli utenti vorranno integrare la visualizzazione delle immagini con vari servizi di informazione personali? (Per esempio, vorranno inserire le immagini in documenti di word-processing o inserire un testo che descrive immagini in una bibliografia o in una nota a piè di pagina?)


Le risposte a tutte queste domande influenzeranno la selezione di un sistema di gestione delle immagini.

All’interno di una istituzione, può essere necessario integrare il database di immagini con le altre funzioni automatizzate per svilupparne completamente il potenziale. In tal caso, il database di immagini dovrebbe essere inserito in un piano di automazione generale dell'istituto che prenda in considerazione l’hardware, il software, i sistemi operativi, le reti, e soprattutto bilanci e priorità. (...)
Inoltre, [si] vorranno integrare i database di immagini con i sistemi di gestione delle raccolte esistenti o previsti, con i cataloghi per l’accesso on line (OPAC), con sistemi di publishing, e/o con i sistemi amministrativi o commerciali. Ci sono molte modalità di trasferimento di immagini e informazioni descrittive tra uno di questi sistemi e i database di immagini, e devono essere fissati degli standard per tale trasmissione.

E' anche necessario identificare i bisogni dell’utente del database di immagini relativamente alle modalità di visualizzazione e al trattamento delle informazioni. Gli utenti richiedono immagini per la navigazione e, in tal caso, che tipo di identificazione dovrebbe accompagnare ogni immagine? Avranno bisogno di vedere le immagini a vari livelli di risoluzione? Il trattamento delle immagini o le funzioni per la loro manipolazione (come cambiare i colori, lo zoom, o le annotazione) potrebbero essere utili? I requisiti richiesti dagli utenti forniranno le linee guida per la scelta di un sistema per la gestione delle immagini.

Il corretto dimensionamento delle infrastrutture è un problema affrontato anche dall'Aggiornamento allo Studio sulla BD, del Min. BBAACC al capitolo 8 Le infrastrutture telematiche e Internet

The Basics of Designing a Web Site di Lara Greenwood è uno slideshow molto chiaro che insegna come costruire delle pagine web. Anche se è dedicato ai musei puo essere usato per qualunque tipo di web. Contiene indicazioni pratiche e di facile comprensione. Intercalato da esempi propone nelle ultime slide dei link di approfondimento.

Segnaliamo infine, dalla rivista on-line NET-MECHANIC la pagina Accessibility Resource Center dedicata agli strumenti utilizzabili per la costruzione di siti web comunque accessibili.

Il Web  (esempi) 

Dai numerosi esempi di Biblioteca Digitale disponibili riteniamo interessante segnalarne alcuni  notevoli per la semplicità della presentazione e l'efficacia comunicativa.

Il primo esempio è l'Archivio Tyrrell curato dall'Università di Toronto, un sito dedicato ad una raccolta mista di 5,000 documenti digitalizzati comprendenti appunti di viaggio, corrispondenza, foto, mappe e pubblicazioni a stampa.
L'esempio si segnala per la semplicità della ricerca possibile in varie modalità tra cui la navigazione attraverso le mappe interattive , il percorso archivistico (finding aid), le liste di scorrimento.
Le immagini vengono rese visibili a diversi livelli di zoom e i documenti manoscritti sono affiancati dalle rispettive trascrizioni.

Gli esempi successivi sono tratti dai numerosi progetti sviluppati sotto il programma American Memory, per sottolineare un aspetto ancora poco considerato nei progetti italiani: quello della descrizione tecnica della realizzazione del progetto.
Si tratta di notizie preziose per progetti analoghi e un minimo sforzo dovrebbe sempre essere pianificato all'interno di un progetto per redigere le notizie tecniche e la documentazione metodologica.
Lo schema adottato (Building the Digital Collection) da tutti i progetti di American Memory può servire da modello.

Gli esempi sono tratti da:


Si tratta della descrizione di uno dei primi progetti di AM; sintetico ma completo nell'indicare le scelte tecniche sia come formati sia come strumenti hw e sw utilizzati.[Versione italiana]


Suddiviso in sei parti, da conto con molta precisione degli interventi che sono stati necessari per trattare un materiale manoscritto deperibile e spesso bisognoso di essere ricostruito per garantire integrità e coerenza della versione digitale rispetto all'originale.[Versione italiana]

 


Interessante pur se breve, riguarda il trattamento delle immagini in movimento.

Un altro esempio interessante è la descrizione del progetto Feeding America. Al di là dell'argomento trattato (libri di cucina antichi) la descrizione propone una scaletta chiara che potrebbe costituire uno standard di riferimento.
I punti trattati sono i seguenti:

1.       Descrizione generale (Overview) : informazioni di carattere generale sulle caratteristiche e gli scopi

2.       La digitalizzazione (Digitization process) : tutti i dettagli tecnici relativi a scanner, formati, ecc.

3.       Interventi di tipo editoriale (Editorial intervention) : convenzioni adottate per i testi, le note, le illustrazioni, i termini arcaici

4.       Linee guida per la codifica (Encoding guidelines) : dettagliata descrizione sulle codifiche XML, formati e standard adottati per ogni tipo di materiale trattato

5.       Lo staff (Staff) : tutti i partecipanti al progetto con i propri ruoli, e-mail, ecc.

6.       Le raccolte (MSU cookery collection) : la descrizione dettagliata del materiale trattato


Ecco quali sono stati gli Interventi di tipo editoriale.

 

Versione italiana – L’intervento editoriale

I seguenti interventi editoriali sono stati compiuti nella trascrizione dei libri di cucina.
L’ortografia arcaica e la punteggiatura sono stati mantenuti. E’ stata indicata l’ortografia alternativa per facilitare la ricerca ed è stata contrassegnata con <alt> con l'attributo del valore di “sinonimo”, contenente l’ortografia alternativa della parola.

Gli a capo non sono stati mantenuti. I trattini di fine riga ambigui sono stati mantenuti, anche attraverso una interruzione di pagina. I trattini di fine riga non ambigui sono stati eliminati. Quando un trattino non ambiguo divide una parola tra due pagine, il trattino è stato eliminato e la parte che seguiva della parola è stata spostata dall'inizio della seconda pagina e riunita alla parte iniziale della parola alla fine della prima pagina. L'interruzione di pagina è stata quindi inserita prima della prima parola completa della seconda pagina.

Sono state rilevate le parole che differiscono per lo stile del carattere dal testo circostante (grassetti, corsivi, caratteri decorati).

Le lettere iniziali che sono semplicemente più grandi del testo circostante sono state trascritte senza uno speciale contrassegno. Le iniziali decorate sono state trattate due volte: prima sono state contrassegnate come <'illustrazione'> e poi rese come una parte della trascrizione. Questo assicura che il testo sia ancora leggibile se le illustrazioni non sono visualizzate come segni grafici all'interno della riga.

Le testatine e i numeri delle pagine non sono stati trascritti. I numeri di pagina o gli identificativi della pagina sono stati usati come l’attributo "n" del contrassegno <pb>. (Per esempio, <pb n="72"> o <pb n="titolo pagina">). Le sigle (inserite dallo stampatore per assemblare correttamente le pagine piegate e raccolte) non sono state trascritte.

Le annotazioni sono state trascritte se appaiono essere coeve alla pubblicazione originale del libro. Le tavole del libro sono state anche trascritte, ma le annotazioni come il prezzo, le segnature e i numeri di inventario che sembrano essere stati aggiunte più tardi dai bibliotecari o dai librai sono state ignorate.

Le note a piè di pagina il cui testo di estende attraverso più di una pagina sono state inserite in una sola nota.

Le illustrazioni sono state segnalate con l'etichetta <illustrazione>. Le decorazioni tipografiche sono state anch'esse segnalate se rappresentavano un qualche oggetto riconoscibile. Per esempio, una piccola riga di fiori potrebbe essere contrassegnata come una figura, ma una riga orizzontale non potrebbe [essere definita tale], sebbene entrambe potrebbero essere state impiegate per segnalare la fine di un capitolo.

Nelle trascrizioni sono state ignorate le pagine vuote. Sono state create immagini delle pagine vuote come parte delle copie di salvataggio di ogni libro, ma sono state lasciate cadere dalla sequenza delle immagini [visibili]per comodità del lettore.

 

Concludendo sulla base di questi pochi ma significativi esempi crediamo di poter affermare che ignorare questo aspetto finale di un progetto significa disperdere un patrimonio di conoscenze prezioso quanto il progetto stesso.

 

La conservazione 

Una volta prodotte risorse digitali si devono affrontare le questioni relative al loro immagazzinamento (storage) ed alla loro conservazione.

Per una prima comprensione degli aspetti tecnici rimandiamo al capitolo 2.2.4 dello Studio di fattibilità sulla BD, dedicato alla memorizzazione di dati.
L'aspetto specifico dello Storage è molto approfondito, invece, al Cap. 7 dell'Aggiornamento al medesimo studio.

Si rinvia ancora al modello OAIS (dal 2002 norma ISO) per capire il ruolo giocato dalla conservazione all'interno di un archivio. Queste le componenti funzionali:

Per fugare ogni dubbio su quanto spazio occupino i vari oggetti digitali la tabella di Steve Gilheany dovrebbe essere d'aiuto.
Per un'idea di cosa e quanto si possa immagazzinare in un disco da un terabyte (1000 GB) la nuova rivista DDQ ve lo elenca nella tabella inserita in un breve articolo sul numero 1 (Volume 1, Number 1, 1Q2002): How Quickly is Technology Changing? (stampandolo si trova a pag 5).

Cosa ci riserva il futuro lo illustra The future of magnetic data storage technology di D. A. Thompson and J. S. Best, pubblicato in Directions in information technology (vol 44, Num 3, 2000), rivista IBM.

Si tratta in entrambi casi di due interventi molto tecnici.

La conservazione (costi ed altro)

Un punto fermo nella progettazione digitale è quello di impegnarsi a garantirne la disponibilità a lungo termine e quindi a prevedere in anticipo i costi a cui si va incontro.

Una trattazione molto ampia e dettagliata su questi costi si trova nel capitolo 5.1.7 Data Preservation Costs di Comparison of methods & costs of digital preservation / Tony Hendley.
Non vi si danno cifre, che non avrebbero senso visto il decrescere continuo di molti costi, ma si elencano gli elementi che influenzano il costo. Particolare attenzione è data alle modalità di Migrazione.

 

Versione italiana -  costi della conservazione dei dati

La conservazione digitale [può essere suddivisa] in tre compiti specifici:

1.      Conservazione delle sequenze di bit attraverso la copia/aggiornamento

2.      Assicurazione della comprensione dei dati attraverso la conservazione della documentazione

3.      Assicurazione di continuità della decodificazione dei dati per il futuro, attraverso l’adozione di una delle seguenti tre strategie di conservazione:

o       Conservazione tecnologica

o       Emulazione tecnologica

o       Migrazione dell'informazione digitale

(...)

5.1.7.1. Conservazione della tecnologia

A parte dalla copia e dall'aggiornamento, che sono coperti sopra, questa strategia include i seguenti compiti:

  • conservazione del programma dell'applicazione originale usato per creare o per accedere alla risorsa digitale
  • conservazione del software del sistema operativo su cui i programmi dell'applicazione originale girano
  • conservazione della piattaforma hardware del computer sui cui il software del sistema operativo era designato a girare.

[Nell'ambito di questo studio] si è arrivati alla conclusione che questa strategia non può essere considerata come fattibile ad eccezione che per il breve o medio termine.
[Si è] solo raccomandato l'uso della “conservazione tecnologica” come una misura relativamente estrema nei casi in cui risorse digitali preziose non possono essere convertite in formati indipendenti hardware e/o software e migrate oltre. Questo potrebbe essere in pratica dovuto alla complessità delle risorse digitali e al fatto che sono create su applicativi proprietari ed obsoleti.

Questa strategia dovrebbe essere solo adottata quando l'unica via pratica per accedere ad una risorsa digitale preziosa attraverso un'applicazione che potrebbe solo girare su un software del sistema operativo che potrebbe esso stesso girare solo su una piattaforma hardware obsoleta. In questa situazione poi coloro che gestiscono le collezioni farebbero meglio a cercare una terza parte specializzata (se si potesse trovare) con questo ambiente hardware. Dovrebbero poi eseguire il software e tentare di migrare i dati verso un formato come minimo dipendente da un software e idealmente a un formato indipendente da un software.

Perciò i costi coinvolti nell'adozione di questa strategia sarebbero di due tipi.

Primo, a breve termine, quando un centro elaborazione dati ha cambiato l'ambiente hardware e software, potrebbe incorrere in costi a breve termine. Si incorrerebbe nel costo di manutenzione del vecchio hardware e dell'ambiente software per un breve periodo di tempo mentre si lavora sulla strategia di migrazione per coprire quelle risorse digitali di valore che potrebbero essere accessibili solo attraverso applicazioni eseguibili nel vecchio ambiente.

Secondo, dopo che si è cambiato l’ambiente hardware e software e chiuso il vecchio – se si scopre qualche vecchia risorse digitale di valore accessibile attraverso applicazioni eseguibili solo nel vecchio ambiente si potrebbe incorrere in costi di terze parti.
Cioè sarebbe necessario identificare qualcuno che usa ancora il vecchio ambiente hardware e software e pagarlo per caricare applicazione e dati e convertire tutto in un formato standard tale da poter essere conservato e fatto migrare verso il nuovo ambiente.

Tutti i costi identificati sopra sarebbero correlati direttamente alla conservazione.

5.1.7.2 Emulazione tecnologica

Questa strategia ha molto in comune con la strategia della conservazione tecnologica sopra descritta. A parte la copia e l’aggiornamento, sopra trattati, include i seguenti compiti:

  • conservazione dell’applicativo originale usato per creare o accedere alle risorse digitali

Inoltre (...) questa strategia implica il ricorso ad ingegneri informatici che assolvano i seguenti compiti:

  • disegnare e far girare programmi di emulazione sulle piattaforme attuali e future del computer, programmarli per imitare il comportamento delle vecchie piattaforme hardware e per emulare lo specifico software del sistema operativo.

(...)
questa potrebbe essere considerata come una strategia di breve o medio termine o come una strategia specialistica laddove gli utenti manifestassero una forte esigenza di mantenere l'aspetto e le sembianze della risorsa digitale originale. Questa strategia potrebbe essere adottata se l'unico modo di accedere ad una risorsa digitale fosse per tramite di un'applicazione funzionante su un sistema operativo che anch'esso è in grado di girare su una piattaforma hardware obsoleta.
I costi di questa strategia potrebbero prendere la forma di un pagamento a terze parti. Ciò a copertura di un uso esclusivo delle capacità tecniche della terza parte per emulare l'ambiente hardware e software richiesti, in modo tale che il CED potrebbe far girare l'applicazione e tentare di convertire la risorsa digitale in un formato standard sull'ambiente corrente e migrare i dati verso gli ambienti futuri.
I costi identificati sopra sarebbero correlati direttamente alla conservazione.

5.1.7.3 Migrazione dell'informazione digitale

La migrazione dell'informazione digitale non è una strategia semplice e condivisa. La migrazione promette il meglio per il futuro ed è la strategia più ampiamente adottata nei centri visitati [per questo studio].. La migrazione dell’informazione digitale è stata suddivisa in 4 sottogruppi:

  • cambiamento dei media (supporti)
  • la compatibilità retroattiva
  • l’interoperabilità
  • la conversione dei formati standard

Ognuno di questi sottogruppi può essere diviso in una serie di compiti specifici, ognuno dei quali sarà associato ad un costo. La serie completa dei compiti per ogni sottoserie viene esaminata di seguito.

A. Cambiare i media (supporti)

Un sottogruppo di base della strategia di migrazione implica il trasferimento delle risorse digitali da media meno stabili a media più stabili. La versione più diffusa di questa strategia implica la stampa dell’informazione digitale su carta o la registrazione di essa su microfilm. La carta e il microfilm sono più stabili della maggior parte dei mezzi digitali e non necessitano di uno specifico hardware o software per richiamare l’informazione.
I costi associati con questa strategia sono quindi:

  • I costi associati con la formattazione della risorsa digitale e con la stampa di essa come una serie di immagini per pagina oppure la sua registrazione come una serie di immagine su microfilm o microfiche. Per l’opzione di stampa poi, a seconda dei volumi, questa potrebbe essere fatta in casa o il servizio potrebbe essere acquistato da un servizio di stampa esterno. (...) Sono necessarie due copie del microfilm – una per l’uso e l’altra per l’archivio.
  • I costi associati con il trattamento della carta e dei microfilm ottenuti. Questi potrebbero includere l’indicizzazione e l’immagazzinamento d'uso e d’archivio e la fornitura dell’equipaggiamento per la lettura del microfilm e della stampa.
  • I costi associati alla produzione di copie dalla carta o le stampe dal microfilm.

Dei costi sopra identificati, i costi relativi alla stampa o alla registrazione COM (Computer Output on Microform) e i costi relativi all’immagazzinamento archiviale della carta o del microfilm sarebbero direttamente correlati alla conservazione. I costi dell’archiviazione della copia d'uso su carta o su microfilm e i costi della riproduzione per gli utenti non sarebbero direttamente correlati con la conservazione.

B. La compatibilità retroattiva

Questo secondo sottogruppo della strategia della migrazione fa affidamento su diffusi software applicativi che sono “compatibili retroattivamente”. Le ultime versioni dei più diffusi pacchetti di applicativi saranno capaci di decodificare i file creati con versioni precedenti dello stesso pacchetto – in modo particolare le due o tre versioni precedenti. La versione più diffusa di questa strategia semplicemente implica testare il processo e poi caricare i file creati su versioni precedenti del programma applicativo in una nuova versione e salvarli in un nuovo formato di file.

I costi associati con questa strategia (ignorando i costi di copia e di aggiornamento trattati sopra) sarebbero relativamente bassi nel breve o medio termine, a patto che le applicazioni rimangano compatibili retroattivamente. Se il responsabile della collezione decidesse di aggiornare la versione di tutti i file creati con la versione X di un’applicazione alla versione X+1, questo processo potrebbe essere automatizzato, disponendo di una macro che richiamasse ogni file e salvasse una copia di ogni file in un nuovo formato.
I costi complessivi includerebbero i seguenti costi:

  • il costo di scrittura della macro e per farla funzionare
  • il costo di controllo di un gruppo di file per assicurarsi che non si sia verificata nessuna corruzione
  • il costo per distruggere la precedente versione dei file se si è deciso di farlo

C. Interoperabilità

Il terzo sottogruppo della strategia della migrazione fa affidamento sull’interoperabilità tra programmi applicativi diffusi e concorrenti. Le risorse digitali create su un applicativo non preferito o obsoleto possono essere esportati in un formato di interscambio comune e poi importate nell’applicativo corrente che giri nell'ambiente hardware e software correnti.

Più semplice è la risorsa digitale più facile è l’interscambio delle risorse tra programmi applicativi senza una significativa perdita di dati e quindi più bassi sono i costi in cui si incorre. Più complessa è la risorsa digitale più difficile è l’interscambio delle risorse tra due applicativi senza alcuna significativa perdita di dati.
I costi complessivi includerebbero i seguenti costi:

  • il costo per testare l’interscambio su un campione di documenti rappresentativi
  • il costo di installazione del programma e della sua esecuzione
  • il costo di controllo di una sottoserie dei file risultanti per assicurarsi che non si sia verificata nessuna corruzione
  • il costo della distruzione della versione precedente del file se si è deciso di farlo.

Tutti i costi sopra identificati sarebbero in relazione direttamente con la conservazione.

D. La conversione a formati standard

Il quarto e più diffuso sottogruppo della strategia della migrazione è designato a ridurre un largo numero di formati differenti ad un numero veramente piccolo di formati standard che possono ancora codificare la struttura e la forma dell’originale.

Più semplice è la risorsa digitale più facile e quindi meno costoso è selezionare un formato standard e convertire la risorsa digitale. In molti casi il processo potrebbe essere identico a quello sopra descritto dell’interoperabilità. Le immagini digitali possono essere convertite da un algoritmo di compressione ad un altro e da un formato di file ad un altro automaticamente dopo che i test iniziali sono stati completati. Molti documenti creati su applicazioni Windows possono essere convertiti in file PostScript o al formato PDF di Adobe.

Convertire un documento di testo da un formato di mark-up proprietario a TEI Lite potrebbe richiedere un intervento manuale il cui impegno in termini di risorse potrebbe dipendere dalla lunghezza e dalla complessità del documento di testo.

I principali costi associati a questo sottogruppo includerebbero alcuni dei seguenti costi:

  • l’accordo sui formati standard preferiti
  • testare la conversione di una specifica categoria di risorsa
  • far girare la conversione come un processo batch
  • testare un campione delle risorse convertite
  • distruggere la vecchia versione se richiesto
  • copiare i file risultanti

Tutti i costi identificati sopra potrebbero essere correlati direttamente alla conservazione.

 

Il dibattito sulla conservazione del digitale è tuttora aperto e anche un convulso. Il web site del progetto CEDARS riporta in una pagina l'accesso a due contributi che analizzano le due opzioni oggetto della discussione attuale: Migrazione o Emulazione?

Versione italiana

La migrazione

La migrazione dei materiali digitali in senso tradizionale ha precipuamente solo a che fare con oggetti digitali relativamente semplici, che vengono convertiti in una serie di fasi alle piattaforme correnti. E’ stata condotta una piccola ricerca in merito al suo uso al di là di questo livello. L’accesso ai file di scrittura, ai file di dati statistici e ai file di immagini bitmap è stato mantenuto mediante la migrazione da un formato all’altro, spesso con le facilitazioni per l’importazione predisposte dai software applicativi correnti. Con oggetti digitali più complessi non è immediatamente chiaro come si potrebbero far migrare o cosa la migrazione significhi veramente in questo contesto. Ed ancora, è la migrazione davvero utile in questo campo o è l’emulazione sempre una strategia migliore per la preservazione di questi oggetti più complessi?

Il rapporto del CPA/RLG [Commission on Preservation and Access and The RLG; per la nota si rimanda al doc originale] fornisce una utile e ampia definizione della migrazione come :
“… serie di funzioni organizzate, mirate ad ottenere il trasferimento periodico di materiali digitali da una configurazione hardware/software ad un’altra, o da una generazione della tecnologia informatica a quella seguente”.
Questo contributo tenterà di descrivere come queste funzioni differenti potrebbero realizzarsi in pratica e di discutere la loro relativa utilità in contesti differenti.

 

L’emulazione è una strategia di conservazione digitale che riserva grandi promesse per il futuro.

Attraverso l’emulazione, si intende ri-creare sull’hardware corrente l’ambiente tecnico richiesto per visualizzare ed utilizzare gli oggetti digitali precedenti.

Poiché la comunità della conservazione digitale considera sempre più seriamente l’emulazione c’è in corso un considerevole dibattito su come impiegare la tecnica.

Un aspetto non secondario della conservazione è quello legato all'organizzazione. Per l'Italia è stata l'AIPA (Autorità Informatica per la Pubblica Amministrazione) ora diventata CNIPA (Centro nazionale per l'informatica nella pubblica amministrazione) a regolamentare nel dicembre 2001 tutta la materia e ci sembra utile ricordare la Deliberazione 42/2001, 13 dicembre 2001 e Note esplicative Regole tecniche per la riproduzione e conservazione di documenti su supporto ottico. Pubblicata nella Gazz. Uff. 21 dicembre 2001, n. 296. ,in cui, tra le altre cose, viene individuata la figura del Responsabile della conservazione e ne vengono fissati con precisone (Art. 5) i compiti che tra l'altro prevedano in sintesi:

Queste norme, anche se nate per un contesto diverso quale quello della pubblica amministrazione, destinata ad usare la digitalizzazione a scopo prevalentemente sostitutivo, ci paiono in ogni caso applicabili anche in ambito bibliotecario.

 

I costi

Una delle questioni più aperte del digitale è quella dei costi. In questo capitolo daremo conto di alcuni contributi che hanno fatto una analisi dei costi da vari punti di vista possibili e di alcuni strumenti di ausilio per calcolarli.

Un contributo tra i più importanti è quello di Steve Puglia The Costs of Digital Imaging Projects pubblicato sulla rivista RLG DigiNews. In questo articolo trovate numerose tabelle comparative in cui non sono tanto le cifre che interessano (relative al mercato americano) quanto la segnalazione dell'incidenza percentuale delle varie fasi di un progetto sulla variabile costi.
Un'attenzione particolare in fondo all'articolo è data ai costi di manutenzione.

 

Versione italiana –

Introduzione

Quando si pianifica e si elabora il budget per un progetto di scansione digitale ci sono molte componenti da prendere in considerazione, tra cui le seguenti:

  • Selezione
  • Preparazione
  • Creazione dei metadati: catalogazione/descrizione/indicizzazione
  • Conservazione/tutela dell’oggetto fisico
  • Produzione di prodotti intermedi
  • Digitalizzazione
  • Controllo di qualità delle immagini e dei metadati
  • Infrastrutture tecnologiche
  • Manutenzione corrente delle immagini e dei metadati

L'ultima voce di costo spesso non viene considerata come parte dei costi di progetto, ma ricade sull'istituzione l'onere di sostenerla, perciò è meglio pianificare tali costi correnti fin dal'inizio del progetto.

(...)

Costi di manutenzione correnti

Sono stati pubblicati solo pochi modelli per la stima dei costi per la manutenzione delle immagini digitali e dei dati e tali modelli variano considerevolmente.
Nel 1996, Charles Lowry e Denise Troll hanno stimato che i file digitali sarebbero  16 volte più costosi da mantenere e da rendere accessibili delle loro controparti cartacee (11). Uno studio del Governo federale [statunitense], elaborato dall’Environmental Protection Agency, ha indicato, come minimo, che i costi per l’installazione,  per il personale e per il mantenimento dell’infrastruttura della rete e dei dati digitali per i primi 10 anni è fino a 5 volte l’investimento iniziale (12).

Due anni fa, il costo di  mantenimento, per i primi 10 anni, dei file delle immagini master (off-line) e quelli di accesso (on-line) del NARA-EAP fu stimato pari ad una cifra dal 50% al 100% dell’investimento iniziale.

(…)

I costi per lo sviluppo del database comprendeva le personalizzazioni del software e costi, oltre 2,5 volte superiori alla somma spesa per la digitalizzazione delle immagini e il costo per l’aggiornamento dei server per ospitare le immagini on-line era pari quasi  a quello per la digitalizzazione. Spesso le spese più rilevanti per l’infrastruttura IT vengono inseriti nel bilancio separatamente dai progetti di digitalizzazione, e quindi l’aggiornamento della rete e i costi per lo sviluppo del database non sono stati inclusi nelle stime di spesa per la manutenzione a lungo termine delle immagini digitali. Se i costi dell’infrastruttura sono inclusi, le stime qui sotto citate saranno sostanzialmente più alte.

Una stima del 1999 per la manutenzione delle immagini EAP per i successivi 10 anni era definita nel modo seguente:

  • Manutenzione minima di solo una copia del master file
    • Copia su nuovi dischi due volte in 10 anni a $0.45-1.95 per immagine
    • Conversione del formato del file una volta in 10 anni a $0.80 per immagine
  • Manutenzione dell’accesso e dei file francobollo (thumbnail) on-line
    • Stimato da $0.50 a $1.45 per Mb per ogni anno

Questi due costi insieme rappresentano da $1.70 a $4.70 per immagine per i primi 10 anni, ovvero dal 14%  al 38% del costo iniziale per immagine ($211.000 a $583.000).

Un secondo approccio potrebbe essere usare il modello di costo presentato nel Cornell Report on computer output microfilm, che riferisce che le stime, provenienti  da diversi studi, si aggirano intorno a $0.10-$ 0.11  a Mb per anno. La stima per mantenere i file NARA EAP sarebbe pari ad una cifra da $9.65 a $10.62 per immagine per i primi 10 anni, per un totale di un milione e duecentomila-un milione e trecentomila dollari. Questo rappresenterebbe dal 55 al 60% del costo iniziale per immagine.

Un terzo approccio potrebbe essere quello di pagare un service commerciale per mantenere le immagini digitali  e i metadati associati. Un modello commerciale proposto per un servizio commerciale per la manutenzione dei file è:

  • Immagazzinamento del salvataggio 62%
  • Ammortamento dell’immagazzinamento su disco 27%
  • Manutenzione hardware 11%

Questo presuppone la manutenzione di copie multiple dei file per sicurezza e per il recupero dei dati. La percentuale più ampia del costo di manutenzione sarà il lavoro umano. Così sebbene i costi dell’immagazzinamento digitale continueranno a decrescere (con una percentuale stimata del 37.5% l’anno), i costi complessivi continueranno a crescere.
Utilizzando queste percentuali, possiamo ricavarne una terza stima basata sull’impiego di un service commerciale di $13.60- $39.40 per immagine per i primi 10 anni, che rappresenta dal 77 al 224% del costo iniziale per immagine (da un milione e settecentomila a 4 milioni e novecentomila dollari). Se i costi dell’immagazzinamento digitale non diminuiscono, i risultati saranno di $48.30-$140.00 per immagine per i primi 10 anni - ovvero dal 275% al 796% del costo iniziale per immagine (da 6 milioni a 17 milioni e quattrocentomila dollari).

Considerando la grande disparità nelle proiezioni di costo per la manutenzione delle immagini digitali e dei dati associati, la pianificazione di un costo pari al 50-100% del costo iniziale per immagine per la manutenzione nei primi dieci anni sembra tuttavia ragionevole poiché è nella media delle proiezioni. Questo ammonta al 5-10% del costo iniziale per immagine per anno, sebbene la copia dei file e la conversione non vengano effettuate ogni anno.

Un esempio convincente può essere fatto per la scansione digitale fatta allo scopo di facilitarne l’accesso e migliorarne il processo di commercializzazione, ma potrebbe non essere l’approccio più adeguato per la conservazione a lungo termine dell’informazione. In una rassegna del 1998, elaborata per conto dell’Association of Image and Information Management (AIIM), su 10 tecnologie che avranno effetto nella gestione documentale per i prossimi 2 anni, al quinto posto c'era «il rimpiazzo dei sistemi di dischi ottici con microfiche COM» da parte di aziende che stanno trovando il costo della manutenzione digitale proibitivo.

Conclusione

Questa presentazione delle ricerche sui costi tratta dai progetti di scansione digitale porta alle seguenti conclusioni:

  • Le istituzioni saranno in grado di giustificare solo la manutenzione delle immagini digitali che vengono usate
  • Le istituzioni avranno bisogno di compiere un’analisi costi-benefici per determinare quanto utilizzo è necessario
  • L’immagazzinamento analogico, come il mantenere gli originali o i microfilm, offre una longevità più grande e un minor rischio per la conservazione a lungo termine
  • L'approccio ibrido, che usa di ogni tecnologia i suoi aspetti più vantaggiosi per minimizzare gli svantaggi di un'altra tecnologia, è probabile che continui ad essere il più interessante.

 

Per i costi di immagazzinamento (storage) a parte la formuletta di calcolo proposta dal più volte citato manuale Digitization guidelines edito da NCECHO se ne parla in un paragrafo del capitolo sulla Conservazione.

Digitisation: How Much Does it Really Cost? di Simon Tanner and Joanne Lomax Smith del 1999, analizza il problema a partire dalla scaletta delle operazioni da compiere e si suddivide tra costi di base, costi tecnici rispetto alla risoluzione d'immagine adottata e conclude con un confronto tra progetti in-house ed in outsourcing. Scaricabile in PDF (61 K).

I costi (2)

Vi segnaliamo due strumenti in grado, se opportunamente adattati, di aiutare nel calcolo dei costi.

HEDS (Higher Education Digitisation Service) propone uno schema per il calcolo dei costi (HEDS matrix) utilizzabile per qualsiasi tipo di progetto.

Un vero e proprio formulario per la determinazione dei costi è quello predisposto dal RLG. (Scaricabile in PDF 115 K).
E' suddiviso nei seguenti 11 punti:

La Versione italiana propone alcune considerazioni di base delle parti A, C, D, E, F, G.

 

Versione italiana - Foglio di lavoro RLG per la stima dei costi di digitalizzazione

Questo foglio di lavoro è una guida alla preparazione di un budget per le attività che coinvolgono la digitalizzazione. Può essere usato per progetti di scansione interni o per quelli che utilizzano un fornitore esterno. Le attività sono organizzate in 11 passi:

A. Selezione del materiale
B. Definizione della dimensione della raccolta
C. Preparazione dei documenti

D. Definizione dei requisiti per la scansione digitale delle immagini (benchmarking)
E. Definizione dei requisiti per i metadati e loro creazione
F. Definizione dei costi per la scansione digitale dell’immagine
G. Definizione dei costi di conversione del testo

H. Definizione dei costi per la codifica SGML
I. Definizione dei costi per la conversione degli strumenti di ricerca
J. Post-trattamento dei file digitali
K. Stima dei costi locali addizionali

A. La selezione del materiale

Questa fase comprende:

  • l’identificazione dei materiali
  • la definizione delle restrizioni legali (copyright, diritto alla riservatezza, diritti del donatore, etc.)
  • la ricerca della disponibilità della versione digitale e di altre, come i microform (ricerca on line)
  • l’eliminazione di oggetti a causa di condizioni e  di completezza
  • la definizione di un adeguato processo di conversione  (per esempio, ripresa con pellicola poi scansione, sciogliere le rilegature degli originali, etc.)

Fare la stima del tempo/uomo occorrente, quindi quella del costo basato sul livello del personale richiesto per ogni fase elencata.

C. La preparazione dei materiali

Questa fase riguarda la preparazione fisica e intellettuale dei documenti e comprende:

  • portare dal magazzino i documenti
  • ritirare i documenti dalla circolazione
  • registrare la condizione fisica dei documenti
  • collazionare e identificare le pagine mancanti e i danni
  • riparare le pagine, rimpiazzando le pagine mancanti o illeggibili
  • preparare media di lavorazione intermedia (per esempio microform, diapositive, fotocopie, etc.)
  • sciogliere le rilegature degli originali (se richiesto)
  • creare la documentazione e istruzioni per il controllo bibliografico, l’indicizzazione, l’attribuzione dei tag e la codifica dell’informazione (laddove richiesto)

Fare la stima del tempo/uomo occorrente, quindi quella del costo basato sul livello del personale richiesto per ogni fase elencata.

D. Definizione dei requisiti di trattamento delle immagini (benchmarking)

Questa fase comprende:

  • Accertare le caratteristiche essenziali dei documenti per definire i requisiti per la scansione (risoluzione, profondità, interventi di miglioramento, formato del file, compressione)
  • Confermare l'accertamento mediante la scansione di un sottocampione di documenti
  • Effettuare l’ispezione del sottocampione sia a schermo sia a stampa

Fare la stima del tempo/uomo occorrente, quindi quella del costo basato sul livello del personale richiesto per ogni fase elencata.

E. La definizione dei requisiti per i metadati e loro creazione

Stimare i costi associati alla creazione dei metadati richiesti per la ricerca ed il recupero dei file digitali. Far riferimento agli standard correnti di metadati per la catalogazione e per l’attribuzione del nome al file.
Questa fase include:

  • la creazione di record nel catalogo per le risorse digitali
  • la definizione del nome del file e dei dati strutturali (per le immagini singole e per gruppi di immagini)
  • la creazione di indici aggiuntivi (per esempio l’indicizzazione a livello di articolo per la letteratura periodica) e la revisione/miglioramento degli strumenti di ricerca esistenti

Fare la stima del tempo/uomo occorrente, quindi quella del costo basato sul livello del personale richiesto per ogni fase elencata.

F. La definizione del costo del trattamento dell’immagine

Definire i costi della conversione basati sulla dimensione e sulla natura della raccolta (Sezione B) e sui requisiti per il trattamento dell’immagine (Sezione D).
Assicurarsi valide offerte da almeno due fornitori per il costo dell’immagine, che comprende:

  • installazione e strumentazione
  • scansione
  • gestione speciale del materiale
  • ispezione di controllo
  • nuova scansione [eventuale]
  • organizzazione di base e taggatura
  • manipolazione aggiuntiva (per esempio ritaglio, ripulitura da macchie, divisione della immagini di un fotogramma in immagini per pagina, etc.)
  • strumenti di immagazzinamento
  • consegna ed assicurazione

I costi vanno stimati differenziando tra: testo a stampa, manoscritti, toni continui, mezzi toni, misto.

G. Definire i costi della conversione dei testi

Definire la natura e l’estensione della conversione dei testi (per esempio, testo completo di tutti i documenti, testo completo di specifici documenti, sommario soltanto) e i requisiti di accuratezza.
Il tempo del personale per creare le istruzioni per la conversione dovrebbe essere incluso nella Sezione C: Preparazione dei documenti.

La conversione può avvenire trattando un’immagine attraverso un programma di Optical Character Recognition (OCR), o mediante un ridigitazione dall’immagine o da una versione a stampa (direttamente dai documenti originali o da stampe di immagini digitali). Il livello di accuratezza sarà basato sulle finalità della conversione del testo. I requisiti per l’accuratezza varieranno in ragione di una conversione per la codifica o di una creazione di file di testo per finalità di indicizzazione o di sola ricerca. Se si stanno creando file di testo per finalità di indicizzazione o di ricerca, potrebbe essere sufficiente un minor livello di accuratezza.
Le fasi sono le seguenti:

  • Ridigitazione o OCR
  • Controllo
  • Correzioni
  • Atrezzature
  • Trattamenti speciali
  • Supporti di consegna
  • Consegna ed assicurazione

La stima va effettuata calcolando il num. pagine x num medio dei crt per pagina; va calcolato in modo differenziato tra documenti a stampa e manoscritti.

 

In conclusione ci sembra interessante citare un progetto come The cost of digital image distribution - MESL Project (Museum Educational Site Licensing Project) che ha analizzato in dettaglio il problema dei costi, legato soprattutto alla distribuzioine ed uso del digitale a fini didattici.
Proponiamo in [Versione italiana] un breve estratto che definisce oggetto e scopo dello studio.

 

Versione italiana - Sommario

Numerose comunità sono interessate alla fattibilità della biblioteca digitale. Lo studio qui riassunto è un passo importante verso la comprensione delle questioni che probabilmente influenzano la fattibilità economica di un tipo specifico di biblioteca digitale: una raccolta di immagini digitali di foto di oggetti del patrimonio culturale e dei loro relativi metadati descrittivi, allorchè distribuiti alle comunità universitarie.
(...)

Lo scopo di questo studio era identificare, definire ed esplorare i principali centri di costo nella distribuzione di immagini e di testo in rete attraverso il progetto MESL.
Il progetto MESL è stato il primo tentativo di prendere una raccolta di immagini e i relativi metadati da una varietà di musei e renderli disponibili in forma digitale ad utenti universitari attraverso le reti dei campus. MESL ha visto la collaborazione sperimentale di 7 musei e 7 università per un periodo di due anni ed ha distribuito, per un uso didattico, oltre 9.000 immagini digitali e testi associati.
(...)

Lo studio che ne è derivato confronta i costi del metodo di distribuzione di MESL a precedenti analoghi metodi di distribuzione di immagini, tramite diapositiva da 35mm. Il “Rapporto finale. Luglio 1998” dello studio espone criticamente vantaggi e svantaggi della distribuzione delle immagini digitali, e identifica gli ostacoli verso l’accettazione della distribuzione dell’immagine digitale da parte dell’utente.
(...)

Fonti

In ordine di titolo con precedenza alle fonti italiane.

Guida alle buone pratiche : ver 1.2 / Karl-Magnus Drake, Hanna Eriksson, Borje Justrell. MINERVA, 2003. Trad italiana ICCU (Mario Sebastiani)
Come recita l'introduzione:"... una guida concreta alla realizzazione, all’esecuzione e alla gestione dei progetti di digitalizzazione, con particolare riferimento al settore della cultura (biblioteche, musei, archivi)."

Manuale per la qualità dei siti Web pubblici culturali : edizione italiana a cura di Fedora Filippi. Ministero per i Beni e le Attività Culturali, Progetto MINERVA, 2004.
Scopo dichiarato del manuale: "...è quello di offrire un modello aperto, una serie di indicazioni, una traccia all’interno della quale ciascun soggetto possa concepire progetti originali seppure legati dalla comune tensione verso il risultato di una offerta di qualità"

Studio di fattibilità della Biblioteca Digitale del Min. BBAACC, 2001
Organizzato in due parti, la prima descrittiva (Situazione attuale) e la seconda (Il progetto di massima) dedicata alle ipotesi progettuali per il Ministero BBCCAA che lo ha commissionato.

Studio di fattibilità della Biblioteca Digitale : Aggiornamento del Min. BBAACC, 2003.
Dedicato all'approfondimrnto degli aspetti prevalentemente tecnici e a tutti gli argomenti che, accennati nella prima edizione, hanno subito significative evoluzioni. Suddiviso in 10 capitoli.

Comparison of methods & costs of digital preservation di Tony Hendley, 2000.
Ampia trattazione sui metodi e sui costi. [scaricabile in  PDF e HTML]

Digitisation guidelines / NCECHO. 2004
Arrivato alla seconda edizione online, è un manuale chiaro e molto ben strutturato con numerosi esempi. Per ogni capitolo offre anche poche ma ben scelte risorse di approfondimento.

A Framework of Guidance for Building Good Digital Collections / IMLS (Institute of Museum and Library Services). 2001.
Una fonte importante curata da membri del Digital Library Forum; molto stringato ed orientato all'ambito anglo-americano ha una impostazione per problemi.

Guides to Quality in Visual Resource Imaging a cura di RLG, CLIR e DLF. 2000.
Una serie di 5 guide destinate, come si ricorda nell'introduzione "for those who have already decided what they will digitize and what purposes the digital images will serve.

Le guide, monografiche, sono opera di differenti autori:

Handbook for digital projects : a management tool for preservation and access a cura di Maxine K. Sitts. Northeast Document Conservation Center, 2000.
Uno dei manuali più completi ed organici. Scaricabile in PDF (1,3 MB).

Introduction to Imaging: Issues in Constructing an Image Database di Howard Besser e Jennifer Trant. J. Paul Getty Trust, 1995.
Un manuale dedicato a tutti gli aspetti tecnici della produzione digitale, Completano l'opera sia un glossario che una bibliografia mirata. La trattazione si ferma al 1994.

Moving Theory into Practice: Digital Imaging for Libraries and Archives di Anne R. Kenney e Oya Y. Rieger. RLG, 2000.
Riprende gli argomenti più estesamente trattati dall'omonimo volume a stampa, pubblicato sempre dal RLG nel 2000. Semplice, pragmatico e bilingue (inglese, spagnolo).

Moving theory into practice : digital imaging tutorial / Cornell University Library, 2003.
Un ottimo corso in tre lingue (anche spagnolo e francese) suddiviso in 10 capitoli sintetici ma completi di esempi e suggerimenti di approfondimento.(Scaricabile anche in PDF)

Why digitize? / Abby Smith. CLIR, 1999.
Oramai un classico il breve testo della Smith, introduce e spiega il concetto di "progetto sostenibile".

Fonti (segue)

Guides to Quality in Visual Resource Imaging a cura di RLG, CLIR e DLF. 2000.
Una serie di 5 guide destinate, come si ricorda nell'introduzione "for those who have already decided what they will digitize and what purposes the digital images will serve".
Le guide, monografiche, sono opera di differenti autori.

Introduction to Imaging: Issues in Constructing an Image Database di Howard Besser e Jennifer Trant. J. Paul Getty Trust, 1995.
Un manuale dedicato a tutti gli aspetti tecnici della produzione digitale, Completano l'opera sia un glossario che una bibliografia mirata. La trattazione si ferma al 1994.

Comparison of methods & costs of digital preservation di Tony Hendley, 2000.
Ampia trattazione sui metodi e sui costi. [scaricabile in  PDF e HTML] 

Moving theory into practice : digital imaging tutorial / Cornell University Library, 2003.
Un ottimo corso in tre lingue (anche spagnolo e francese) suddiviso in 10 capitoli sintetici ma completi di esempi e suggerimenti di approfondimento.



Rif. 152949