Tag Archives: catalogare

8. Viitorul catalog partajat național (culturalia.ro). Sugestii/dileme privind organizarea datelor catalografice și a mecanismului de întreținere a calității acestora

(NB. Publicat la 27 mai 2018)

(expunere la Conferința de primăvară a ANBPR, Bacău, 18.05.2018)

1. Proiectul E-Cultura: stadiul actual

Reamintesc: Institutul Național al Patrimoniului [INP] – din postura sa de agregator național pentru Biblioteca Digitală Europeană (europeana.eu) – a propus acest proiect încă din 2014, ca parte a Agendei Digitale pentru România. El a fost inclus în Programul Operațional Competitivitate [POC] și anume în Acțiunea 2.3.3 „Îmbunătățirea conținutului digital și a infrastructurii TIC sistemice în domeniul e-educație, e- incluziune, e-sănătate și e-cultură” și urmează a fi finanțat cu circa 11 milioane de euro, pentru trei ani.

Obiectivele proiectului sunt:

  • Dezvoltarea unei platforme informatice online de catalog național partajat și portal de bibliotecă digitală (Culturalia), disponibilă gratuit oricărei instituții culturale, precum și publicului larg. (Aceasta urmează a fi pandantul național al Bibliotecii Digitale Europene europeana.eu).
  • Expunerea online în Biblioteca Digitală a României (culturalia.ro) și în Biblioteca Digitală Europeană (europeana.eu) a circa 550.000 de bunuri culturale (texte, imagini, audiograme, videograme, obiecte 3D).

(În sfârșit), proiectul este în faza de contractare între Ministerul Fondurilor Europene și Ministerul Culturii.

2. Europeana vs. (imaginata) Culturalia

2.1. Similitudini

  • Ambele sunt (platforme informatice pentru) cataloage „universaliste” de resurse culturale, adică includ înregistrări catalografice (i.e. metadate) atât provenite din biblioteci, cât și din muzee, arhive, teatre etc. Cu alte cuvinte, descrieri pentru orice fel de resurse culturale.
  • Ambele oferă baleiere fațetată.

Astfel arată acest fel de baleiere în portalul Europeana (https://www.europeana.eu/portal/en/search?q=*&view=grid):

Dar, în Culturalia, am prefera să arate mai sofisticat, chiar mai sofisticat decât în biblio.ro (exemplu: căutarea “Naum”):

2.2. Diferențe

Europeana Culturalia
Este un catalog colectiv, i.e. este alimentat cu date offline. Deocamdată furnizorii sunt doar instituții culturale. Ar fi un catalog partajat, i.e. alimentat cu date online și la descrierea unei resurse pot contribui mai mulți catalogatori. Furnizorii ar fi atât instituțiile culturale, cât și publicul larg. De notat că americanii au un asemenea catalog de aproape 40 de ani (http://www.worldcat.org/). Dar și basarabenii au unul de aproape 20 de ani (http://sibimol.bnrm.md/ro/)
Conține metadate (i.e. fișe descriptive) de resurse culturale digitale expuse online. Ar conține metadate (i.e. fișe descriptive) atât pentru resurse culturale digitale expuse online, cât și pentru resurse culturale fizice, aflate în colecțiile instituțiilor. În definitiv, din perspectiva fișei catalografice, ce mi-e că „adresa” unei resurse culturale este http://www.cimec.ro/pdf/dl.asp?filename=Lambrino-Marcelle-Es-vases-archaiques-d-Histria.pdf sau “BNaR, cota CDR 224”.
Obiectele digitale descrise în catalog se află în repozite digitale locale (i.e. pe saiturile furnizorilor). Obiectele digitale s-ar afla atât în repozite locale, i.e. pe saiturile furnizorilor, cât și (opțional) în repozitul digital central. Consecință colaterală: ar fi unde să se stocheze material digital expus de către public (așa numitul UGC [User Generated Content]).
(Din punct de vedere al modelului de date și al formatului intern) conține înregistrări metadatale (fișe catalografice) „clasice”. Ar conține enunțuri (i.e. fișe catalografice „deconstruite”) interconectate, adică în paradigma LOD [Linked Open Data], paradigme încă ne-uzuală, dar aplicată deja în mari instituții din lume, e.g.:

Entitățile contextuale (concepte, persoane, locuri, perioade etc.): sunt încorporate în înregistrările catalografice, în maniera clasică. Entitățile contextuale ar fi „autonome” (i.e. datele catalografice ar fi pe același plan cu cele de autoritate).

 

 

Ontologia subiacentă este EDM [Europeana Data Model] (https://pro.europeana.eu/resources/standardization-tools/edm-documentation) Ontologia subiacentă ar fi una eclectică (dar mult mai granulară), bazată pe modelele conceptuale standard:

Oferă doar căutare. Ar oferi pe lângă căutare și baleieri alfabetică, sistematică, cronologică, și spațială.

Exemplu de baleiere spațială (imitabil): INP/CIMEC: muzee și colecții (http://map.cimec.ro/Mapserver/):

Și un exemplu de baleiere cronologică (imitabil): WorldCat Identities – căutare “Moliere” (https://www.worldcat.org/identities/lccn-n79043851/):

3. Culturalia: (doar) catalog !

Platforma Culturalia nu-și propune să fie un „sistem integrat de bibliotecă” și nici un „sistem integrat de muzeu”. Așadar, va oferi doar catalog. Cu alte cuvinte, nu va putea fi folosită pentru a gestiona împrumuturi sau achiziții.

Însă platforma va oferi o interfață programabilă (i.e. API [Application Programming Interface]), așadar producătorii de soft vor putea dezvolta și sisteme „dezintegrate”, cu alte cuvinte, vor putea dezvolta sisteme locale care să ofere funcționalitățile necesare gestionării unei colecții, intefațându-le cu catalogul național partajat.

4. Culturalia: tipurile de enunțuri propuse

Entitățile culturale înregistrate în catalogul Culturalia ar urma să fie descrise prin aserțiuni de următoarele tipuri:

  • textuale (text sau XML + limbă);
  • booleene;
  • numerice (întreg sau real + unitate de măsură);
  • temporale (an + lună + zi + oră + minut + secundă + tip de calendar);
  • spațiale (latitudine + longitudine + altitudine + sistem de referință);
  • URL.

ca și prin relații între ele, ca de pildă între o lucrare și autorul ei.

În plus, entităților li se vor putea asocia intrări de index elaborate, care să permită – pe lângă căutare – baleierile lexicografice, sistematice și temporale.

5. Culturalia: asigurarea calității datelor

Un principiu fundamental pentru controlul calității datelor mi se pare a fi: fiecărui enunț trebuie să i se consemneze proveniența, adică să fie limpede cine-și asumă responsabilitatea intelectuală pentru acea afirmație. Așadar (în principiu), pentru fiecare aserțiune să se știe cine a făcut-o, când și pe ce bază (i.e. autor + datare + referințe) !

Dacă pentru datele noi ce vor fi introduse în catalog acest principiu se poate aplica fără mari probleme, pentru multele înregistrări catalografice preexistente (adică cele moștenite) și care urmează a fi ingerate în noua bază de date, aplicarea lui va fi – desigur – foarte aproximativă.

Accesul la fiecare enunț ar trebui limitat la zone, cu niveluri de acces (stabilite de catalogator), atât la modificare cât și la citire. Astfel unele enunțuri pot fi confidențiale, în afara unui cerc de utilizatori, stabilit de către emitentul enunțului. O „zonă” ar fi definită de un domeniu (e.g. arheologie, terminologie, literatură idiș, artă suprarealistă) și o cuprindere (e.g. o anume instituție, o anume rețea, întreaga țară, global).

Așadar, utilizatori ar trebui să primească autorizări pe zone, cu niveluri de acces (atât în scriere, cât și în citire), de pildă între 1 și 9). De notat că un enunț provenit de la un „amator” (inclusiv o editură) ar trebui să stea în „carantină”, până este „certificat” de către un utilizator autorizat. Iar enunțurile în carantină ar trebui marcate explicit (de pildă afișate pe fond galben 🙂

Așadar, agenți care ar putea înregistra în Culturalia ar fi:

a. Administratori
b. Utilizatori:
…b.1. autorizați (per zonă și cu nivel de acces)
…b.2. public

Schematic, accesul la enunțuri (în scriere) ar arăta cam așa (în practică, mă aștept să fie mai complicat):

6. Dilemele

a. Cine ar trebui să acorde autorizările ?

  • asociațiile profesionale ?
  • Ministerul Culturii ?
  • Comisiile Naționale (ale Bibliotecilor și ale Muzeelor) ?

b. Cum „evoluează” nivelurile de acces, odată cu creșterea experienței unui catalogator ?

Sigur că o sursă de inspirație ar putea fi sistemul de autorizare pe care-l practică OCLC (de zeci de ani): https://www.oclc.org/developer/develop/authentication.en.html

c. GDPR [General Data Protection Regulation] ne afectează ?

Cum ?

Și în cazul catalogatorii „neprofesioniști” (adică a publicului contributor) responsabilitatea intelectuală e importantă, așadar:

  • nu tare ne-ar plăcea identități multiple (personas); sau nu prea contează ?
  • oare ar fi util să-i „înregistreze” biblioteca locală ?

7. Ce facem – în așteptare – ca să minimizăm durata „analizei” la dezvoltatorul softului platformei Culturalia

<paranteză>
Nu sunt de loc amator de fandoseli anglicizante, dar am folosit – à contre-coeur – terminologie englezească din două motive: 1) toate specificațiile pentru Culturalia ar trebui discutate și cu colegii din EuropeanaTech (https://pro.europeana.eu/network-association/special-interest-groups/europeanatech) și 2) e foarte posibil ca la licitația pentru dezvoltarea softului să participe și firme străine.
</paranteză>

a. Dezvoltăm o ontologie a bazei de date (provizoriu numită CPoT [CRM Properties of Things], și bazată pe CIDOC-CRM și FRBRoo).

Iată (de curiozitate) vârful ierarhiei claselor (cel puțin la momentul ăsta). Cele cu prefixul “crm” sunt preluate din CIDOC-CRM sau FRBRoo, iar cele cu prefixul “cpot” sunt adaosuri:

Notez că e nevoie de (relativ) multe adaosuri „locale”, deoarece nu ne putem permite să pierdem elemente foarte specifice, când convertim bazele de date moștenite.

Și iată un fragment din ierarhia proprietăților (se văd: numele proprietății, numele proprietății inverse, clasa-domeniu și clasa-codomeniu):

b. Am elaborat o propunere de format de serializare a metadatelor (provizoriu denumit CEF [Culturalia Exchange Format]).

Iată un exemplu de enunțuri, în formatul CEF (desigur, nu este destinat ochiului omului, ci programelor):

… nici nu arată mai rău decât MARC 🙂

c. Constituim o bază de date-prototip („proof-of-concept”).

Iată (de curiozitate) tabelele (în stadiul actual), într-o bază SqlServer:

d. Am început să elaborăm repertoriul „entităților contextuale” (i.e. fișiere de autoritate – cum le ziceam noi, cei de modă veche).

Iată o mostră, într-o formă rudimentară de înregistrare (un Google Sheet):

e. Convertim (experimental) date din bazele noastre (i.e. ale Institutului Național al Patrimoniului) curente.

Să sperăm că proiectul pornește cât de iute.