Greenstone – Koha : dialogue entre un SIGB et une GED libres

En attendant la publication d’un document sur l’intégration de Greenstone et Koha dans un même outil, disponible prochainement à l’adresse http://dharmaganja.ncsi.iisc.ernet.in/ je vous livre ci-dessous la méthodologie choisie pour faire fonctionner en parallèle Greenstone et Koha, sur les mêmes données, mais en laissant à chaque logiciel sa spécificité.

Historiquement, l’établissement qui m’emploie a catalogué des documents « non-livres » dans son SIGB. Il y a donc des notices d’estampes (environ 1000) et de tirés à part (environ 25 000) catalogués en UNIMARC dans la base du SIGB. On peut en discuter, mais cela a été bien fait, et il semblait intéressant d’en profiter pour la diffusion des versions numériques de ces documents.

I. Avant de passer à Koha : les estampes
Avec un SIGB propriétaire et fermé, une seule solution, l’export des données au format UNIMARC.
C’est ce qui a été fait pour les notices bibliographiques des estampes. Greenstone est capable d’importer ces données MARC au format Dublin Core en respectant une table de correspondance sommaire (voir pièce jointe). Un peu de configuration dans Greenstone pour créer les liens automatiquement (en utilisant la cote du document) vers les vignettes ou les versions « haute définition » des images et le tour est joué. Petite précision, les versions numériques des estampes avaient été produites avant l’installation de Greenstone et ne sont pas stockés dans ce logiciel, mais simplement déposées sur un serveur web. Dans cette configuration, Greenstone ne fait que recueillir des métadonnées et créer des liens.

Avantages : l’ensemble des notices d’estampes a pu être traité rapidement; la notice descriptive dans Greenstone est aussi riche qu’une notice de catalogage;
Inconvénients : le lien entre le document et ses métadonnées est factice, et il serait intéressant d’embarquer les métadonnées de catalogage dans l’image numérique, par exemple en utilisant les métadonnées IPTC (d’autres idées ?). Il est théoriquement possible de lier un fichier image et un fichier de métadonnées dans Greenstone, mais je n’ai toujours pas compris comment…

II. Après le passage à Koha : les tirés à part

La situation de départ est la même : les documents sont catalogués au format UNIMARC, avec création d’une notice bibliographique et d’une notice d’exemplaire. Mais les conditions de travail sont différentes : cette fois, on a accès aux données directement dans la base et on doit numériser en même temps. C’est cette démarche que je vais décrire maintenant.

Grâce au renfort d’une formaidable stagiaire de l’EBSI, il a été possible de mettre en place une véritable micro-chaîne de numérisation, avec pour seuls moyens un scanner de documents (destiné d’ordinaire à la dématérialisaiton du courrier entrant dans les entreprises).
En deux mots, cette chaîne de numérisation puise les métadonnées dans Koha, les insère dans un fichier PDF, et les envoie à Greenstone. Chaque nuit, Greenstone reconstruit automatiquement sa collection et assure la diffusion des versions texte et image des documents PDF.

Etape 1 : dématérialisation et production des fichiers PDF
Chaque tiré à part est dérelié et massicoté, puis passé dans le scanner. Lors du catalogage, mes collègues collent un code barres sur la page de titre ou la première page de texte. Le scanner reconnaît ce code à barres et crée automatiquement un nouveau document nommé à partir de ce code, genre 0000003000434.pdf pour la version couleur et 0000003000434NB.pdf pour la version noir et blanc.
Lorsque l’opérateur a fini de traiter un lot de documents, il les transfère en masse sur le serveur.

Etape 2 : contrôle qualité et récupération des métadonnées
Une interface écrite en PHP permet de valider la numérisation et d »ajouter des commentaires. Elle est connectée à la base Koha et fonctionne de la manière suivante : l’opérateur commence par scanner le code à barres des documents numérisés et transférés. La base Koha est interrogée, et renvoie les principales informations bibliographiques si le document a bien été catalogué. Après validation de la numérisation, ces métadonnées sont insérées dans une table particulière, qui permet de suivre l’avancée des opérations. Ici s’arrête le travail humain, le reste est automatique.

Etape 3 : génération des fichiers PDF pour Greenstone
Les métadonnées récupérées de Koha sont aussi écrites dans un petit fichier texte, puis insérées dans le PDF, en utilisant un outil très efficace, pdftk. On aurait pu aussi passer par XMP, le format de métadonnées des fichiers PDF proposé par Adobe. C’était un peu plus complexe, mais faisable. Cela permettrait peut-être de résoudre un des problèmes actuels, celui des diacritiques, mal importés par Greenstone.
Un contrôle est alors effectué sur la date de publication du document : s’il est antérieur à 1939, on considère qu’il est publiable, et diffusable sur le web. Il est alors recopié dans le répertoire d’importation de la collection des tirés à part de Greenstone. S’il est postérieur, il est simplement stocké sur le serveur, sans être transféré vers Greenstone. Il n’apparaîtra donc pas dans la collection publique.

Etape 4 : insertion d’un lien vers la version numérique dans Koha
Plutôt que de confier à l’opérateur le soin de rajouter manuellement un champs 856 $u dans la base Koha pour chaque tiré à part, il a paru plus simple de le faire automatiquement, puisqu’une simple requête SQL est capable de le faire. Deux champs koha sont à modifier, biblioitems.url et biblioitems.marcxml. On y insère un lien autogénéré à partir du code barre, par exemple http://bibnum.enc.sorbonne.fr/tires-a-part/0000003000434
Pour simplifier les url, des règles de réécriture ont été ajoutées dans Apache : http://bibnum.enc.sorbonne.fr/tires-a-part/0000003000434 fait automatiquement une recherche dans Greenstone sur les tirés à part, avec le code barre 0000003000434

Etape 5 : reconstruction de la collection et configuration de Greenstone
Depuis la vesion 2.81, Greenstone peut être facilement configuré pour reconstruire automatiquement ses collections à partir des documents présents dans le répertoire d’importation propre à chaque collection. les nouveaux documents PDF produits sont donc pris en charge chaque nuit.
En terme de configuration de Greenstone, il a fallu ajouter un lien vers la version noir et blanc, et proposer un lien qui renvoie vers la notice dans Koha, qui est beaucoup plus complête sur le plan bibliographique. Ce lien est construit lui aussi sur le code barre, de la forme http://koha.enc.sorbonne.fr/bc/0000003000434 et une réécriture Apache permet de le transformer en une recherche OPAC sur le code barre correspondant.

L’ensemble de ces opérations est résumé dans le schéma ci-joint.

Avantages : opérations manuelles réduites au minimum; fiablité de l’identification des documents, grâce à l’utilisation massive des codes à barres;
Inconvénients : problème d’affichage des diacritiques dans les métadonnées; manque de richesse des métadonnées dans les documents PDF;

Toute remarque est la bienvenue.

Fichier attaché Taille
chaine2.jpg 293.73 Ko