Greenstone – Koha : dialogue entre un SIGB et une GED libres

En attendant la publication d’un document sur l’intégration de Greenstone et Koha dans un même outil, disponible prochainement à l’adresse http://dharmaganja.ncsi.iisc.ernet.in/ je vous livre ci-dessous la méthodologie choisie pour faire fonctionner en parallèle Greenstone et Koha, sur les mêmes données, mais en laissant à chaque logiciel sa spécificité.

Historiquement, l’établissement qui m’emploie a catalogué des documents « non-livres » dans son SIGB. Il y a donc des notices d’estampes (environ 1000) et de tirés à part (environ 25 000) catalogués en UNIMARC dans la base du SIGB. On peut en discuter, mais cela a été bien fait, et il semblait intéressant d’en profiter pour la diffusion des versions numériques de ces documents.

I. Avant de passer à Koha : les estampes
Avec un SIGB propriétaire et fermé, une seule solution, l’export des données au format UNIMARC.
C’est ce qui a été fait pour les notices bibliographiques des estampes. Greenstone est capable d’importer ces données MARC au format Dublin Core en respectant une table de correspondance sommaire (voir pièce jointe). Un peu de configuration dans Greenstone pour créer les liens automatiquement (en utilisant la cote du document) vers les vignettes ou les versions « haute définition » des images et le tour est joué. Petite précision, les versions numériques des estampes avaient été produites avant l’installation de Greenstone et ne sont pas stockés dans ce logiciel, mais simplement déposées sur un serveur web. Dans cette configuration, Greenstone ne fait que recueillir des métadonnées et créer des liens.

Avantages : l’ensemble des notices d’estampes a pu être traité rapidement; la notice descriptive dans Greenstone est aussi riche qu’une notice de catalogage;
Inconvénients : le lien entre le document et ses métadonnées est factice, et il serait intéressant d’embarquer les métadonnées de catalogage dans l’image numérique, par exemple en utilisant les métadonnées IPTC (d’autres idées ?). Il est théoriquement possible de lier un fichier image et un fichier de métadonnées dans Greenstone, mais je n’ai toujours pas compris comment…

II. Après le passage à Koha : les tirés à part

La situation de départ est la même : les documents sont catalogués au format UNIMARC, avec création d’une notice bibliographique et d’une notice d’exemplaire. Mais les conditions de travail sont différentes : cette fois, on a accès aux données directement dans la base et on doit numériser en même temps. C’est cette démarche que je vais décrire maintenant.

Grâce au renfort d’une formaidable stagiaire de l’EBSI, il a été possible de mettre en place une véritable micro-chaîne de numérisation, avec pour seuls moyens un scanner de documents (destiné d’ordinaire à la dématérialisaiton du courrier entrant dans les entreprises).
En deux mots, cette chaîne de numérisation puise les métadonnées dans Koha, les insère dans un fichier PDF, et les envoie à Greenstone. Chaque nuit, Greenstone reconstruit automatiquement sa collection et assure la diffusion des versions texte et image des documents PDF.

Etape 1 : dématérialisation et production des fichiers PDF
Chaque tiré à part est dérelié et massicoté, puis passé dans le scanner. Lors du catalogage, mes collègues collent un code barres sur la page de titre ou la première page de texte. Le scanner reconnaît ce code à barres et crée automatiquement un nouveau document nommé à partir de ce code, genre 0000003000434.pdf pour la version couleur et 0000003000434NB.pdf pour la version noir et blanc.
Lorsque l’opérateur a fini de traiter un lot de documents, il les transfère en masse sur le serveur.

Etape 2 : contrôle qualité et récupération des métadonnées
Une interface écrite en PHP permet de valider la numérisation et d »ajouter des commentaires. Elle est connectée à la base Koha et fonctionne de la manière suivante : l’opérateur commence par scanner le code à barres des documents numérisés et transférés. La base Koha est interrogée, et renvoie les principales informations bibliographiques si le document a bien été catalogué. Après validation de la numérisation, ces métadonnées sont insérées dans une table particulière, qui permet de suivre l’avancée des opérations. Ici s’arrête le travail humain, le reste est automatique.

Etape 3 : génération des fichiers PDF pour Greenstone
Les métadonnées récupérées de Koha sont aussi écrites dans un petit fichier texte, puis insérées dans le PDF, en utilisant un outil très efficace, pdftk. On aurait pu aussi passer par XMP, le format de métadonnées des fichiers PDF proposé par Adobe. C’était un peu plus complexe, mais faisable. Cela permettrait peut-être de résoudre un des problèmes actuels, celui des diacritiques, mal importés par Greenstone.
Un contrôle est alors effectué sur la date de publication du document : s’il est antérieur à 1939, on considère qu’il est publiable, et diffusable sur le web. Il est alors recopié dans le répertoire d’importation de la collection des tirés à part de Greenstone. S’il est postérieur, il est simplement stocké sur le serveur, sans être transféré vers Greenstone. Il n’apparaîtra donc pas dans la collection publique.

Etape 4 : insertion d’un lien vers la version numérique dans Koha
Plutôt que de confier à l’opérateur le soin de rajouter manuellement un champs 856 $u dans la base Koha pour chaque tiré à part, il a paru plus simple de le faire automatiquement, puisqu’une simple requête SQL est capable de le faire. Deux champs koha sont à modifier, biblioitems.url et biblioitems.marcxml. On y insère un lien autogénéré à partir du code barre, par exemple http://bibnum.enc.sorbonne.fr/tires-a-part/0000003000434
Pour simplifier les url, des règles de réécriture ont été ajoutées dans Apache : http://bibnum.enc.sorbonne.fr/tires-a-part/0000003000434 fait automatiquement une recherche dans Greenstone sur les tirés à part, avec le code barre 0000003000434

Etape 5 : reconstruction de la collection et configuration de Greenstone
Depuis la vesion 2.81, Greenstone peut être facilement configuré pour reconstruire automatiquement ses collections à partir des documents présents dans le répertoire d’importation propre à chaque collection. les nouveaux documents PDF produits sont donc pris en charge chaque nuit.
En terme de configuration de Greenstone, il a fallu ajouter un lien vers la version noir et blanc, et proposer un lien qui renvoie vers la notice dans Koha, qui est beaucoup plus complête sur le plan bibliographique. Ce lien est construit lui aussi sur le code barre, de la forme http://koha.enc.sorbonne.fr/bc/0000003000434 et une réécriture Apache permet de le transformer en une recherche OPAC sur le code barre correspondant.

L’ensemble de ces opérations est résumé dans le schéma ci-joint.

Avantages : opérations manuelles réduites au minimum; fiablité de l’identification des documents, grâce à l’utilisation massive des codes à barres;
Inconvénients : problème d’affichage des diacritiques dans les métadonnées; manque de richesse des métadonnées dans les documents PDF;

Toute remarque est la bienvenue.

Fichier attaché Taille
chaine2.jpg 293.73 Ko

Greenstone et MarcXML

Une question courante, dont la réponse est introuvable sur le Net : comment importer des notices au format MarcXML dans Greenstone ?

Evident, me direz-vous… et bien non… le plugin plugiciel MarcXML de Greenstone est assez capricieux, voire facétieux. En effet, il n’accepte que des fichiers MarcXML dont les enregistrements (situés entre les balises <Record>…</Record>) sont eux-mêmes encadrés par des balises <Collection></Collection>.
Ce qui est rarement le cas lorsque vous exportez vos données à partir d’un SIGB par exemple, ou d’un réservoir de notices bibliographiques. Il m’a fallu passer par un export de mes collections Greenstone en MarcXML pour m’en rendre compte, c’est cruellement absent de la documentation.

Notices BnF dans Zotero

Mise à jour le 2 mars 2011

Le catalogue de la BnF est désormais compatible avec Zotero. Merci à eux, merci à Lully pour les précisions.

———————

En attendant que le catalogue de la BnF soit compatible avec Zotero ou propose un export dans un format compatible, voici une petite astuce, qui vaut ce qu’elle vaut :
– faire la recherche bibliographique dans Bn Opale+;
– relever le numéro de notice BnF, qui commence par FRBNF…
– copier / coller ce numéro dans Google, qui a la bonne idée d’indexer la Bibliographie nationale française;
– si cette dernière a traité ce document, on récupère directement un lien vers le fichier qui porte comme nom le numéro de la notice recherchée, suivi de iso2709. C’est de l’UNIMARC, compatible avec Zotero.
– il ne reste plus qu’à importer cette notice dans Zotero, et à vérifier l’encodage des caractères…

Papier pour les riches, e-paper pour les autres ?

La production de papier pour le livre étant en baisse régulière, celle du e-paper augmentant régulièrement, je me demande si le livre numérique ne va pas servir à la diffusion massive virtuelle des connaissances ou de la culture, par opposition à une diffusion des connaissances par le biais de supports physiques réservée à un petit nombre de privilégiés, capables de payer le prix fort pour un vrai livre.
Ce qui me laisse penser que c’est déjà en cours, c’est le choix des éditeurs de passer en ebook généralement les livres de poche, les livres pratiques, à faible prix, vite dépassés, vite rentabilisés (?) L’excuse est technique, bien sûr que les beaux livres d’art sur écran, aujourd’hui c’est affreux, mais l’excuse technique n’est que passagère.
Au-delà, le numérique serait-il un truc de pauvres, la vraie vie et ses belles choses étant réservée aux plus riches ?

Dante, Divine comédie

Bon, rien à voir avec ce que je fais d’habitude, sauf qu’il y a du Perl…
L’objectif était de séparer les chants de la Divine Comédie, récupérés en langue originale sur le projet Gutenberg, pour les numéroter, avant de les fusionner, pour les faire digérer par un moteur local comme Beagle ou mieux, Philologic.
Je vous livre le résultat final, qui correspondait à un usage très précis, je le répète. Si ça peut servir à quelqu’un d’autre…

Fichier attaché Taille
dc.txt 788.91 Ko

Ce qui compte dans le logiciel libre….

… c’est le mental !

Quelques règles d’hygiène de vie lorsqu’on mène un projet professionnel avec des logiciels libres :
– garder l’objectif en vue;
– savoir décrocher;
– savoir décrocher;
– savoir décrocher;
– relire le manuel;
– réinstaller tout depuis le début;
– aller dormir;
– faire un footing le lendemain;
– ne jamais déespérer ; il y a toujours un compère qui a eu lui aussi les pires problèmes et il y a toujours un administrateur bienveillant pour vous aider.

Journée ABF ebook, 9 mars 2009 3/3

Prêt de livres électroniques à la BDP Hérault, Sandrine Roche-Dailly, Direction départemantale du livre et de la lecture de l’Hérault

235 bibliothèques à desservir, avec ou sans personnel, ressources, etc…

Une étude préalable en 2007, pour la diffusion de contenus dématérialisés : presse en ligne, sites ludo éducatifs, guides pratiques.

Accès : accès sur place dans 85 bibliothèques, nomade pour 93 000 lecteurs desservis (wouah, ça c’est de l’accès distant)

Cyberlibris : accès par adresse IP fixe pour les bibliothèques;par login / mot de passe pour les accès nomades.

Pas de téléchargement des ouvrages pour le moment (manque de standards pour le format et la tablette)

Consultation via une liseuse avec outils notation, signets, etc, et des menus supplémentaires de type Web 2.0

Stats de connexion : 50 bibliothèques municipales inscrites, 300 utilisateurs nomades.

La BDP passe par les relais des bibliothèques municipales, d’où un investissement variable en fonction des personnels sur place et de leur temps disponible.

NB : pas de maîtrise sur le catalogue de Cyberlibris, indépendant des demandes des bibliothèques, mais la société est soucieuse de faire des remontées aux éditeurs en fonction des demandes des bibliothèques.

 

Journée ABF ebook, 9 mars 2009 2/3

Les livres électroniques à Toulouse LeMirail avec Numilog, par Emmanuel Saubion, Université de Toulouse le Mirail

– Présentation du site Numilog pour la bibliothèque

C’était un vrai retour d’expérience assorti d’une bonne démonstration, vraiment intéressant. Et j’ai plein de questions en suspens…

Le choix a été fait en 2007, avec un abonnement à 3 exemplaires; renouvelable chaque année.

La personnalisation graphique et thématique des sous-thèmes a été faite pour l’interface publique.

J’ai appris que la liseuse en ligne de Numilog comptabilise un exemplaire, ça c’est vraiment vache !

L’offre est passée de 6200 titres en 2006 à 33 000 en janvier 2009… peut-être que je vais un jour trouver des livres à lire chez eux.

Le choix de politique documentaire est clair :les exemplaires numériques sont complémentaires du papier et permettent la création de nouvelles collections thématiques (informatique, méthodologie).

La répartition thématique : littérature, sociologie, psychologie, guides pratiques, informatique.

100 prêts par mois, 75% à distance

Intéressant, la baisse de prêts pendant périodes de fermeture de la bibliothèque : faut-il relancer les étudiants tous les matins, comme certains systèmes d’expoitation ?

Peu d’emprunts en littérature… ben tiens, sans liseuse epaper, la Princesse de Clèves perd de son charme…

Pas de gestion des groupements régionaux de bibliothèques pour le moment.

Numilog doit encore être intégré dans les cours en ligne, et sur l’ent

Et mes questions :

le format epub est disponible sur Numilog bibliothèques ?

L’achat pérenne nécessite un serveur de stockage ?

le nombre de prêts hors heures d’ouverture, mais pendant les périodes non fériées ?

quel rôle des enseignants prescripteurs ?

comment est organisé le budget Numilog ?

 

 

 

Journée ABF ebook, 9 mars 2009 1/3

Quelques notes prises au fil des interventions de l’après-midi.
Les présentations et l’audio seront disponibles prochainement sur le site de l’ABF.

1. Le Livre électronique pour étudiants et chercheurs, par Jérémy Jeanguenin, BBF

 

lecture électronique, de picorage => lecture scientifique

 

l’ebook, réponse à la mobilité ?

Une enquête de l’agrégateur eBrary sur 400 bibliothèques universitaires, avec volontaires de tout niveau :italiens et américains majoritaires,premiers cycles majoritaires.

 

On note : doublage / tuilage / superposition des pratiques papier et numérique; l’ebook sur ordinateur fortement sollicité.

 

Le premier problème relevé par les enquêtés : la localisation des ebooks; puis difficultés lecture et de manipulation.

 

D’où l’ebook tire-t-il son autorité ?
– prescription par les enseignants,
– réputation éditeur,
– les recommandations diverses (pairs, bibliothèque);
– la présence du livre papier légitime l’ebook correspondant.

L’ebook est attractif si :
– plus de titres;
– moins de verrous numériques;
– titres actualisés;
– plus de multimedia;
– accès sur supports mobiles;
– meilleure formation à l’usage des ebooks.

Conclusions :
– le marché n’imposera pas les usages, les usagers vont créer les usages, et le marché devra suivre;
– la désintermédiation et l’effacement de la machine devant les usages aboutiront à de vraies tablettes de lecture.