Gallica sur mon CyBook ?

J'ai une grande affection pour Gabriel Naudé, et j'aimerais toujours avoir certains de ses textes sur moi, notamment le célebrissime Advis pour dresser une bibliothèque.

Ce texte est désormais disponible sur Gallica à l'adresse suivante : http://gallica.bnf.fr/ark:/12148/bpt6k6514x.notice Malheureusement, le PDF généré sur la plate-forme Gallica est au format A4, et le texte de Naudé est inséré "à la hache", en haut au milieu. Autrement dit, sur mon CyBook, je ne vois rien, même si ô miracle, j'arrive à voir que le texte est là... ce qui n'est pas le cas pour tous les textes numériques que je récupère sur certaines plate-formes, parfois payantes. Donc, voici les manipulations pour arriver à quelque chose de correct : - télécharger le PDF du texte complet; - extraire les images du PDF. Beaucoup d'outils, sous Linux l'excellent pdfimages le fait très bien : on tape pdfimages -j fichier.pdf nom_des_fichiers_générés et on récupère une palanquée de fichiers images au format PBM; - on convertit tout ça en JPG si besoin (en option); - on utilise ImageMagick pour inverser les négatifs, puisqu'on dirait que les clichés ont été faits à partir des microfilms; commande à utiliser : convert image.jpg -negate negatif.jpg - j'utilise ensuite ImageMagick pour retailler les images et supprimer les immenses marges blanches : convert negatif.jpg -crop 900x1700+750+50 image_recadrée.jpg Cette phase est la plus délicate, puisqu'il faut déterminer, dans l'ordre : * la largeur de la nouvelle image (premier chiffre) * la hauteur de la nouvelle image (deuxième chiffre) * la marge verticale à supprimer à gauche (premier chiffre précédé d'un +) * la marge horizontale à supprimer en haut (deuxième chiffre précédé d'un +) J'ajoute que l'on compte tout ça à partir du coin supérieur gauche de l'image, comme en SVG. - comme il faut répéter ça pour 200 images, j'ai trouvé un micro script bash qui fait ça, en une ligne : for fichier in *.jpg; do convert $fichier -crop 1200x1700+750+50 $fichier; done - ensuite, soit il faut recréer un PDF avec ces images et rien autour, soit un fichier PRC Mobipocket (en attendant mieux...) Bon, c'est laborieux et fastidieux, donc je ne chargerai pas tout Gallica sur mon CyBook, c'est sûr. Màj : le passage par Mobipocket Creator a été fatal pour ma productivité : uneheure de boulot pour arriver à ce qui est visible en pièce jointe, mais avec des tonnes de pages blanches... faut encore creuser...

Fichier attachéTaille
gallica_cybook.jpg414.15 Ko

Commentaires

Et en plus, il y a des pages blanches régulièrement, grrr...

Encore un effort si vous voulez lire les ouvrages de Gallica sur votre CyBook !

Ouah ! la chance, tu as un

Ouah ! la chance, tu as un cybook, je suis en train de me tâter pour en acheter un. C'est un bon investissement ?

Voilà, une fausse bonne excuse pour, enfin, se revoir après tant de mois !! Non ?

Bon investissement ?

Oui, c'est un bon investissement pour la lecture détente et pour lire les documents professionnels de type normes, compte-rendus, etc... pour le reste, je pense que l'Irex est préférable (wifi, écran tactile) d'autant que les prix baissent... de toute façon, c'est à suivre, ça va beaucoup évoluer ces prochains mois.

C'est dommage tu as faits le

C'est dommage tu as faits le plus dur. Tu as établis la procédure tu peux maintenant écrire un programme qui te permette de le faire automatiquement.

Ce qui te manque c'est quelques chose pour trouver où cropper, mais je suis sûr qu'en te penchant encore plus en avant dans la doc d'ImageMagick tu trouveras comment faire.

Et tu deviendras ce type qui a écrit un programme qui permet d'importer un ouvrage de Gallica dans un eBook.

Où alors je note ça pour un projet de Master.

:-)