Lectures numériques | Quand Google crée du contenu…les éditeurs ne doivent pas avoir peur
Lire

Fabrication

Quand Google crée du contenu…les éditeurs ne doivent pas avoir peur

Google vient de mettre à disposition de Sony 500 000 ebooks du domaine public en epub. Cet accord prouve si besoin l’implication très forte de Google sur le marché du livre numérique. Mais quel est le résultat ?

Ces fichiers sont directement issus de la numérisation qu’ils ont commencé en masse dans certaines bibliothèques universitaires américaines. Parmi eux, de nombreux livre en français. J’en ai téléchargé quelques-uns pour examiner la qualité de ces fichiers.

Comment accéder à ces fichiers ?

Ces livres ne sont disponibles pour l’instant que sur la boutique en ligne de Sony (Sony eBook Store) et accessibles lorsqu’on télécharge le logiciel de lecture de Sony. Une petite opération marketing qui permettra à Sony de récupérer un fchier client relativemet important.
Une fois sur l’eBook Store, un onglet spécifique permet de rechercher sur le fonds Google. La fiche descriptive de chaque livre est très sommaire : titre, auteur, date de parution, éditeur.

Un bouton « Google Preview » affiche les premières pages scannées du livre. La fonction « Download now » ajoute le livre à la bibliothèque Sony. Aucune information sur le format : l’ensemble est transparent pour l’utilisateur. Sur votre ordinateur, les fichiers sont téléchargés dans le dossier My Books/eBook Library. Et ce sont bien des fichiers ePub. L’ouverture correcte dans Digital Editions le confirme.

Quel est le contenu de ces fichiers ?

Un texte en forme d’avertissement ouvre tous ces fichiers :

« Despite our best efforts you may see spelling mistakes, garbage characters, extraneous images, or missing pages in this book. Based on our estimates, these errors should not prevent you from enjoying the content of the book. The technical challenges of automatically constructing a perfect book are daunting,but we continue to make enhancements to our OCR and book structure extraction technologies.
We hope you’ll enjoy these books as much as we do. »
Google justifie la mauvaise qualité de sa numérisation par l’état parfois abîmé des livres anciens et la complexité des algorithmes utilisés par l’OCR pour l’extraction du texte. Pour conserver l’état d’origine du livre numérisé, les premières pages (titre, copyright, etc.) sont en fait les images du scan. Une approche qui reste intéressante pour les bibliothécaires, puisqu’elle permet d’étudier les mentions manuscrites ou les tampons apposés sur les premières pages, témoignages de collections particulières auxquelles appartenaient certaines éditions.
Le contenu lui-même a donc été passé à l’OCR pour être retranscrit en plein texte. Parmi les grandes faiblesses des algorithmes d’extraction de Google, on trouvera les titres courants, qui sont intégrés dans le fil du texte, et l’absence de gestion des césures et des sauts de pages.

Si le texte et bien là, la qualité éditoriale de ces fichiers est donc loin d’être à la hauteur. Pour ma part, je continuerai à m’alimenter chez Feedbooks, dont la qualité ne s’est jamais démentie !

Mise à jour du 20 mars : un billet d’Aldus tend à montrer que cette conclusion n’est pas valable pour les livres plus récents, qui seraient de bonne qualité. Bon, je me remets aux tests !

Mise à jour du 23 mars : au cours de la conférence donnée par Cap Digital (groupe de réflexion Think Digital), Hadrien Gardeur nous apprend que ces fichiers epub n’ont aucun identifiant. Selon lui, Google vient de « polluer la base mondiale d’epub ».
Vous pouvez lire aussi :

Commentaires

Les commentaires sont fermés pour cet article.



Les commentaires sont fermés.