Scribo : une solution de dématérialisation intelligente ?
Guillaume Lazzara (EPITA 08) est ingénieur de recherche au Laboratoire de Recherche et de Développement de l’EPITA (LRDE) et travaille notamment sur le projet Scribo, auquel le LRDE participe.
Pour une introduction sur le sujet, voir l’article précédemment écrit.
Qu’est-ce que Scribo ?
Scribo est un projet qui vise à fournir des outils libres pour l’annotation semi-automatique et collaborative de documents numériques. L’approche est fondée sur l’extraction de connaissances à partir de textes et d’images.
Les acteurs du projet sont des laboratoires spécialisés dans l’analyse de documents textuels et graphiques et dans l’extraction de connaissances (le LRDE et l’équipe ALPAGE de l’INRIA) ; le laboratoire d’ingénierie de la connaissance du CEA LIST ; Nuxeo, spécialisé dans la gestion de contenus pour entreprises ; Proxem, éditeur de solutions de traitement sémantique du langage naturel ; Tagmatica, spécialisé dans l’analyse syntaxique et la normalisation ISO ; XWiki, éditeur des solutions collaboratives Web 2.0 ; des entreprises utilisatrices pilotes comme l’Agence France-Presse (AFP) et Mandriva.
Le projet est financé par l’État et les collectivités territoriales franciliennes dans le cadre du 5e appel à projets lancé par le Fonds de compétitivité des entreprises (FCE). Ce projet avait été labellisé en novembre 2007 par le pôle de compétitivité Systematic dans le cadre de sa thématique « Logiciel Libre ».
A quel niveau intervient le LRDE ?
Une part importante du projet, prise en charge par les partenaires du LRDE, consiste à réaliser une analyse sémantique sur le texte afin d’en extraire les mots ou expressions pertinentes qui pourront être utilisés pour l’indexer.
Comme certains documents peuvent aussi être disponibles sous forme d’images, il est nécessaire d’en extraire le texte. C’est autour de cette problématique que le LRDE, spécialisé dans les bibliothèques de traitement d’images, a pu participer au projet.
Nous avons développé pendant les deux dernières années une chaîne de dématérialisation de documents. C’est-à-dire, un ensemble d’outils qui localisent le texte, l’extraient proprement et le passe à un logiciel de reconnaissance optique de caractères (OCR). Mais aussi, qui détectent les autres éléments de la page comme les séparateurs, les photos …
Exemple d’identification des zones de texte
(c) AFP/Mark Ralston, 2008.
Quelle est l’utilité de Scribo ?
A l’issue de la chaîne de traitement, nous sommes capables de reconstruire le document au format HTML, PDF ou même en Open Document, tout en préservant sa structure. Le texte qui était codé dans l’image est alors sélectionnable et/ou éditable selon le format de sortie. Le texte peut être alors utilisé pour annoter le document ou réaliser toute autre tâche automatique.
La dématérialisation de document est un domaine très actif en ce moment. Ce domaine a fait parler de lui récemment avec la numérisation de livres par Google. Dans le cadre du Grand emprunt, la France souhaite investir 58 millions d’euros dans des appels à projets pour la numérisation, l’archivage et la mise en valeur des œuvres.
Suite à la demande d’un partenaire, l’AFP, nous avons aussi réutilisé nos outils pour fournir une chaîne de détection de texte dans les photos. L’AFP reçoit plus de 10 000 photos par jour et moins de 10 % d’entre elles sont annotées et donc aisément accessibles par la suite ! Cette chaîne vise à signaler les images contenant du texte aux personnes qui les annotent manuellement.
Et les marchés visés par Scribo sont multiples: veille intelligente dans des domaines généraux ou spécialisés (presse, défense, données sismiques, technologies spécifiques, etc.), analyse et routage de documents entrants (courriers, mails etc.), poste de travail sémantique.
Exemple de reconstruction de document
Document initial:
Document reconstruit :