logo Mkadmi
Accueil            ISD            Equipe de recherche           Laboratoire Paragraphe            Enssib         ECP           Contact  

Accueil

 

 
 
 
 
   

 
 

webmaster

 
 

Chapitre 2 : Passage du papier à l'électronique

LA CHAINE GED

1. L'acquisition des documents

La technique d'acquisition dépend du format du document à acquérir : document papier, fax ou document numérique.
L'acquisition peut comporter plusieurs étapes, par exemple l'interprétation ou la conversion de format du document, l'adaptation de sa structure et de sa composition, sa récupération par un dispositif de stockage ou de traitement voire sa compression.

1.1. différents types d'acquisition

a) l'acquisition des documents papier
L'acquisition des documents papier s'effectue par numérisation à l'aide d'un scanneur. Les principales caractéristiques d'un scanneur sont sa résolution (mesurée en dpi, dots per inch soit points par pouce), sa vitesse (pages par minute), son type d'acquisition (noir et blanc, niveaux de gris, couleur) et le format des documents.
Lorsqu'il s'agit de fichiers graphiques principalement, une opération de compression permet de réduire la taille du document, et ainsi d'en faciliter son stockage et sa transmission. L'opération de compression se base sur un algorithme. On considère deux familles d'algorithmes : avec perte de données ou sans perte de données. Les algorithmes réversibles, sans perte de données, encodent les données pour diminuer le stockage ; l'opération inverse au moment de la consultation du fichier permet d'obtenir le contenu original. Les algorithmes irréversibles, avec perte de données, éliminent les redondances dans les images, redondance que l'œil ne perçoit pas. L'image est donc dégradée mais ce type de procédé est tout à fait satisfaisant pour une consultation d'image. C'est le cas de la compression JPEG (Joint Photographic Expert Group) utilisée pour les publications de photographies sur Internet ou MPEG (Moving Picture Expert Group) pour la vidéo.

b) Échange de documents électroniques
Lorsque deux organisations partenaires disposent de documents électroniques qu'elles souhaitent échanger, elles peuvent interconnecter leur système d'information par un dispositif EDI ( Échange de Données Informatisées) en s'accordant sur un format de données normalisé (EDIFAC pour l'Europe, ANSI X.12 pour les USA).


c) Production de documents électroniques
Si la GEIDE s'intéresse principalement à la gestion des documents existants, les opérations de production de documents peuvent être considérées comme faisant partie de la GEIDE.
Lorsque plusieurs agents travaillent sur des procédures administratives traitant des documents, les outils de workflow permettent l'ordonnancement, le routage et le suivi de travaux au sein d'unités de travail.
Les logiciels d'informatique de groupe (ou outils de groupware, ou encore collecticiels) offrent des fonctionnalités de communication, coopération et coordination et par là-même permettent de mutualiser des documents, voire de normaliser leur structure et leur présentation à travers les modèles de documents disponibles via l'outil.

Enfin les applications de production et d'aide à la décision produisent des documents qui peuvent être intégrés dans un système GEIDE.
Aujourd'hui les préoccupations de normalisation de la structure documentaire poussent les organisations à produire des documents au format XML (Extensible Markup Language). Il s'agit d'un langage qui permet la publication et l'échange de données car il permet de séparer radicalement la description de la structure du document (métadonnées décrites sous forme d'un arbre) de son contenu. Héritier de SGML (norme ISO), le point fort du format XML est la structuration qui offre de nombreux avantages :

  • Possibilité d'automatiser certaines tâches (comme la création de sommaires) ;
  • Navigation et recherche facilitées ;
  • Présentation du document indépendante du contenu (la publication du document peut être multiple à partir du même contenu : PDF, page HTML, …).

1.2. la numérisation et ses techniques

Vu la volumétrie des documents papiers dans les différents organismes que se soient dépôts d’archives, bibliothèques, centres de documentation, entreprises ou administrations, la numérisation s’avère le mode d’acquisition le plus utilisé. Cette numérisation se fait par un scanner.

a) Définition d'un scanner

« Appareil permettant de transposer des informations (images, textes, etc.) figurant sur un support, généralement papier, vers l’ordinateur. Pour remplir sa tâche, le scanner doit parcourir la maquette point par point, mesurer, numériser puis transmettre les degrés de luminosité de la lumière réfléchie ou admise à travers le film (par exemple pour le cas d’une diapositive). Ce dernier mémorise ensuite les valeurs dans des fichiers ».
(D’après Andreas, VOSS. – Dictionnaire de l’informatique et de l’Internet).

b) Fonctionnement d'un scanner

Il se base sur trois principes à savoir : l’éclairage, la réflexion et la capture.
Le scanner éclaire la page à numériser par une lampe ;
- Les rayons réfléchis sur la page sont conduits à l’aide d’un système de miroirs vers une barre de capteurs dite barre de CDD (Coupled Charged Devices).
- Les capteurs transforment la lumière reçue en signal électrique qui sera traité par la partie électronique du scanner.

c) Caractéristiques d'un scanner

Les principales caractéristiques d'un scanner sont :
- la résolution (mesurée en dpi, dots per inch soit points par pouce),
- la vitesse (pages par minute)le type d'acquisition (noir et blanc, niveaux de gris, couleur)Le format des documents.

d) Types de scanner/numériseur

- Scanner à main : en déplaçant le scanner sur le document, l'utilisateur découpe ce document en lignes. Certains de ces scanners sont motorisés afin de réguler le déplacement;
- Scanner à défilement : le document est entraîné par un système de rouleaux qui le fait défiler devant la ligne de lecture;
- Scanner à plat: le document reste fixe mais le système de lecture se déplace devant lui;
- Scanner volumétrique : le document reste fixe et les systèmes de lecture (multiples) sont pivotants afin de corriger les erreurs de parallélisme (utilisé notamment dans le cas d'anciens registres reliés).

1.3. Les différents types d'images

Les systèmes GEIDE gèrent des images numérisées dont la nature dépend des originaux et des traitements prévus par la suite. Elles peuvent être bitonales, à niveau de gris ou en couleurs. Avec les images dites bitonales, les informations d'un original sont uniquement converties en noir et blanc. Elles se rencontrent principalement là où les documents ne comportent que du texte. Les images dites à niveau de gris de gris restituent les nuances de gris, de gris foncé au gris pale qui donnent du relief à une photo ou un dessin. Ces nuances peuvent être plus ou moins nombreuses, de 16 à 256 ou plus, avec pour conséquence une augmentation de taille de fichier électronique. Certains numériseurs et certains programmes sont conçus pour pratiquer la numérisation bitonale et la numérisation à niveaux de gris sur un même document. Ainsi, les textes seront traités en bitonal tandis que les photographies ou les illustrations seront converties en utilisant des niveaux de gris. Quant aux images en couleur, il est possible de les numériser sur 8 bits, 16 bits, 24, 30 ou 36 bits. Un codage des couleurs en 8 bits permettra de restituer une image électronique en 256 couleurs différentes, tandis qu'un codage sur 16 bits donnera une image de 64 000 couleurs et un codage sur 24 bits, une image de 16,7 millions de couleurs, avec toujours comme conséquence une augmentation de la taille du fichier.

1.4. la compression

Les images numérisées subissent plusieurs traitements électroniques avant d'être stockées. Ceux ci font fonction de l'utilisation qui sera faite des documents ainsi convertis. Mais il faut tout d'abord et impérativement les compresser pour réduire la taille de fichier. Cette compression réduit la place occupée sur les supports d'archivage et facilite le transfert de ces fichiers sur les réseaux.

Les techniques et méthodes de compression sont diverses. Elles diffèrent en fonction de la nature des originaux et de la méthode de numérisation. Parmi ces techniques on peut citer :

  • la compression CCITT G3/G4 (noir et blanc),
  • La compression JBIG (Joint Bi-Level Image Group) ISO DIS 12087 (niveau de gris et couleur): utilisée aussi dans la télécopie,
  • l'algorithme JPEG (Joint Picture Expert Group) pour la compression des images en couleur

1.5. la reconnaissance (OCR)

Afin que le contenu des documents numérisés puisse être exploité, il est nécessaire d'effectuer une reconnaissance des caractères par un logiciel d' OCR (Optical Character Recognition), logiciel qui traduit des groupes de points d'une image numérisée en caractères - avec l'enrichissement typographique associé - exploitables par des programmes informatiques).
Les applications de LAD (Lecture Automatique de Documents) exploitent cette technologie ou la reconnaissance de marques (case, croix, code barre, etc.).

Avant de choisir l'OCR, il convient d'étudier minutieusement la typologie des documents, leur qualité, le contenu des zones que l'on veut reconnaître, les techniques de contrôle et de correction que l'on peut lui associer et enfin la volumétrie. La reconnaissance optique des caractères appliquée à la gestion électronique de documents est à considérer avec beaucoup de prudence. En effet, les moteurs d'OCR qui existent sont plus ou moins performants en fonction des cas à traiter.

L'OCR est utilisée dans la GED pour deux types d'application :

  1. numérisation des pages entières, chercher à les transformer en texte et à indexer l'ensemble "full-text" avec des dictionnaires de correction orthographiques,
  2. Reconnaissance du contenu de certaines zones afin d'utiliser ce contenu comme index. Cette méthode fonctionne bien quand les lots de documents numérisés sont homogènes et ne sont pas raturés (pas d'annotations manuscrites, trait d'un cadre se superposant à une zone, …)
    Il faut attirer l'attention à ce niveau que dans tous les cas de l'indexation automatique par OCR, il n'est guère raisonnable de s'attendre à un taux de reconnaissance supérieur à 80% ( la réalité est même proche de 60%)

2. Les techniques et méthodes d'indexation des documents

L'indexation est l'opération qui permet de décrire le document en vue de son exploitation ultérieure. Il faut distinguer la description formelle du document (type, auteur, date, etc.) de la description de son contenu.
La description s'effectue grâce à un descripteur qui sera associé au document au moment de son stockage.

On distingue deux types d'indexation :

  • L'indexation classificatoire qui correspond à une préoccupation de rangement du document ;
  • L'indexation par concepts qui vise à décrire le contenu du document.

2.1. la description externe

C'est l'américain Dewey qui, au siècle dernier, a proposé la Classification Décimale Universelle (voir http://www.udcc.org/cdu.htm), largement utilisée par les bibliothèques.
Cette description contient des informations de type de document, son origine, la date de sa prise en charge ou de sa création, pour les activités administratives ou techniques, le rattachement aux objets de base de l'entreprise (client, fournisseur, produit, etc.)

2.2. la description du contenu

Les enjeux de l'indexation et les difficultés se situent à ce niveau. La description du contenu peut être effectuée de plusieurs façons, plus ou moins automatisées.

La nature numérique du document et son mode de représentation dans le système de GEIDE font perdre à son contenu toute possibilité d'être compris et exploité directement : une image numérisée constituée de points n'offre aucune signification de contenu. L'enjeu de l'indexation est donc, compte tenu de l'exploitation qui sera faite ultérieurement des documents, d'en exprimer le contenu sous forme de descripteurs.

Le descripteur d'un document sera attaché au document par un lien de localisation physique; le descripteur contiendra les deux niveaux de description cités plus haut. Pour le second niveau, la technique de description de contenu est l'indexation; elle consiste à décrire le document avec des mots ou des expressions convenues préalablement.

On distingue :
• La définition de mots-clefs ;
• Les descripteurs libres (titre, résumé ou texte).

L'indexation peut se faire a priori : des mots-clefs sont associés au document. Ceux-ci peuvent être librement choisis par l'auteur ou la personne chargée de l'indexation, ou sélectionnés dans un dictionnaire ou un thésaurus (liste de mots liés par des relations de hiérarchie ou d'équivalence). Si on prend le cas des documents HTML, il existe dans ce langage de présentation de pages des balises particulières (les balises META) qui permettent au concepteur du document de définir les mots-clefs qui lui semblent pertinents.

L'indexation peut être réalisée de manière automatique. On distingue :

  • L'indexation statistique qui consiste en une simplification du texte (enlever les mots fréquents) suivie d'un choix de mots-clefs, comme étant ceux qui apparaissent le plus fréquemment dans le texte.
  • L'indexation « full text » qui consiste en une simplification du texte (enlever les mots fréquents) puis une indexation en utilisant un dictionnaire ou un thésaurus.
  • L'analyse linguistique

La finalité des techniques d'indexation ou de représentation de contenu est de constituer une base de données des différents éléments de description des documents permettant d'établir les liens entre descripteurs et documents. C'est à partir de cette base de données que se feront les recherches et les sélections de documents.

Selon la finalité du système GEIDE, la nature et le contenu des documents traités, on mettra en œuvre des schémas différents d'organisation de données et de bases de données associées :

  • des fichiers séquentiels indexés,
  • des bases de données relationnelles,
  • Des fichiers inversés.

Au delà de la définition de mots-clefs, un document peut être décrit par un ensemble structuré d'informations ou métadonnées (éléments descriptifs d'un document ne faisant pas partie de son contenu). Il existe une standardisation du vocabulaire des métadonnées, le Dublin Core ( http://www.dublincore.org ). L'intérêt d'une standardisation est de rendre ces métadonnées utilisables par le plus grand nombre d'outils de recherche.

Lors de l'indexation, il est possible d'établir un résumé du document qui peut être généré automatiquement à partir d'une analyse sémantique.


3. Stockage et conservation des documents

Le stockage des documents répond à plusieurs problématiques :

  • Le support de stockage doit être adapté au volume des documents, au temps d'accès (fonction de leur fréquence de consultation, de l'importance de l'information, de l'intérêt d'en disposer en ligne ou non) ;
  • L'organisation du stockage doit être hiérarchisée en fonction des types de documents ;
  • La durée de conservation (légale notamment) des documents doit être considérée pour l'épuration du système de stockage.

3.1. les supports de stockage

La conservation est un autre élément essentiel d'un système de GEIDE/GED. Une solution GED n’utilise pas un unique support de stockage, plusieurs supports peuvent être choisis selon les critères suivants :

Document Support
  • Types de documents
  • Fréquence de consultation
  • Intérêt à l’avoir en ligne
  • durée de conservation
  • Capacité de stockage ;
  • Temps d’accès aux données ;
  • Coût ;
  • Réinscriptibilité ou non réinscriptibilité ;
  • Sécurité d’accès.

Divers supports de stockage :

Support Destination Avantages Inconvénients
Disque magnétique Données courantes Temps d’accès rapide Capacités limitées
Disque optique
Accès en ligne à grande quantité de données
Capacités élevées
Pilote et installation encore spécifique
Bande (DAT) Sauvegarde Capacité très élevée Non en ligne. Très lent. Lecture linéaire.
Microfilm Archivage Pérennité des archives prouvée Quantité et sécurité faibles.
Extrêmement lent.

a) LES SUPPORTS MAGNÉTIQUES
comprennent :
Les bandes DAT ou 8mm : médias à lecture séquentielle ou linéaire.
Les disques, les disquettes et les USB : médias à accès directe aux données.

b) LES SUPPORTS OPTIQUES ET MAGNÉTOPTIQUES
comprennent :

  • Le DON WORM (Write Once, Read Many)
    Le disque Optique Numérique Worm est inscriptible une seule fois.
    C’est un support d’archivage, ses durées de vie vont de 15 à 30 ans.
  • Le DON Réinscriptible ou WMRA (Write Many, Read Always)
    Utilisé surtout pour les bases d’images numériques, les données médicales ou scientifiques,
    Ce type de disque optique numérique fait appel à des technologies permettant d’écrire, de lire, d’effacer et réécrire les informations ou les fichiers.
  • Le CD-ROM (Compact Disc Read Only Memory :
    Très populaire depuis l’apparition des disques audio, est le médium d’édition, de diffusion et de stockage de données informatiques le plus répandu sur le marché.
    Un CD-Rom peut stocker soit :
    250 000 pages de texte numérique,
    ou 2 à 10 000 photos couleur,
    ou 20 000 pages A4 scannérisées,
    ou 2 heures de vidéo numérique sonorisée,
    ou une combinaison entre les quatre éléments précédents.
    La durée de vie du CD-rom est de 25 à 30 ans, voie un siècle; Il est un support d’archivage à long terme.
  • CD WORM (Write Once Read Many) ou CD-R (Recordable)
    Est une version enregistrable du Compact Disc, est une révélation de ces deux dernières années en matière de stockage optique.
    Il est de 12 cm de diamètre ;
    Sa capacité de stockage est d’environ 650 MO = identique à la capacité du Cdrom ;
    Il est lisible sur n’importe quel lecteur de CD-Rom.
  • CD-V (Compact Disc Video)
    Le CD-V présente la particularité de permettre l’enregistrement de vidéo en analogique et de Son en numérique :
    5 à 6 minutes de vidéo analogique ;
    Une vingtaine de minutes de Son numérique.
  • DVD (Digital Vidéo Disc)
    Parmi les nouveaux médias optiques ;
    Disponible en diamètres de 12 et 8 cm;
    Il est d’une haute capacité de stockage

    La famille des DVD comprend :
    DVD-Vidéo : destiné à la diffusion de programmes vidéo (films, documentaires, etc) préenregistrés ;
    DVD-Rom également préenregistré pour des applications liées à l’informatique;
    DVD-Ram une version enregistrable et effaçable.

3.2. les bases de données

a) Qu'est ce que les bases de données?
Une base de données (son abréviation est BD, en anglais DB, database) est une entité dans laquelle il est possible de stocker des données de façon structurée et avec le moins de redondance possible. Ces données doivent pouvoir être utilisées par des programmes, par des utilisateurs différents. Ainsi, la notion de base de données est généralement couplée à celle de réseau, afin de pouvoir mettre en commun ces informations, d'où le nom de base. On parle généralement de système d'information pour désigner toute la structure regroupant les moyens mis en place pour pouvoir partager des données.

b) Utilité d'une base de données ?
Une base de données permet de mettre des données à la disposition d'utilisateurs pour une consultation, une saisie ou bien une mise à jour, tout en s'assurant des droits accordés à ces derniers. Cela est d'autant plus utile que les données informatiques sont de plus en plus nombreuses.
Une base de données peut être locale, c'est-à-dire utilisable sur une machine par un utilisateur, ou bien répartie, c'est-à-dire que les informations sont stockées sur des machines distantes et accessibles par réseau.
L'avantage majeur de l'utilisation de bases de données est la possibilité de pouvoir être accédées par plusieurs utilisateurs simultanément.

c) La gestion des bases de données
Afin de pouvoir contrôler les données ainsi que les utilisateurs, le besoin d'un système de gestion s'est vite fait ressentir. La gestion de la base de données se fait grâce à un système appelé SGBD (système de gestion de bases de données) ou en anglais DBMS (Database management system). Le SGBD est un ensemble de services (applications logicielles) permettant de gérer les bases de données, c'est-à-dire :
• permettre l'accès aux données de façon simple
• autoriser un accès aux informations à de multiples utilisateurs
• manipuler les données présentes dans la base de données (insertion, suppression, modification)

Le SGBD peut se décomposer en trois sous-systèmes :
• Le système de gestion de fichiers :
il permet le stockage des informations sur un support physique
• Le SGBD interne :
il gère l'ordonnancement des informations
• Le SGBD externe :
il représente l'interface avec l'utilisateur

d) Les principaux SGBD
Les principaux systèmes de gestion de bases de données sont les suivants:

• Borland Paradox
• Filemaker
• IBM DB2
• Ingres
• Interbase
• Microsoft SQL server
• Microsoft Access
• Microsoft FoxPro
• Oracle
• Sybase
• MySQL
• PostgreSQL
• mSQL
• SQL Server 11

4. La recherche, la restitution et la diffusion des documents

Une des finalités essentielles d'un système de GEIDE et de rechercher des documents, soit pour les restituer à l'utilisateur qui les consultera, soit pour les communiquer à un autre utilisateur ou les diffuser à une ou plusieurs personnes. La qualité et la rapidité de la recherche dépendent de l'indexation choisie et de la qualité de l'acquisition.

4.1. Les techniques de la recherche de documents

La recherche de documents se fait par l'intermédiaire d'un langage qui peut être réduit à sa plus simple expression, par exemple une liste de mots clés combinés ou non, ou elle peut être très complexe et faire appel, par exemple, à des techniques d'interrogation en langage naturel. Le premier objectif de ces langages, à la bonne fin duquel contribue la méthode d'indexation, est la pertinence des recherches qui doit conduire à limiter le "bruit". C'est à dire la sélection de documents ne répondant pas exactement à la requête, et le "silence", c'est à dire le défaut de sélection de documents disponibles qui répondent à la requête.

Plusieurs techniques existent et sont mises en œuvre dans les systèmes de GEIDE, soit indépendamment et exclusivement les unes des autres, soit pour certaines d'entre elles de façon combinée. Les principales méthodes de recherche sont :

  • La recherche booléenne : qui consiste à présenter la requête sous la forme d'une expression booléenne de mots clés appartenant au dictionnaire ou au thésaurus, mots séparés par des opérateurs booléens (ET, OU, SAUF, …),
  • La recherche plein texte ou texte intégral : qui évide l'indexation préalable des documents; ils sont décrits par eux même, c'est à dire par la chaîne de caractères qui les constitue. Les recherches booléennes s'appliquent également à ce cas. Cependant, on associe souvent à cette technique des méthodes d'interrogation dites en langage naturel, c'est à dire reposant sur une analyse linguistique de la requête de l'utilisateur et conduisant à l'élaboration d'une requête "interne" à partir de laquelle la recherche est réalisée,
  • La recherche par navigation ou technique hypertextuelle : cette technique suppose une structuration préalable des documents avec la mise en œuvre de liens hypertextuels.
    Une fois sélectionnés, les documents peuvent être affichés sur des écrans de consultation, imprimés localement ou à distance sur des imprimantes désignés, envoyés par réseau sur d'autres postes de travail (fréquemment sous le contrôle d'un outil de workflow ou de groupware), transmis pour traitement à des systèmes informatiques, communiqués par messagerie (par exemple en pièce jointe) ou encore envoyés par télécopie.

4.2. L'échange de documents (le Workflow)

On appelle "WorkFlow" (traduisez littéralement "flux de travail") la modélisation et la gestion informatique de l'ensemble des tâches à accomplir et des différents acteurs impliqués dans la réalisation d'un processus métier (aussi appelé processus opérationnel). Le terme de Workflow pourrait donc être traduit en français par Gestion électronique des processus métier.

De façon plus pratique le WorkFlow décrit le circuit de validation, les tâches à accomplir entre les différents acteurs d'un processus, les délais, les modes de validation et fournit à chacun des acteurs les informations nécessaires pour la réalisation de sa tâche. Pour un processus de publication en ligne par exemple, il s'agit de la modélisation des tâches de l'ensemble de la chaîne éditoriale, de la proposition du rédacteur à la validation par le responsable de publication.

On distingue généralement deux types de Workflow :

  • Le workflow procédural (aussi appelé workflow de production ou workflow directif) correspondant à des processus métiers connus de l'entreprise et faisant l'objet de procédures pré-établies : le cheminement du workflow est plus ou moins figé ;
  • Le workflow ad hoc basé sur un modèle collaboratif dans lequel les acteurs interviennent dans la décision du cheminement : le cheminement du workflow est dynamique.

Accueil            ISD            Equipe de recherche           Laboratoire Paragraphe            Enssib         ECP           Contact