1. L'acquisition
des documents
La technique d'acquisition dépend
du format du document à acquérir : document
papier, fax ou document numérique.
L'acquisition peut comporter plusieurs étapes,
par exemple l'interprétation ou la conversion
de format du document, l'adaptation de sa structure
et de sa composition, sa récupération
par un dispositif de stockage ou de traitement voire
sa compression.
1.1. différents types d'acquisition
a)
l'acquisition des documents papier
L'acquisition des documents papier s'effectue par
numérisation à l'aide d'un scanneur.
Les principales caractéristiques d'un scanneur
sont sa résolution (mesurée en dpi,
dots per inch soit points par pouce), sa vitesse (pages
par minute), son type d'acquisition (noir et blanc,
niveaux de gris, couleur) et le format des documents.
Lorsqu'il s'agit de fichiers graphiques principalement,
une opération de compression permet de réduire
la taille du document, et ainsi d'en faciliter son
stockage et sa transmission. L'opération de
compression se base sur un algorithme. On considère
deux familles d'algorithmes : avec perte de données
ou sans perte de données. Les algorithmes réversibles,
sans perte de données, encodent les données
pour diminuer le stockage ; l'opération inverse
au moment de la consultation du fichier permet d'obtenir
le contenu original. Les algorithmes irréversibles,
avec perte de données, éliminent les
redondances dans les images, redondance que l'œil
ne perçoit pas. L'image est donc dégradée
mais ce type de procédé est tout à
fait satisfaisant pour une consultation d'image. C'est
le cas de la compression JPEG (Joint Photographic
Expert Group) utilisée pour les publications
de photographies sur Internet ou MPEG (Moving Picture
Expert Group) pour la vidéo.
b) Échange
de documents électroniques
Lorsque deux organisations partenaires disposent de
documents électroniques qu'elles souhaitent
échanger, elles peuvent interconnecter leur
système d'information par un dispositif EDI
( Échange de Données Informatisées)
en s'accordant sur un format de données normalisé
(EDIFAC pour l'Europe, ANSI X.12 pour les USA).
c) Production de
documents électroniques
Si la GEIDE s'intéresse principalement à
la gestion des documents existants, les opérations
de production de documents peuvent être considérées
comme faisant partie de la GEIDE.
Lorsque plusieurs agents travaillent sur des procédures
administratives traitant des documents, les outils
de workflow permettent l'ordonnancement, le routage
et le suivi de travaux au sein d'unités de
travail.
Les logiciels d'informatique de groupe (ou outils
de groupware, ou encore collecticiels) offrent des
fonctionnalités de communication, coopération
et coordination et par là-même permettent
de mutualiser des documents, voire de normaliser leur
structure et leur présentation à travers
les modèles de documents disponibles via l'outil.
Enfin les applications de production et d'aide à
la décision produisent des documents qui peuvent
être intégrés dans un système
GEIDE.
Aujourd'hui les préoccupations de normalisation
de la structure documentaire poussent les organisations
à produire des documents au format XML (Extensible
Markup Language). Il s'agit d'un langage qui permet
la publication et l'échange de données
car il permet de séparer radicalement la description
de la structure du document (métadonnées
décrites sous forme d'un arbre) de son contenu.
Héritier de SGML (norme ISO), le point fort
du format XML est la structuration qui offre de nombreux
avantages :
- Possibilité d'automatiser certaines tâches
(comme la création de sommaires) ;
- Navigation et recherche facilitées ;
- Présentation du document indépendante
du contenu (la publication du document peut être
multiple à partir du même contenu :
PDF, page HTML, …).
1.2. la numérisation et ses techniques
Vu la volumétrie des documents papiers dans
les différents organismes que se soient dépôts
d’archives, bibliothèques, centres de
documentation, entreprises ou administrations, la
numérisation s’avère le mode d’acquisition
le plus utilisé. Cette numérisation
se fait par un scanner.
a) Définition
d'un scanner
« Appareil permettant de transposer des informations
(images, textes, etc.) figurant sur un support, généralement
papier, vers l’ordinateur. Pour remplir sa tâche,
le scanner doit parcourir la maquette point par point,
mesurer, numériser puis transmettre les degrés
de luminosité de la lumière réfléchie
ou admise à travers le film (par exemple pour
le cas d’une diapositive). Ce dernier mémorise
ensuite les valeurs dans des fichiers ».
(D’après Andreas, VOSS. – Dictionnaire
de l’informatique et de l’Internet).
b) Fonctionnement
d'un scanner
Il se base sur trois principes à savoir : l’éclairage,
la réflexion et la capture.
Le scanner éclaire la page à numériser
par une lampe ;
- Les rayons réfléchis sur la page sont
conduits à l’aide d’un système
de miroirs vers une barre de capteurs dite barre de
CDD (Coupled Charged Devices).
- Les capteurs transforment la lumière reçue
en signal électrique qui sera traité par
la partie électronique du scanner. c)
Caractéristiques d'un scanner
Les principales caractéristiques d'un scanner
sont :
- la résolution (mesurée en dpi, dots
per inch soit points par pouce),
- la vitesse (pages par minute)le type d'acquisition
(noir et blanc, niveaux de gris, couleur)Le format des
documents. d)
Types de scanner/numériseur
- Scanner à main : en déplaçant
le scanner sur le document, l'utilisateur découpe
ce document en lignes. Certains de ces scanners sont
motorisés afin de réguler le déplacement;
- Scanner à défilement : le document
est entraîné par un système de
rouleaux qui le fait défiler devant la ligne
de lecture;
- Scanner à plat: le document reste fixe mais
le système de lecture se déplace devant
lui;
- Scanner volumétrique : le document reste
fixe et les systèmes de lecture (multiples)
sont pivotants afin de corriger les erreurs de parallélisme
(utilisé notamment dans le cas d'anciens registres
reliés).
1.3. Les différents types d'images
Les systèmes GEIDE gèrent des images
numérisées dont la nature dépend
des originaux et des traitements prévus par
la suite. Elles peuvent être bitonales, à
niveau de gris ou en couleurs. Avec les images dites
bitonales, les informations d'un original sont uniquement
converties en noir et blanc. Elles se rencontrent
principalement là où les documents ne
comportent que du texte. Les images dites à
niveau de gris de gris restituent les nuances de gris,
de gris foncé au gris pale qui donnent du relief
à une photo ou un dessin. Ces nuances peuvent
être plus ou moins nombreuses, de 16 à
256 ou plus, avec pour conséquence une augmentation
de taille de fichier électronique. Certains
numériseurs et certains programmes sont conçus
pour pratiquer la numérisation bitonale et
la numérisation à niveaux de gris sur
un même document. Ainsi, les textes seront traités
en bitonal tandis que les photographies ou les illustrations
seront converties en utilisant des niveaux de gris.
Quant aux images en couleur, il est possible de les
numériser sur 8 bits, 16 bits, 24, 30 ou 36
bits. Un codage des couleurs en 8 bits permettra de
restituer une image électronique en 256 couleurs
différentes, tandis qu'un codage sur 16 bits
donnera une image de 64 000 couleurs et un codage
sur 24 bits, une image de 16,7 millions de couleurs,
avec toujours comme conséquence une augmentation
de la taille du fichier.
1.4. la compression
Les images numérisées subissent plusieurs
traitements électroniques avant d'être
stockées. Ceux ci font fonction de l'utilisation
qui sera faite des documents ainsi convertis. Mais
il faut tout d'abord et impérativement les
compresser pour réduire la taille de fichier.
Cette compression réduit la place occupée
sur les supports d'archivage et facilite le transfert
de ces fichiers sur les réseaux.
Les techniques et méthodes de compression
sont diverses. Elles diffèrent en fonction
de la nature des originaux et de la méthode
de numérisation. Parmi ces techniques on peut
citer :
la compression CCITT G3/G4 (noir et blanc),
La compression JBIG (Joint Bi-Level Image Group) ISO
DIS 12087 (niveau de gris et couleur): utilisée
aussi dans la télécopie,
l'algorithme JPEG (Joint Picture Expert Group) pour
la compression des images en couleur
1.5. la reconnaissance (OCR)
Afin que le contenu des documents
numérisés puisse être exploité,
il est nécessaire d'effectuer une reconnaissance
des caractères par un logiciel d' OCR (Optical
Character Recognition), logiciel qui traduit des groupes
de points d'une image numérisée en caractères
- avec l'enrichissement typographique associé
- exploitables par des programmes informatiques).
Les applications de LAD (Lecture Automatique de Documents)
exploitent cette technologie ou la reconnaissance
de marques (case, croix, code barre, etc.).
Avant de choisir l'OCR, il convient
d'étudier minutieusement la typologie des documents,
leur qualité, le contenu des zones que l'on
veut reconnaître, les techniques de contrôle
et de correction que l'on peut lui associer et enfin
la volumétrie. La reconnaissance optique des
caractères appliquée à la gestion
électronique de documents est à considérer
avec beaucoup de prudence. En effet, les moteurs d'OCR
qui existent sont plus ou moins performants en fonction
des cas à traiter.
L'OCR
est utilisée dans la GED pour deux types d'application
:
- numérisation des pages entières,
chercher à les transformer en texte et à
indexer l'ensemble "full-text" avec des
dictionnaires de correction orthographiques,
- Reconnaissance du contenu de certaines zones
afin d'utiliser ce contenu comme index. Cette méthode
fonctionne bien quand les lots de documents numérisés
sont homogènes et ne sont pas raturés
(pas d'annotations manuscrites, trait d'un cadre
se superposant à une zone, …)
Il faut attirer l'attention à ce niveau que
dans tous les cas de l'indexation automatique par
OCR, il n'est guère raisonnable de s'attendre
à un taux de reconnaissance supérieur
à 80% ( la réalité est même
proche de 60%)
2. Les techniques et méthodes d'indexation
des documents
L'indexation est l'opération qui permet de
décrire le document en vue de son exploitation
ultérieure. Il faut distinguer la description
formelle du document (type, auteur, date, etc.) de
la description de son contenu.
La description s'effectue grâce à un
descripteur qui sera associé au document au
moment de son stockage.
On distingue deux types d'indexation :
- L'indexation classificatoire qui correspond à
une préoccupation de rangement du document
;
- L'indexation par concepts qui vise à décrire
le contenu du document.
2.1. la description externe
C'est l'américain Dewey qui, au siècle
dernier, a proposé la Classification Décimale
Universelle (voir http://www.udcc.org/cdu.htm), largement
utilisée par les bibliothèques.
Cette description contient des informations de type
de document, son origine, la date de sa prise en charge
ou de sa création, pour les activités
administratives ou techniques, le rattachement aux
objets de base de l'entreprise (client, fournisseur,
produit, etc.)
2.2. la description du contenu
Les enjeux de l'indexation et les difficultés
se situent à ce niveau. La description du contenu
peut être effectuée de plusieurs façons,
plus ou moins automatisées.
La nature numérique du document et son mode
de représentation dans le système de
GEIDE font perdre à son contenu toute possibilité
d'être compris et exploité directement
: une image numérisée constituée
de points n'offre aucune signification de contenu.
L'enjeu de l'indexation est donc, compte tenu de l'exploitation
qui sera faite ultérieurement des documents,
d'en exprimer le contenu sous forme de descripteurs.
Le descripteur d'un document sera attaché
au document par un lien de localisation physique;
le descripteur contiendra les deux niveaux de description
cités plus haut. Pour le second niveau, la
technique de description de contenu est l'indexation;
elle consiste à décrire le document
avec des mots ou des expressions convenues préalablement.
On distingue :
• La définition de mots-clefs ;
• Les descripteurs libres (titre, résumé
ou texte).
L'indexation peut se faire a priori : des mots-clefs
sont associés au document. Ceux-ci peuvent
être librement choisis par l'auteur ou la personne
chargée de l'indexation, ou sélectionnés
dans un dictionnaire ou un thésaurus (liste
de mots liés par des relations de hiérarchie
ou d'équivalence). Si on prend le cas des documents
HTML, il existe dans ce langage de présentation
de pages des balises particulières (les balises
META) qui permettent au concepteur du document de
définir les mots-clefs qui lui semblent pertinents.
L'indexation peut être réalisée
de manière automatique. On distingue :
- L'indexation statistique qui consiste en une
simplification du texte (enlever les mots fréquents)
suivie d'un choix de mots-clefs, comme étant
ceux qui apparaissent le plus fréquemment
dans le texte.
- L'indexation « full text » qui consiste
en une simplification du texte (enlever les mots
fréquents) puis une indexation en utilisant
un dictionnaire ou un thésaurus.
- L'analyse linguistique
La finalité des techniques d'indexation
ou de représentation de contenu est de constituer
une base de données des différents
éléments de description des documents
permettant d'établir les liens entre descripteurs
et documents. C'est à partir de cette base
de données que se feront les recherches et
les sélections de documents.
Selon la finalité du système GEIDE,
la nature et le contenu des documents traités,
on mettra en œuvre des schémas différents
d'organisation de données et de bases de
données associées :
- des fichiers séquentiels indexés,
- des bases de données relationnelles,
- Des fichiers inversés.
Au delà de la définition de mots-clefs,
un document peut être décrit par un
ensemble structuré d'informations ou métadonnées
(éléments descriptifs d'un document
ne faisant pas partie de son contenu). Il existe
une standardisation du vocabulaire des métadonnées,
le Dublin Core ( http://www.dublincore.org ). L'intérêt
d'une standardisation est de rendre ces métadonnées
utilisables par le plus grand nombre d'outils de
recherche.
Lors de l'indexation, il est possible d'établir
un résumé du document qui peut être
généré automatiquement à
partir d'une analyse sémantique.
3. Stockage et conservation des documents
Le stockage des documents répond à
plusieurs problématiques :
- Le support de stockage doit être adapté
au volume des documents, au temps d'accès
(fonction de leur fréquence de consultation,
de l'importance de l'information, de l'intérêt
d'en disposer en ligne ou non) ;
- L'organisation du stockage doit être
hiérarchisée en fonction des types
de documents ;
- La durée de conservation (légale
notamment) des documents doit être considérée
pour l'épuration du système de stockage.
3.1. les supports de stockage
La conservation est un autre élément
essentiel d'un système de GEIDE/GED. Une
solution GED n’utilise pas un unique support
de stockage, plusieurs supports peuvent être
choisis selon les critères suivants :
| Document |
Support |
- Types de documents
- Fréquence de consultation
- Intérêt à l’avoir
en ligne
- durée de conservation
|
- Capacité de stockage ;
- Temps d’accès aux données
;
- Coût ;
- Réinscriptibilité ou non
réinscriptibilité ;
- Sécurité d’accès.
|
Divers supports
de stockage :
| Support |
Destination |
Avantages |
Inconvénients |
| Disque magnétique |
Données courantes |
Temps d’accès rapide |
Capacités limitées |
| Disque optique |
Accès en ligne à grande quantité
de données |
Capacités élevées |
Pilote et installation encore spécifique |
| Bande (DAT) |
Sauvegarde |
Capacité très élevée |
Non en ligne. Très lent. Lecture linéaire. |
| Microfilm |
Archivage |
Pérennité des archives prouvée |
Quantité et sécurité faibles.
Extrêmement lent. |
a) LES SUPPORTS
MAGNÉTIQUES
comprennent :
Les bandes DAT ou 8mm : médias à lecture
séquentielle ou linéaire.
Les disques, les disquettes et les USB : médias
à accès directe aux données.
b) LES SUPPORTS
OPTIQUES ET MAGNÉTOPTIQUES
comprennent :
- Le DON WORM (Write Once, Read
Many)
Le disque Optique Numérique Worm est inscriptible
une seule fois.
C’est un support d’archivage, ses durées
de vie vont de 15 à 30 ans.
- Le DON Réinscriptible ou WMRA
(Write Many, Read Always)
Utilisé surtout pour les bases d’images
numériques, les données médicales
ou scientifiques,
Ce type de disque optique numérique fait
appel à des technologies permettant d’écrire,
de lire, d’effacer et réécrire
les informations ou les fichiers.
- Le CD-ROM (Compact Disc Read
Only Memory :
Très populaire depuis l’apparition
des disques audio, est le médium d’édition,
de diffusion et de stockage de données informatiques
le plus répandu sur le marché.
Un CD-Rom peut stocker soit :
250 000 pages de texte numérique,
ou 2 à 10 000 photos couleur,
ou 20 000 pages A4 scannérisées,
ou 2 heures de vidéo numérique sonorisée,
ou une combinaison entre les quatre éléments
précédents.
La durée de vie du CD-rom est de 25 à
30 ans, voie un siècle; Il est un support
d’archivage à long terme.
- CD WORM (Write Once Read Many)
ou CD-R (Recordable)
Est une version enregistrable du Compact Disc, est
une révélation de ces deux dernières
années en matière de stockage optique.
Il est de 12 cm de diamètre ;
Sa capacité de stockage est d’environ
650 MO = identique à la capacité du
Cdrom ;
Il est lisible sur n’importe quel lecteur
de CD-Rom.
- CD-V (Compact Disc Video)
Le CD-V présente la particularité
de permettre l’enregistrement de vidéo
en analogique et de Son en numérique :
5 à 6 minutes de vidéo analogique
;
Une vingtaine de minutes de Son numérique.
- DVD (Digital Vidéo Disc)
Parmi les nouveaux médias optiques ;
Disponible en diamètres de 12 et 8 cm;
Il est d’une haute capacité de stockage
La famille des DVD comprend :
DVD-Vidéo : destiné à la diffusion
de programmes vidéo (films, documentaires,
etc) préenregistrés ;
DVD-Rom également préenregistré
pour des applications liées à l’informatique;
DVD-Ram une version enregistrable et effaçable.
3.2. les bases de données
a)
Qu'est ce que les bases de données?
Une base de données (son abréviation
est BD, en anglais DB, database) est une entité
dans laquelle il est possible de stocker des données
de façon structurée et avec le moins
de redondance possible. Ces données doivent
pouvoir être utilisées par des programmes,
par des utilisateurs différents. Ainsi, la
notion de base de données est généralement
couplée à celle de réseau, afin
de pouvoir mettre en commun ces informations, d'où
le nom de base. On parle généralement
de système d'information pour désigner
toute la structure regroupant les moyens mis en place
pour pouvoir partager des données.
b) Utilité
d'une base de données ?
Une base de données permet de mettre des données
à la disposition d'utilisateurs pour une consultation,
une saisie ou bien une mise à jour, tout en
s'assurant des droits accordés à ces
derniers. Cela est d'autant plus utile que les données
informatiques sont de plus en plus nombreuses.
Une base de données peut être locale,
c'est-à-dire utilisable sur une machine par
un utilisateur, ou bien répartie, c'est-à-dire
que les informations sont stockées sur des
machines distantes et accessibles par réseau.
L'avantage majeur de l'utilisation de bases de données
est la possibilité de pouvoir être accédées
par plusieurs utilisateurs simultanément.
c)
La gestion des bases de données
Afin de pouvoir contrôler les données
ainsi que les utilisateurs, le besoin d'un système
de gestion s'est vite fait ressentir. La gestion de
la base de données se fait grâce à
un système appelé SGBD (système
de gestion de bases de données) ou en anglais
DBMS (Database management system). Le SGBD est un
ensemble de services (applications logicielles) permettant
de gérer les bases de données, c'est-à-dire
:
• permettre l'accès aux données
de façon simple
• autoriser un accès aux informations
à de multiples utilisateurs
• manipuler les données présentes
dans la base de données (insertion, suppression,
modification)
Le SGBD peut se décomposer en trois sous-systèmes
:
• Le système de gestion de fichiers :
il permet le stockage des informations sur un support
physique
• Le SGBD interne :
il gère l'ordonnancement des informations
• Le SGBD externe :
il représente l'interface avec l'utilisateur
d)
Les principaux SGBD
Les principaux systèmes de gestion de bases
de données sont les suivants:
• Borland Paradox • Filemaker
• IBM DB2 • Ingres
• Interbase • Microsoft SQL server
• Microsoft Access |
• Microsoft FoxPro • Oracle
• Sybase • MySQL •
PostgreSQL • mSQL • SQL
Server 11 |
4. La recherche, la restitution
et la diffusion des documents
Une des finalités essentielles
d'un système de GEIDE et de rechercher des
documents, soit pour les restituer à l'utilisateur
qui les consultera, soit pour les communiquer à
un autre utilisateur ou les diffuser à une
ou plusieurs personnes. La qualité et la rapidité
de la recherche dépendent de l'indexation choisie
et de la qualité de l'acquisition.
4.1. Les techniques de la recherche
de documents
La recherche de documents se fait
par l'intermédiaire d'un langage qui peut être
réduit à sa plus simple expression,
par exemple une liste de mots clés combinés
ou non, ou elle peut être très complexe
et faire appel, par exemple, à des techniques
d'interrogation en langage naturel. Le premier objectif
de ces langages, à la bonne fin duquel contribue
la méthode d'indexation, est la pertinence
des recherches qui doit conduire à limiter
le "bruit". C'est à dire la sélection
de documents ne répondant pas exactement à
la requête, et le "silence", c'est
à dire le défaut de sélection
de documents disponibles qui répondent à
la requête.
Plusieurs techniques existent et
sont mises en œuvre dans les systèmes
de GEIDE, soit indépendamment et exclusivement
les unes des autres, soit pour certaines d'entre elles
de façon combinée. Les principales méthodes
de recherche sont :
- La recherche booléenne
: qui consiste à présenter la requête
sous la forme d'une expression booléenne
de mots clés appartenant au dictionnaire
ou au thésaurus, mots séparés
par des opérateurs booléens (ET, OU,
SAUF, …),
- La recherche plein texte
ou texte intégral : qui évide
l'indexation préalable des documents; ils
sont décrits par eux même, c'est à
dire par la chaîne de caractères qui
les constitue. Les recherches booléennes
s'appliquent également à ce cas. Cependant,
on associe souvent à cette technique des
méthodes d'interrogation dites en langage
naturel, c'est à dire reposant sur une analyse
linguistique de la requête de l'utilisateur
et conduisant à l'élaboration d'une
requête "interne" à partir
de laquelle la recherche est réalisée,
- La recherche par navigation
ou technique hypertextuelle : cette technique
suppose une structuration préalable des documents
avec la mise en œuvre de liens hypertextuels.
Une fois sélectionnés, les documents
peuvent être affichés sur des écrans
de consultation, imprimés localement ou à
distance sur des imprimantes désignés,
envoyés par réseau sur d'autres postes
de travail (fréquemment sous le contrôle
d'un outil de workflow ou de groupware), transmis
pour traitement à des systèmes informatiques,
communiqués par messagerie (par exemple en
pièce jointe) ou encore envoyés par
télécopie.
4.2. L'échange de documents
(le Workflow)
On appelle "WorkFlow"
(traduisez littéralement "flux de travail")
la modélisation et la gestion informatique
de l'ensemble des tâches à accomplir
et des différents acteurs impliqués
dans la réalisation d'un processus métier
(aussi appelé processus opérationnel).
Le terme de Workflow pourrait donc être traduit
en français par Gestion électronique
des processus métier.
De façon plus pratique le
WorkFlow décrit le circuit de validation, les
tâches à accomplir entre les différents
acteurs d'un processus, les délais, les modes
de validation et fournit à chacun des acteurs
les informations nécessaires pour la réalisation
de sa tâche. Pour un processus de publication
en ligne par exemple, il s'agit de la modélisation
des tâches de l'ensemble de la chaîne
éditoriale, de la proposition du rédacteur
à la validation par le responsable de publication.
On distingue généralement
deux types de Workflow :
- Le workflow procédural
(aussi appelé workflow de production ou workflow
directif) correspondant à des processus métiers
connus de l'entreprise et faisant l'objet de procédures
pré-établies : le cheminement du workflow
est plus ou moins figé ;
- Le workflow ad
hoc basé sur un modèle
collaboratif dans lequel les acteurs interviennent
dans la décision du cheminement : le cheminement
du workflow est dynamique.
|