Niveaux de solution de l'informatique documentaire

L'utilité essentielle de l'information est qu'elle permet la prise de décision et donc l'action.
Les systèmes d'informations ont pour but ultime de déclencher une ou des actions.

Le "Top niveau", les systèmes-experts:

La forme la plus achevée d'un système d'information est donc le système expert qui recommande directement des actions à partir du peu d'informations que l'utilisateur peut fournir.

Un système expert est un investissement considérable car il demande de formaliser à l'avance toutes les règles de prise de décision (au moins permet-il de ne pas devoir formaliser tous les cheminements ou raisonnements: on lui fournit les règles de déduction et il les met lui même en oeuvre).

Les systèmes-experts nécessitent:

une terminologie complète du domaine dont ils traitent : chaque concept doit être parfaitement nommé. Il est impossible de mettre en oeuvre les systèmes-experts sans un thésaurus complet du domaine dont ils traitent;
la création de règles de décision avec une évaluation répétée de ces règles face aux réalités.

La tâche la plus lourde est la formalisation et la validation des règles de décision.

Si on ne peut s'offrir le "Top", le thésaurus est une étape intermédiaire:

La plupart du temps, on n'a pas réellement besoin des systèmes-experts (du moins, le ratio coût/bénéfice ne leur est pas favorable): c'est l'utilisateur qui doit interpréter les résultats d'une recherche pour prendre une décision.

On doit donc faciliter au maximum cette interprétation dans un processus interactif:

l'utilisateur donne un ou des indices sur ce dont il a besoin
le système lui retourne alors:
- une indication de la quantité d'information retrouvée: s'il y en a trop l'utilisateur va tout de suite donner des indices supplémentaires
- les informations pertinentes par rapport aux indices fournis (documents)
- les possibilités effectives d'affiner la recherche:
  - Quels sont les autres sujets qui sont traités par les documents retrouvés? Cette possibilité nécessite une indexation des documents: pour chacun d'entre eux, on doit connaître les sujets dont il traite et la terminologie de ces sujets doit être controlée.
  - les possibilités effectives pour obtenir des informations reliées à celles qui ont été retrouvées: Quelles sont les unités documentaires...
    - ... auxquels celui-ci fait référence?
    - ... qui réfèrent à celui-ci?
    - ... du même auteur?
    - ... qui traitent d'un sous-ensemble des mêmes sujets?
  - Quels sont les sujets semblables (un peu plus généraux, un peu plus précis, reliés)? Ces possibilités demandent une structuration des textes pour y repérer les références (ceci peut être fait en partie automatiquement). Ces possibilités demandent aussi une organisation des sujets en hiérarchies et en renvois: c'est un travail sémantique et donc intellectuel (manuel diraient les informaticiens!)
l'utilisateur retourne quand il le veut à l'étape 1.

Cette démarche peut recevoir un niveau d'encadrement supplémentaire: les indices nécessaires pour trouver une solution à un problème peuvent être organisés en dimensions indépendantes (par exemple, pour trouver le meilleur vin, on pourrait vouloir spécifier le plat d'accompagnement, le niveau de prix, la région de production, l'âge, etc.)

Voir une description plus détaillée du ?">contrôle terminologique et les thesaurus.

La base de tout système: les textes originaux

Avant d'espérer inventorier les concepts, il faut nécessairement avoir un accès aux textes numérisés puis avoir un accès direct à tout mot ou expression dans le texte: c'est ce que permettent les logiciels de recherche "plein-texte". On pourra alors débuter une série de tâches qui mènent aux textes structurés et aux thésaurus:

l'inventaire des mots du texte (le lexique)
l'inventaire des termes utilisés (c.à d. suite de mots correspondant à un concept précis)
l'identification des unités documentaires (c.à d. la plus petite unité de texte présentant une idée complète): on pourra ainsi fournir aux utilisateurs des extraits précis en réponse à leurs questions
l'ajout (si possible automatique) d'informations auxiliaires aux textes (auteurs, dates, liens avec d'autres composantes du système informatique)
l'ajout des liens de références d'une partie du texte vers une autre ou encore d'un texte vers un autre.

Voir une description plus détaillée de la ?">recherche méthodique avec un moteur de recherche.

Une stratégie progressive pour la constitution de systèmes d'aide à la décision

Collecte des documents originaux contenant les informations de base, structuration automatique des documents (unités documentaires), recherches par mots ou autres critères, etc.
?">ADAPT est un outil qui permet de définir les règles pour la structuration automatique des documents aux niveaux lexical, syntaxique et sémantique.
XSLT permet aussi d'effectuer des traitements aux niveaux sémantique et syntaxique sur des sources de données XML.
?">SECONDE, MySQL, PostgreSQL ou Lucene permettent d'accueillir les documents structurés et de les indexer. On peut aussi indexer et afficher des documents-source sans qu'ils aient été structurés.
Analyse de ces documents (recherches "plein texte", analyse de concordance, analyse des co-occurrences, etc.) pour constituer un vocabulaire structuré des domaines concernés (thésaurus) et une indexation validée de chacune des unités documentaires.
?">ADAPT permet de projeter des thésaurus sur des textes (c.à.d. faire automatiquement des propositions d'indexation des textes pour les termes qui y apparaissent et sont aussi présents dans le thésaurus), créer des listes de concordance et de co-occurrences et définir les règles pour la structuration automatique des documents.
Protégé, ?">SECONDE, MySQL ou PostgreSQL permettent de stocker le thésaurus, de le tenir à jour et de s'en servir comme aide à l'indexation.
Analyse sémantique des documents pour dégager les règles de décision qu'ils contiennent; Validation des règles sur toute une palette de cas types.
Un outil comme Protégé permet de créer des modèles suivant le standard OWL (Web Ontology Language).

Remonter au début