?" title="Home"/> ?" title="Index"/> ?" title="Site map"/> ?" title="Site map"/> ?" title="Site map"/> ?" title="Help"/> ?#copy" title="Copyright"/> Conception générale d'une application par Destin href="../styles/.css" type="text/css" media="screen, projection,print"/> href="../styles/medium.css" type="text/css" media="screen, projection,print"/>

Conception générale d'une application par Destin

 

Méthodologie

La structure proposée par ReadySet convient aussi pour la phase de conception du nouveau système d'information. Elle permet à tous les intervenants d'avoir une vue complète sur la conception et l'avancement de votre projet.

Les principes du "Agile Manifesto" guident notre travail.

Analyse de l'application

La définition des spécifications d'un système informatique consiste essentiellement à concilier trois dimensions:

  1. les besoins des utilisateurs de l'information et des services associés:
    • Inventaire des informations requises pour différents types d'utilisateurs ;
    • Types d'accès selon différents types d'utilisations ;
    • Présentation des informations obtenues ;
    • Traitements et fonctions auxilliaires désirés par les utilisateurs.
  2. la disponibilité de sources d'informations existantes, l'ajout d'informations supplémentaires et la mise en forme de l'ensemble:
    • Inventaire des sources de données existantes ;
    • Règles de transformation de ces données pour qu'elles correspondent aux besoins ;
    • Inventaire des informations à rajouter ou à modifier manuellement ;
    • Constitution d'échantillons des données existantes ou à produire ;
  3. les capacités des équipements et des logiciels qui seront utilisés:
    • Contraintes et coûts des medium d'accès (Internet, réseau local (Intranet), courrier électronique, CD-ROM, etc.) ;
    • Performance et capacité de tous les logiciels impliqués ;

La charge de travail de l'analyse est de l'ordre d'une semaine.

Un exemple en annexe donne d'autres d'informations sur la ?"> conception générale d'une application.

Modélisation des données

Le système à constituer va donc gérer et rendre accessible un ensemble cohérent d'informations. Établir les règles de cette cohérence implique:

  1. d'établir une terminologie claire du point de vue des utilisateurs pour tous les éléments d'informations auxquels ils auront accès;
  2. d'établir un glossaire expliquant la terminologie et fournissant une traduction des termes dans toutes les langues d'utilisation;
  3. d'identifier les différents types d' objets qui seront stockés dans la base de données (par exemple, des notices bibliographiques, des fiches biographiques, des descripteurs-sujets, des sections de textes, etc.)
  4. d'identifier les attributs de ces objets, c'est à dire les différentes informations que l'on trouve pour chaque objet (par exemple, pour une notice bibliographique, le titre du document, la date de publication, les identifiants des fiches biographiques des auteurs, le résumé, etc.);
  5. d'identifier les relations entre les objets: un auteur a écrit des documents; un document a été écrit par des auteurs, il traite aussi de plusieurs sujets; un sujet est traité par plusieurs documents, etc.
  6. d'évaluer les quantités et les caractéristiques pour ces objets, attributs et relations;
  7. de déterminer les recherches élémentaires qui devront être disponibles (quels sont les attributs qui serviront à retrouver des objets? quelles relations seront exploitées le plus fréquemment?);

La charge de travail de la modélisation est de l'ordre d'une semaine.

Choix d'une stratégie d'indexation

Dans le domaine documentaire, on est souvent confronté à des utilisateurs ayant à priori des indices imprécis à confronter le plus intelligemment possible au contenu de la base de données afin de leur apporter des réponses exhaustives (peu de "silence") et précises (peu de "bruit"). Avec l'augmentation des performances des ordinateurs, on peut de plus en plus se permettre des traitements sophistiqués pour apporter un maximum de support aux utilisateurs.

Différentes approches existent et il faut déterminer la combinaison la plus adéquate pour vos besoins:

Inventaire dynamique des valeurs possibles
Pour l'ensemble de la banque de données ou pour un sous-ensemble obtenu lors d'une recherche antérieure, on fournit à l'utilisateur une liste des valeurs possibles et de la quantité d'objets pour chacune de ces valeurs. L'utilisateur peut alors faire en toute connaissance de cause le choix des valeurs pertinentes à son besoin. Pour ce type d'inventaire, on choisira d'indexer les valeurs d'une manière bien parlante: noms complets (et non mots des noms) par exemple.
Constitution de vocabulaires normalisés
Dans la plupart des domaines, on a un vocabulaire consacré qui connaît souvent malheureusement des variantes. Pour éviter de demander à chacun de connaître exactement les termes que vous avez normalisé, il est utile d'avoir un inventaire de ces termes avec des synonymes (recherches selon une variante ayant le même sens) et avec des traductions (recherches dans une autre langue). Lors de la constitution des données, on pourra établir automatiquement, pour chaque objet, la liste des termes qu'il mentionne, en se basant sur les termes consacrés, leurs synonymes, et, au besoin, leurs traductions: ces listes peuvent évidemment être corrigées pour retirer les mentions accessoires et pour ajouter les mentions implicites (c'est à dire absentes mais directement impliquées par le contexte)
Simplifications orthographiques
Des règles simples sont parfois utiles pour pallier aux différences les plus fréquentes entre l'information cherchée et l'information dans la banque de données:
  • Recherche par mots:
    les mots cherchés peuvent être dans n'importe quel ordre dans le texte, celui-ci sera retrouvé
  • Recherche avec proximité:
    les mots cherchés peuvent être, au choix, dans l'ordre ou dans le désordre ou adjacents (c.à d. plus ou moins distants l'un de l'autre)
  • Mise en majuscule et suppression des accents:
    "Chapître" trouve alors "chapitre" et inversément
  • Suppression des lettres en double:
    que l'utilisateur tape "enveloppe" avec deux "L" ou avec un seul "P", le mot sera trouvé
  • Suppression des "S" finaux:
    "Essais" trouve alors "Essai" et inversément
  • Suppression des "E" finaux:
    "dérivée" et "dérivé" sont alors équivalents.
  • Phonétisation:
    les mots sont simplifiés selon un algorithme dérivé du "Soundex" ou de "Phonix" et adapté pour donner un résultat assez correct pour les noms propres d'une application. Par exemple, "Katarina", "Katheryn" retrouveront "Catherine".

On choisit donc les simplifications orthographiques en fonction des caractéristiques de vos données et des besoins des utilisateurs.

Traitement linguistique
Sur la base de dictionnaires pour la langue des textes indexés, on peut catégoriser automatiquement les mots (noms, verbes, adjectifs, etc.) et les ramener à une forme dite "lemmatisée" (verbes à l'infinitif, adjectifs au masculin singulier, etc.). Une analyse syntaxique minimale est nécessaire pour lever toute ambiguïté ("avions" vient il de "avoir" ou de "avion"?). Nous pouvons intégrer des outils à ce niveau.
L'énoncé des recherches passe par le même traitement que les textes stockés et on retrouve alors les mots désirés quelle que soit leur forme.
Thésaurus
Les termes que vous utilisez peuvent souvent se classer en une ou plusieurs hiérarchies allant du général au particulier avec le nombre de niveaux nécessaires. Ce type de hiérarchie est alors utile pour aider l'utilisateur à préciser ce qui l'intéresse en lui présentant les subdivisions possibles pour un concept qu'il a choisi. L'utilisateur peut alors:
  • passer à un concept plus général ou plus spécifique
  • demander les objets liés au concept choisi
  • demander les objets liés au concept choisi ou à tout autre concept faisant partie de ses subdivisions.

?"> Cliquez ici pour obtenir plus d'explications sur les thésaurus et pour voir un exemple.

La charge de travail pour déterminer la stratégie d'indexation peut varier de deux à dix jours selon le niveau de sophistication.

Constitution de la base de données éditoriale

La base de données éditoriale est le noyau où toutes les données s'intègrent et d'où tous les produits de diffusion (Intranet, Internet, CD-ROM, Édition sur papier) sont tirés. La plupart des fonctions du système s'articulent autour de cette base de données.

La constitution de la base de données éditoriale est la charge la plus lourde de la plupart des projets. Cette création doit donc se faire avec un maximum d'outils automatiques conçus pour faire leur travail sans erreur et pour identifier tous les cas où une décision manuelle doit être prise.

Pour chaque élément, on doit décider des techniques d'alimentation (conversion de fichiers, lecture optique, frappe au kilomètre dans des pays à bas salaire, indexation par un professionnel, etc.). Les taux d'erreurs doivent être estimés de même que les procédures de validation. Celles-ci peuvent être automatisées en partie (correcteurs orthographiques, comparaison avec un fichier terminologique, autres règles de validité).

Dans le cas du texte de documents, on doit identifier:

  • les renvois entre sections à l'intérieur du document lui même
  • les renvois vers d'autres documents ou vers des sections d'autres documents
  • les frontières de sections et toute la structure du document (chapitres, sous-chapitres, etc.)

Ceci est nécessaire pour proposer une table des matières aux utilisateurs de même que des liens hypertextes à chacun des renvois. Cette analyse des textes peut être plus ou moins automatisée selon la diversité dans la forme des textes traités.

Il ne faut pas négliger les efforts nécessaires pour s'assurer des droits de distribution des informations récupérées. L'intégration des images fixes ou animées ainsi que du son doit aussi être étudiée.

On crée des jeux de données de test représentatifs pour pouvoir valider les différents programmes du système.

Vous pourrez donc constituer votre banque de données éditoriale qui centralisera toutes vos données et qui garantira leur validité et leur cohérence.

Remonter au début

Outils et méthodologies de conception: