Retour / Séminaire informatique / Documents et information / Balisage et SGML

Le terme "SGML" (Standard generalized Markup Langauge) désigne tout langage de balisage cohérent et nomalisé. Le HTML en est un exemple.

Nous avons vu, dans la page précédente, un balisage arbitraire, non-normalisé. La balise "§fiche§" utilisée dans l'illustration semble farfulue. La raison à cela est évidemment qu'il faut éviter qu'une balise soit confondue avec un mot de la langue commune. La normalisation consiste donc en l'adoption de signes farfelus mais normalisés, toujours les mêmes. Il en existe principalement deux sortes :

L'intérêt de la normalisation est considérable. Dans un avenir lointain, elle devrait permettre à un ordinateur de repérer dans un ouvrage quelconque tous les différents types d'information. C'est ce qui explique pourquoi bon nombre de balises de styles et de listes donnent avec le HTML des résultats visuellement identiques. Les balises sont différentes afin de permettre à un programme (et non un lecteur humain qui repère intuitivement) de savoir si tel passage donné en léger retrait est une citation (BLOCKQUOTE), un morceau de programme (CODE), un menu (MENU) ou une banale liste sans qualités particulières (UL).


Exemple de balisage

Voici maintenant une nouvelle étude du problème qui illustre la page précédente : le balisage des mots d'un lexique. L'étude est conduite, cette fois, avec les balises HTML sur un échantillon du Dictionnaire de l'argot des typographes (1883) d'Eugène Boutmy.

Le texte original

Bloquer, v. a. Remplacer provisoirement un signe typographique dont on manque par un autre de même force. || Par extension, Manquer, faire défaut, faillir. Bloquer le mastroquet, c'est ne pas payer le marchand de vin.

Boche (TÊTE DE), S. f. Tête de bois. Ce terme est spécialement appliqué aux Belges et aux Allemands. parce qu'ils comprennent assez difficilement, dit-on, les explications des metteurs en pages, soit à cause d'un manque de vivacité intellectuelle, soit à cause de la connaissance imparfaite qu'ils ont de la langue française et de leur impardonnable ignorance de l'argot typographique.

Boeuf, s. m. Colère, mécontentement; synonyme de CHÈVRE. V. ce mot. Ajoutons cependant que le boeuf est un degré de mécontentement plus accentué que la chèvre. Le boeuf est une chèvre à sa plus haute puissance. || Gober, avoir son boeuf, Être très contrarié, se mettre en colère.

Boeuf, s. m. Composition de quatre ou cinq lignes qu'un compagnon fait gratuitement pour son camarade momentanément absent. S'emploie presque exclusivement dans les journaux. On disait autrefois TOCAGE.

Boeufier, s. m. Facile à mettre en colère, qui gobe facilement son boeuf.

Boire de l'encre. C'est la situation fâcheuse à laquelle parait réduit un frère qui, invité à prendre sa part d'une consommation, arrive quand la fiole a été vidée rubis sur l'ongle. Dans son désappointement, il ne manque pas de s'écrier: Est- ce que vous croyez que je vais BOIRE DE L'ENCRE? Non, car on fait alors apporter aussitôt une autre fiole.

L'action de baliser

Le formattage du texte original est réalisé avec beaucoup de rigueur dans un éditeur ascii. On balise en s'appuyant sur les régularités.

On utilisera les balises html suivantes : Liste de Définitions <DL><DT><DD></DL> (<DT>=terme, <DD>=définition).

Procédé :

o Inspecter visuellement le texte pour y repérer d'éventuelles régularités dont le GREP pourra se servir pour guider sa pose de balises.

o Choisir un échantillon du texte pour les tests et tâtonnements.

o Composer un programme GREP qui correspond au répérage :

([\r]+)([^\,|\.]*[\,|\. ])([a-zA-Z|\.| ]*)([A-Z][^\.])

En français : Au moins un retour dans le groupe 1, suivi d'autant de caractères qu'on voudra (ou aucun) qui ne soient ni des virgules, ni des points. Ensuite, soit une virgule, soit un point pour clore le groupe 2, suivi d'autant de caractères qu'on voudra (ou aucun) qui soient : des lettres minuscules ou majuscules, des points ou des espaces pour former le groupe 3. Le tout suivi obligatoirement d'une lettre majuscule suivie d'autre chose qu'un point qui constituent le groupe 4.

o Composer une chaîne de remplacement et remplacer partout :

\1<DT>\r\2\3\r<DD>\r\4

En français : Conserver les retours du groupe 1. Inscrire "<DT>" suivi d'un retour. Conserver les groupes 2 et 3 qui forment le mot défini (ou du moins l'ensemble des termes qui précèdent la définition). Inscrire ensuite "<DD>" suivi d'un retour. Conserver le groupe 4 qui représente les quelques premiers caractères de la définition.

Voici le texte balisé :

<DT>
Bloquer, v. a.
<DD>
Remplacer provisoirement un signe typographique dont on manque par un autre de même force. || Par extension, Manquer, faire défaut, faillir. Bloquer le mastroquet, c'est ne pas payer le marchand de vin.

<DT>
Boche (TÊTE DE), S. f.
<DD>
Tête de bois. Ce terme est spécialement appliqué aux Belges et aux Allemands. parce qu'ils comprennent assez difficilement, dit-on, les explications des metteurs en pages, soit à cause d'un manque de vivacité intellectuelle, soit à cause de la connaissance imparfaite qu'ils ont de la langue française et de leur impardonnable ignorance de l'argot typographique.

<DT>
Boeuf, s. m.
<DD>
Colère, mécontentement; synonyme de CHÈVRE. V. ce mot. Ajoutons cependant que le boeuf est un degré de mécontentement plus accentué que la chèvre. Le boeuf est une chèvre à sa plus haute puissance. || Gober, avoir son boeuf, Être très contrarié, se mettre en colère.

<DT>
Boeuf, s. m.
<DD>
Composition de quatre ou cinq lignes qu'un compagnon fait gratuitement pour son camarade momentanément absent. S'emploie presque exclusivement dans les journaux. On disait autrefois TOCAGE.

<DT>
Boeufier, s. m.
<DD>
Facile à mettre en colère, qui gobe facilement son boeuf.

<DT>
Boire de l'encre.
<DD>
C'est la situation fâcheuse à laquelle parait réduit un frère qui, invité à prendre sa part d'une consommation, arrive quand la fiole a été vidée rubis sur l'ongle. Dans son désappointement, il ne manque pas de s'écrier: Est- ce que vous croyez que je vais BOIRE DE L'ENCRE? Non, car on fait alors apporter aussitôt une autre fiole.

o Pour finir le code, ajouter par la saisie directe les balises DL autour de la liste :

<DL>
<DT>
...
<DD>
...
etc.
</DL>

Le résultat

Extrait du Dictionnaire de l'argot des typographes (1883) d'Eugène Boutmy

Bloquer, v. a.
Remplacer provisoirement un signe typographique dont on manque par un autre de même force. || Par extension, Manquer, faire défaut, faillir. Bloquer le mastroquet, c'est ne pas payer le marchand de vin.
Boche (TÊTE DE), S. f.
Tête de bois. Ce terme est spécialement appliqué aux Belges et aux Allemands. parce qu'ils comprennent assez difficilement, dit-on, les explications des metteurs en pages, soit à cause d'un manque de vivacité intellectuelle, soit à cause de la connaissance imparfaite qu'ils ont de la langue française et de leur impardonnable ignorance de l'argot typographique.
Boeuf, s. m.
Colère, mécontentement; synonyme de CHÈVRE. V. ce mot. Ajoutons cependant que le boeuf est un degré de mécontentement plus accentué que la chèvre. Le boeuf est une chèvre à sa plus haute puissance. || Gober, avoir son boeuf, Être très contrarié, se mettre en colère.
Boeuf, s. m.
Composition de quatre ou cinq lignes qu'un compagnon fait gratuitement pour son camarade momentanément absent. S'emploie presque exclusivement dans les journaux. On disait autrefois TOCAGE.
Boeufier, s. m.
Facile à mettre en colère, qui gobe facilement son boeuf.
Boire de l'encre.
C'est la situation fâcheuse à laquelle parait réduit un frère qui, invité à prendre sa part d'une consommation, arrive quand la fiole a été vidée rubis sur l'ongle. Dans son désappointement, il ne manque pas de s'écrier: Est- ce que vous croyez que je vais BOIRE DE L'ENCRE? Non, car on fait alors apporter aussitôt une autre fiole.

Le texte original était parfaitement lisible et la nouvelle mise en page obtenue pour le texte balisé n'est ni meilleure ni pire. Ce qu'on a gagné, c'est la possibilité de demander à un programme de trouver une définition dans le document balisé. Il importe peu que ce programme existe réellement maintenant. L'adoption d'une balise normalisée rend seulement ce programme concevable dans le futur.


Clefs: 
balisage
langue
synonyme

Retour / Séminaire informatique / Documents et information / Balisage et SGML