Retour / Séminaire informatique / Documents et information / Le html comme format d'échange

Le format ascii

L'histoire d'une conspiration assez facile à imaginer.

Pour stocker un texte, il suffit d'associer à chaque caractère un code numérique. Le format ascii, c'est la représentation du texte sous forme d'une suite de ces codes. Cette représentation ne comprend aucune information relative aux styles des caractères. Elle n'associe qu'un seul caractère à un code donné, ce qui empêche d'utiliser notamment les caractères grecs et les symboles mathématiques, faute de place, l'ensemble étant limité à moins que 128 caractères.

Ascii veut dire American Standard Code for Information Interchange. En d'autres termes, c'est un standard reconnu par tous pour l'échange de textes en anglais. L'ascii n'est pas standard pour tous les caractères français qui varient selon le constructeur de machines et de systèmes d'exploitation. Les codes supérieurs à 127 pour Apple, IBM, Microsoft, Unix, etc. divergent radicalement. Le cas de Microsoft est particulièrement dramatique car il utilise au sein d'une même machine des codes différents pour le DOS, Win3.11, Win95 etc. Il fallait oser!

Il ne faut pas se laisser aller à voir là une volonté d'hégémonie nationale de la part des concepteurs, tous américains. Il est vrai que le texte anglais se passe sans difficulté des caractères variables avec des codes supérieurs à 127. Cependant même les américains ne bénéficient pas des avantages d'un véritable standard pour le texte. Essayez d'ouvrir un fichier ascii en anglais produit avec un système Apple sous Windows et vous verrez tout de suite de quoi je parle: c'est illisible. Tout ce passe comme si chaque fournisseur cherchait à fidéliser sa clientèle en s'assurant que l'ensemble des fichiers produits par le client soit totalement inexploitable avec une autre machine. Voici comment.

Sur un système Macintosh, le caractère 13 (CR, Carriage Return, retour chariot) ramène au début de la ligne et continue l'écriture au début de la ligne suivante. Sur un système Microsoft, la même action requiert deux caractères: 13 (CR) et 10 (FF, Form Feed, alimentation du papier). Le premier ramène au début de la ligne et le deuxième avance d'une ligne vers le bas. On ne s'étonnera pas de trouver cette formulation inélégante chez un concepteur dont le principal client (ibm) était en 1930 un fabricant de machines à écrire où le retour chariot et l'avancée du papier sont bien deux opérations mécaniquement distinctes. Le texte écrit avec une machine est lue sur une autre mais sans les paragraphes ! Rien que ça !

Ainsi, en jouant sur les mots, les fabricants ont réussi à ôter tout avantage réel au standard. Les utilisateurs ne sont que d'innocentes victimes dans cette histoire, et c'est ainsi qu'on en vient aisément à parler de conspiration ! L'hôtage songe naturellement à s'échapper. L'évasion a été rendue possible par le Consortium (W3C.org) quand il a instauré la nomalisation du web. Les fichiers du web doivent être lisibles pour toutes les machines. Solution: ne pas utiliser les codes ASCII supérieurs à 127 (qu'on remplace par les "entités html" (dites aussi "entités iso") de forme <&eacute;>) et ignorer totalement les codes relatifs au transport du chariot et du papier. Voilà ce qui caractérise en tout premier lieu le format html. On utilise en Amérique et en Europe Occidentale le codage "Iso Latin 1" qui s'applique pour tous les documents html et pour toutes les machines. [ Voir dans ce même site l'extrait du document normatif contenu dans l'article consacré au codes secrets. ]

Le html est un véritable standard qui sert maintenant aussi pour les cdroms. Le format ascii demeure incontournable pour le travail efficace avec l'information au sein d'une machine, c'est à dire dans la phase de préparation d'un document. C'est aujourd'hui un très mauvais choix pour la publication électronique du document.

Le format html est aujourd'hui un standard imposé par le public las d'être le jouet d'une industrie indifférente à ses préoccupations.

Il faut être vigilant toutefois. On cherche longtemps en vain dans la documentation Microsoft l'allusion au fait qu'il est nécessaire de traduire les caractères "ansi" en "entités html" avant la publication. [ Il n'est pas nécessaire pour Microsoft. Mais pour vous. A moins qu'il ne vous soit indifférent d'être lu aussi par des gens qui utilisent d'autres systèmes. A moins que vous ne vouliez travailler gratuitement à vendre les produits Microsoft. ] Microsoft word 2000 introduit des particularismes dans son code html qui le rendent incompatible avec tous les autres logiciels même ceux de chez Microsoft. N'allez pas croire que je reproche au peuple Microsoft son gouvernement intégriste.

Votre documentation html, qu'elle soit incluse ou non dans votre site web, a l'avantage d'être exploitable sur toute machine qu'il vous plaira d'utiliser à l'avenir ou qu'il plaira à vos correspondants d'utiliser aujourd'hui. Si vous choisissez de travailler aussi avec l'ascii, il vous serait utile de disposer d'un protocole rapide pour traduire rapidement et sommairemement l'ascii de votre machine en entités html. BBEdit (mac) et EditPlus (pcwindows) le font en un clin d'oeil. Ils permettent aussi d'écrire (si vous en avez l'utilité) les retours mac, unix ou windows, au choix. Voyez aussi sur le web l'offre logicielle du jour !


Clefs: 
rubriques

Retour / Séminaire informatique / Documents et information / Le html comme format d'échange