gestion des encodages (was Re: apt-get)

(Courriels de diversion: <laryngologiste@gavera-appartenais.com> <piaffa@uniformiser-somnolerez.com> <hypothese@teleguidage-ramification.com> <adonnerais@compromettrait-crevez.com> <avoisiner@drainerions-copions.com> <stenographierez@profererait-patronniez.com> <brusquerent@ophtalmologues-hilarant.com> <chavirant@intentionnee-finalisations.com> <resoudraient@defavorises-constaterais.com> <brimerent@rectifies-etiquetterons.com> )

To: Liste linux-31 <linux-31@culte.org>
Subject: gestion des encodages (was Re: apt-get)
From: Eric Marsden <emarsden@laas.fr>
Date: Mon, 27 Jan 2003 20:26:58 +0100

>>>>> "jmm" == Mongrelet Jean-Marc <jm-mongrelet@ifrance.com> writes:
  titi> apt-get existe sous redhat, il Ã  Ã©tÃ© portÃ© par une Ã©quipe de brÃ©zilien

  jmm> voila meme l'adresse du projet : http://apt4rpm.sourceforge.net/

aiee, c'est pas joli ces logiciels de courriel qui ne gèrent pas
l'UTF-8! 

   X-Mailer: Evolution/1.0.2-5mdk


Je propose une nouvelle règle pour la liste: on est autorisé à troller
uniquement lorsqu'on a envoyé un message constructif le même jour.
«Constructif» ça peut être

  - qui donne une réponse soigneusement formulée à une question
    technique
    
  - qui rend service à l'association (par exemple un compte-rendu de
    réunion -- on n'en voit plus très souvent circuler ces dernières
    années)

  - qui fait avancer l'un des projets de l'association (exemple de
    projet qui avance bien: biglux)

  - qui fournit une information intéressante et conforme aux thèmes de
    la liste (idéalement, si on balance une URL, on résume en quelques
    phrases l'intérêt pour les abonnés à la liste).

Comme le début de mon message peut être assimilé à un troll de variété
mdk, je vais suivre ma règle j'ai-payé-mon-troll. Voici le ticket de
caisse:


   Un texte (tel que celui véhiculé par un courriel) est composé d'une
   séquence de caractères. Afin de transmettre des caractères via un
   média qui ne sait représenter que des données binaires (genre une
   connexion réseau, ou un fichier Unix, qui ne savent représenter que
   un flux d'octets), il faut trouver un moyen d'encoder les
   caractères avant émission, et les décoder (sans perte) coté
   réception. Pour encoder il faut décider du jeu de caractères
   (correspondance entre un caractère et un nombre) et d'un encodage
   (format binaire utilisé pour représenter les nombres).

   Le jeu de caractères le plus simple s'appelle ASCII (man ascii): il
   représente les caractères utilisés les plus fréquemment en anglais
   par une nombre entre 0 et 128, représentable sur 7 bits. Lorsqu'on
   encode des éléments du jeu de caractères ASCII, on peut utiliser un
   octet par caractère, et il reste un bit qui peut servir au contrôle
   de flux.

   Pour encoder un texte en langue française, l'ASCII n'est pas très
   pratique. On est oblige' d'adopter des re`gles ad-hoc pour
   repre'senter les caracte`res fromage-qui-pue. On a donc inventé des
   jeux de caractères qui utilisent les nombres entre 128 et 256 pour les
   caractères «étendus»: éàçèùÉÇïæå etc. C'est les jeux de caractères
   iso-8859-1, iso-8859-15 (presque identique au -1 sauf le caractère
   EUR), mac-roman. Puis les Hongrois et le Finnois n'ont pas les
   mêmes caractères spéciaux que les Français, donc ils utilisent un
   autre ensemble de caractères étendus, ce qui donne le jeux de
   caractères iso-8859-2.

   Avec ces jeux de caractères, on a conservé la plupart des
   caractéristiques pratiques de l'ASCII: un caractère peut être
   encodé sur un octet. Mais on a perdu l'universalité de l'ASCII,
   puisqu'il faut maintenant annoter les octets encodés avec le jeu de
   caractères utilisé: si un texte mac-roman est décodé en iso-8869-1,
   le texte est corrompu. Dans les courriels par exemple, votre MUA
   utilise des entêtes spéciales pour indiquer le jeu de caractères
   (= «charset» en anglais)

     Content-Type: text/plain; charset=ISO-8859-1

   Mais ces jeux de caractères sur 8 bits ont leurs limites: ils ne
   permettent pas de représenter des textes Japonais, par exemple, où
   le nombre de symboles est bien plus grand que dans les langues
   occidentales. Il existe une profusion de jeux de caractères et
   d'encodages (certains 7-bits, certains 8-bits, utilisant ou non des
   séquences d'échappement) pour les langages asiatiques, tous
   incompatibles entre-eux.

   Pour rationaliser le bordel qu'était devenu cette profusion
   d'encodages, le consortium Unicode (man unicode) a développé un jeu
   de caractères unique. À chaque caractère ou symbole mathématique
   correspond un nombre: sa position dans le Universal Character Set
   (UCS, standard ISO 10646). Le standard lui donne également un nom:
   ainsi le caractère «é» s'appelle LATIN SMALL LETTER E WITH ACUTE.

   Associé au jeu de caractères UCS, Unicode définit un certain nombre
   d'encodages permettant de représenter les caractères Unicode dans
   des flux d'octets. L'encodage le plus simple est l'UCS-4, où chaque
   caractère est codé sur 32 bits. Avec cet encodage, le volume de
   stockage, ainsi que le temps de transmission, sont multipliés par 4
   par rapport à du iso-8859-1, pour des textes en français. Pour
   contourner ce problème on peut utiliser l'encodage UTF-8 (man
   utf-8), qui représente les caractères dans le jeu de caractères
   ASCII par leur code ASCII, puis utilise des séquences d'échappement
   pour les autres caractères. C'est un encodage compact, pour les
   textes occidentaux, mais à longueur variable; pour trouver le 10ème
   caractère d'une chaîne, il ne suffit plus de chercher le 10ème
   octet; il faut traverser le flux en traitant les séquences
   d'échappement.

   Tout cela pour dire que le MUA de titi a envoyé son message avec un
   encodage UTF-8. Le MUA de jmm ne semble pas comprendre l'UTF-8
   (c'est dommage de nos jours), et il voit donc chaque caractère
   accentué sous la forme de deux caractères: la séquence
   d'échappement (octet Ã pour les caractères "européens") puis un
   octet qui code le caractère. 

-- 
Eric Marsden                          <URL:http://www.laas.fr/~emarsden/>

---------------------------------------------------------------------
Aide sur la liste: <URL:mailto:linux-31-help@CULTe.org>Le CULTe sur le web: <URL:http://www.CULTe.org/>

References:
- realaudio
  - From: f1sxo <f1sxo@ref-union.org>
- apt-get
  - From: Mongrelet Jean-Marc <jm-mongrelet@ifrance.com>
- Re: apt-get
  - From: TiTi <TiTi@cheztiti.org>
- Re: apt-get
  - From: Eric Gerbier <Eric.Gerbier@meteo.fr>
- Re: apt-get
  - From: Mongrelet Jean-Marc <jm-mongrelet@ifrance.com>