fr.comp.normes.unicode
[Top] [All Lists]

Re: table unicode

Subject: Re: table unicode
From: Pierre Goiffon
Date: Wed, 16 Nov 2005 10:18:37 +0100
Newsgroups: fr.comp.normes.unicode
Thomas wrote:
c'etait peut etre une table utf-8 plutot qu'unicode
Alors voir :
http://www.unicode.org/versions/Unicode4.0.0/ch03.pdf#G7404
La table 6-6 en particulier, qui donne la représentation en UTF-8 des caractères suivant leur code point.
mais les codes &xnn; c'est le numero unicode pas utf-8, c'est ca ?
(au fait, unicode = utf-16 ?)
Euh attention
Contrairement aux codages 8 bits "classiques" pour lesquels il n'y a pas de distinction entre table des caractères et codage, en Unicode on a bien d'un côté la table des caractères, et de l'autre des codages possibles (encoding schemes) : utf-7, utf-8, utf-16, utf-32.
Chaque caractère référencé dans Unicode est identifié par un numéro : le
code point. On peut noter que les premiers code points sont identiques
au numéros de caractères dans la table ISO Latin-1. Un caractère est
noté U+<code point en hexadécimal>. Par exemple, le "A" est au code
point 65 en décimal, 41 en hexa, c'est le caractère U+0041.
En (x)HTML, il est possible de spécifier un caractère dont on connait le
code point :
http://www.w3.org/TR/html401/charset.html#h-5.3.1
Le caractère précédent peut donc être noté &#65; ou &#x41;.
A noter que :
- la recommandation parle de ISO 10646, mais les code point Unicode et les numéro de caractères dans ISO 10646 sont identiques - la version &#x...; est assez récente et visiblement relativement peu supportée.
Par ailleurs, il existe un groupe <news:fr.comp.normes.unicode>
Je laisse le suivi, mais n'étant pas abonné à ce groupe (les journées
n'ont que 24h...), j'arrête là.




<Prev in Thread] Current Thread [Next in Thread>