fr.comp.normes.unicode
[Top] [All Lists]

Re: Désormais plus de pages internet en Unicode qu'en ASCII ou dans les,

Subject: Re: Désormais plus de pages internet en Unicode qu'en ASCII ou dans les,codages Latin-1
From: "Antoine Leca"
Date: Fri, 22 Aug 2008 12:22:46 +0200
Newsgroups: fr.comp.normes.unicode
En news:[email protected], Méta-MCI (MVP) va escriure:
> Quoi ?  Quoi ?  Quoi ?   Des pages en Unicode ?
> Ne serait-ce pas, plutôt, des pages encodées en UTF-8, UTF-16, CJK,
> etc. ?

C'est pire. En fait, c'est (probablement) des pages *déclarées* comme
encodées _ou_ basées sur Unicode (UTF-8) plutôt que déclarées en
us-ascii|iso-8859-*|windows-1252.


Et bien évidemment, cela n'a rien à voir avec le contenu, et beaucoup à voir
avec le fait que les outils de production de pages HTML (PHP ?) et les
serveurs HTTP (Apache v2) ont modifié les paramétrages par défaut, en
particulier pour atteindre la plus grande audience possible avec le moins de
paramètres à modifier, globalisation oblige.

Auquel cas il est intéressant de noter que le point d'inflexion de
iso-8859-x est en 2006, à comparer avec la date de sortie de HTML4 (qui a
remplacé ISO 8859-1 par Unicode comme jeu de caractères par défaut), à
savoir décembre 1997...

Autre truc intéressant : en préparant cet article, je suis tombé (tête de
liste pour http://www.google.com/search?q=frontpage+unicode) sur
http://lists.ibiblio.org/pipermail/biblical-languages/2001-January/000143.html.
Très instructif (y compris pour les confusions qu'y fait l'auteur, en
particulier il ne semble pas faire la différence entre la machine où est
composé le texte et celle où il est lu...)
Et donc avec FP2000 il fallait modifier le réglage par défaut dans un coin
obscur...


> Auquel cas, on pourrait aussi considérer les pages en Latin-1 (et
> consorts), comme des pages Unicode encodée en Latin-1.

Voui.
Ou le contraire.
Par exemple, sur ma propre chaîne (artisanale) de production de documents,
le document initial est en Latin-1 (parce que c'est plus facile pour mes
outils d'édition), et ensuite il est modifié pour utiliser des entités HTML
(é).

Au final, le document envoyé est stocké et servi en ASCII, ce qui est
nécessaire pour être compatible avec les bandeaux publicitaires et autres
qui peuvent éventuellement entourer la page, certains déclarant iso-8859-1
et d'autres utf-8 mais aucuns ne prennent la peine de recoder réellement le
contenu...

Si c'est mon serveur qui sert seul la page, elle sera /déclarée/ (HTTP et
<head>/<meta> Content-type/charset) comme basée sur "utf-8", pour des
raisons de compatibilité avec le plus grand nombre de navigateurs (raisons
determinées en 1998-99, soit dit en passant, et probablement à réviser).
Mais reste /encodée/ en us-ascii...


Et mon petit doigt me dit que les « statistiques » de Mark et Patrick sont
basées sur le paramètre transmis (l'un ou l'autre, mais étant donné la pente
de la courbe et le déploiement d'Apache v2, je pencherais pour une priorité
donnée au premier, celui servi dasn l'entête HTTP), et qu'elles n'ont que
faire de la réalité de l'encodage.
C'est à mon sens la seule façon d'expliquer que le contenu en «
anglais » --signifiant en fait sans accent ni guillemets ou apostrophe
décoratifs-- serait passé de 50 % en 2001 à 25 % aujourd'hui.


Antoine


<Prev in Thread] Current Thread [Next in Thread>