fr.comp.normes.unicode
[Top] [All Lists]

Re: codage de sortie de la bdd (problème de débutant avec utf-8)

Subject: Re: codage de sortie de la bdd problème de débutant avec utf-8
From: Olivier Miakinen
Date: Thu, 02 Feb 2006 12:04:09 +0100
Newsgroups: fr.comp.normes.unicode
Le 02/02/2006 11:01, Vincent Ramos a écrit :
> 
> Si le texte contient des <o> codés à la Windows, votre transformation en
> UTF-8 les conserve ainsi, ce qui les rend illisibles.

C'est juste parce que la fonction utf8_encode() qu'il a utilisée
présuppose de l'ISO-8859-1 en entrée et rien d'autre.

> Il vous faut une étape supplémentaire : 
> 
> * copiez tous vos textes dans votre éditeur ; 
> * passez-les d'abord en latin-9 (ISO 8859-15). Cela vous débarrassera des
> <œ> Windowsiens tout en les remplaçant par leur contrepartie ISO (norme
> internationale) ;
> * passez le texte en UTF-8.
> 
> De cette manière, tout devrait être bien recodé.

Je ne suis pas d'accord. Si l'éditeur connaît aussi bien les trois
encodages (CP1252, ISO-8859-15, UTF-8), il ne sert strictement à rien de
passer par l'étape intermédiaire ISO-8859-15 : autant passer directement
de CP1252 à UTF-8.

Qui plus est, passer par ISO-8859-15 ferait perdre irrémédiablement
d'éventuelles apostrophes (je parle des vraies apostrophes U+2019,
pas des pattes de mouche U+0027). Idem pour les tirets.

>> Enfin, je suis preneur d'adresses de sites où je pourrais essayer de
>> comprendre cette peu appétissante soupe alchimique ....
> 
> <http://www.cl.cam.ac.uk/~mgk25/unicode.html>

J'allais le dire. D'ailleurs je l'ai déjà dit. C'est *la* référence sur
le sujet.

-- 
Olivier Miakinen
Troll du plus sage chez les conviviaux : le nouveau venu, avec
son clan, s'infiltre dans les groupes de nouvelles.  (3 c.)

<Prev in Thread] Current Thread [Next in Thread>