fr.comp.normes.unicode
[Top] [All Lists]

Re: Plage des Mots qui ont un seul caractère ?

Subject: Re: Plage des Mots qui ont un seul caractère ?
From: Jean-Marc Desperrier
Date: Tue, 11 Mar 2008 13:31:43 +0100
Newsgroups: fr.comp.normes.unicode

Xavier Roche wrote:
Jean-Philippe Odent wrote:
Ma question est aussi: comment peut-on faire une séparation entre les
"mots" d'une phrase en japonais (entre autre) sachant qu'il n'y a pas
de séparateur ?
Pour faire court, vous ne pouvez pas (facilement).

En pratique, pour segmenter du japonais, cela nécessite une analyse
morpho-statistique, pour établir, au sein de chaque phrase, les mots les
plus probables, selon un dictionnaire morphologique établi, puis,
statistiquement, trouver les combinaisons les plus probables, en sachant
qu'aucune méthode n'est parfaite.

(Cela dépasse largement les possibilités des classes Unicode, pour résumer)
En fait, il faut faire appel à des logiciels spécifalisés, type ChaSen/JUMAN

Quelques liens utiles ici :
http://www.felix.arseneau.com/japonais/segmentation.htm


<Prev in Thread] Current Thread [Next in Thread>
  • Re: Plage des Mots qui ont un seul caractère ?, Jean-Marc Desperrier <=