[Perl] utf8 et lettre à
Dominique Asselineau
asseline at telecom-paristech.fr
Jeu 15 Sep 14:49:37 CEST 2016
minc wrote on Thu, Sep 15, 2016 at 02:30:47PM +0200
> Non , d'ailleurs le pragma use utf8 est ici , inutile puisque que cette
> directive
>
> porte essentiellement sur le texte du programme lui-même et je travaille
Oui mais l'autre directive, à savoir
use feature 'unicode_strings';
a une influence sur les regexp.
Au fait le code 0xa0 est celui de l'espace non sécable et si le
traitement de la regexp n'est pas correct, ce code pourrait bien être
pris comme un séparateur de mots.
Dominique
>
> avec des fichiers dont je contrôle les entrées et les sorties.
>
> J'ai néanmoins testé et dans mon cas les longueurs de mots deviennent
> erronées,
> sans pour autant remédier à la question.
>
> J'utilise un perl 5.16.3, windows 7 et les fichiers xml sources sont en UTF8.
>
> Merci.
>
> Merci Laurent (ce n'est pas critique, j'ai mes résultats, mais cette exception
> est curieuse, le même résultat est obtenu avec chop ! ).
>
> Le 15/09/2016 à 13:27, Dominique Asselineau a écrit :
> >Bonjour,
> >
> >Les 2 lignes suivantes sont-elles présentes dans les déclarations :
> >
> >use utf8;
> >use feature 'unicode_strings';
> >
> >Dominique
> >
> >minc wrote on Thu, Sep 15, 2016 at 01:17:23PM +0200
> >>Bonjour,
> >>
> >>J’extraie des mots d'un dictionnaire en xml avec la regex
> >>
> >>suivante : my $extract=qr{<orthography>\s*(?<word>.*?)\s*</orthography>} ;
> >>
> >>les résultats sont correctes sauf pour les mots se terminant par 'à' tel que
> >>"déjà" ou j'obtiens
> >>
> >>"déj\xC3" sachant que 'à' en utf8 est la suite 'C3 A0'.
> >>
> >>Les autres caractères accentués ne me semble pas poser de problème.
> >>
> >>Le résultat est corrigé avec :
> >>
> >> my $extract=qr{<orthography>(?<word>.*?)</orthography>} ;
> >>
> >>Quelle hypothèse peut-on formuler pour expliquer cette "troncation" ?
> >>
> >>Merci.
> >>
> >>Charles
> >>
> >>begin:vcard
> >>note;quoted-printable:Put your hand on a hot stove for a minute, and it seems like an hour. Sit=
> >> with a pretty girl for an hour, and it seems like a minute. That's relat=
> >> ivity.=0D=0A=
> >> (A. Einstein)
> >>version:2.1
> >>end:vcard
> >>
> >>_______________________________________________
> >>Perl mailing list
> >>Perl at mongueurs.net
> >>http://listes.mongueurs.net/mailman/listinfo/perl
> >
>
> begin:vcard
> note;quoted-printable:Put your hand on a hot stove for a minute, and it seems like an hour. Sit=
> with a pretty girl for an hour, and it seems like a minute. That's relat=
> ivity.=0D=0A=
> (A. Einstein)
> version:2.1
> end:vcard
>
> _______________________________________________
> Perl mailing list
> Perl at mongueurs.net
> http://listes.mongueurs.net/mailman/listinfo/perl
--
Plus d'informations sur la liste de diffusion Perl