[Perl] utf8 et lettre à
Dominique Asselineau
asseline at telecom-paristech.fr
Jeu 15 Sep 13:27:44 CEST 2016
Bonjour,
Les 2 lignes suivantes sont-elles présentes dans les déclarations :
use utf8;
use feature 'unicode_strings';
Dominique
minc wrote on Thu, Sep 15, 2016 at 01:17:23PM +0200
> Bonjour,
>
> J’extraie des mots d'un dictionnaire en xml avec la regex
>
> suivante : my $extract=qr{<orthography>\s*(?<word>.*?)\s*</orthography>} ;
>
> les résultats sont correctes sauf pour les mots se terminant par 'à' tel que
> "déjà" ou j'obtiens
>
> "déj\xC3" sachant que 'à' en utf8 est la suite 'C3 A0'.
>
> Les autres caractères accentués ne me semble pas poser de problème.
>
> Le résultat est corrigé avec :
>
> my $extract=qr{<orthography>(?<word>.*?)</orthography>} ;
>
> Quelle hypothèse peut-on formuler pour expliquer cette "troncation" ?
>
> Merci.
>
> Charles
>
> begin:vcard
> note;quoted-printable:Put your hand on a hot stove for a minute, and it seems like an hour. Sit=
> with a pretty girl for an hour, and it seems like a minute. That's relat=
> ivity.=0D=0A=
> (A. Einstein)
> version:2.1
> end:vcard
>
> _______________________________________________
> Perl mailing list
> Perl at mongueurs.net
> http://listes.mongueurs.net/mailman/listinfo/perl
--
Plus d'informations sur la liste de diffusion Perl