[Perl] utf8 et lettre à

minc minc.charles at wanadoo.fr
Jeu 15 Sep 13:17:23 CEST 2016


Bonjour,

J’extraie des mots d'un dictionnaire en xml avec la regex

suivante  :  my $extract=qr{<orthography>\s*(?<word>.*?)\s*</orthography>} ;

les résultats sont correctes sauf pour les mots se terminant par 'à' tel 
que "déjà" ou j'obtiens

"déj\xC3" sachant que 'à' en utf8 est la suite 'C3 A0'.

Les autres caractères accentués ne me semble pas poser de problème.

Le résultat est corrigé avec :

     my $extract=qr{<orthography>(?<word>.*?)</orthography>} ;

Quelle hypothèse peut-on formuler pour expliquer cette "troncation" ?

Merci.

Charles

-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: minc_charles.vcf
Type: text/x-vcard
Taille: 238 octets
Desc: non disponible
URL: <http://listes.mongueurs.net/mailman/private/perl/attachments/20160915/a984a46b/attachment.vcf>


Plus d'informations sur la liste de diffusion Perl