[Perl] Identification de langue
Dominique Asselineau
asseline at telecom-paristech.fr
Jeu 23 Fév 15:07:08 CET 2017
Bonjour,
La source est du BibTeX. Je ne peux donc m'appuyer que sur le titre,
même pas le résumé.
Il est juste que l'éventail des langues est restreint. Dans l'ordre
décroissant de fréquence : l'anglais, le français, puis l'espagnol et
l'italien.
Lingua::Identify ne s'appuie pas que sur les préfixes et suffixes. Il
prend en compte les mots courts fréquents dans toutes les langues
(articles, prépositions, conjonctions, etc.) qui devraient déjà donner
de bons résultats sur des textes plus longs. Il prend également en
compte les séquences de caractères (ngrams) qui devrait être efficace
mais dès qu'il y a des sigles par ex., ça fausse le résultat.
Peut-être faudrait-il constituer un dictionnaire de mots à retirer
(certains sigles et mots techniques).
Et puis un grand nombre de mots sont communs entre le français et
l'anglais, même si l'anglais US en a déformé quelques uns, ce qui rend
le ngrams peut discriminant.
J'espère déjà que mes observations sont justes mais si vous avez
d'autres idées, je serai preneur.
Dominique
minc wrote on Thu, Feb 23, 2017 at 01:39:39PM +0100
> Bonjour,
>
> Peux-tu cerner le problème :
>
> Connais-tu la langue de la publication source et les domaines (physique,
> math, etc...) ?
>
> Les sources sont-elles un panel de langues limitées (it's easy to deal with
> languages (you can activate and deactivate the ones you choose whenever you
> want to)) ?
>
> Dans la mesure où le module ne travaille pas sur les mots entiers mais
> apparemment
>
> sur les préfixes et suffixes, tu peux, peut-être, créer ton propre
> dictionnaire où récupérer des dictionnaires
>
> pour constituer un post-traitement limité en fonction des probabilités qui
> te sont données.
>
> En linguistique les résultats sont rarement du 100% pour l'instant.
>
> Cordialement.
>
> Charles
>
>
> Le 21/02/2017 à 11:58, Dominique Asselineau a écrit :
> >Bonjour,
> >
> >Pour l'identification de langue, j'essaie d'utiliser le module
> >Lingua::Identify avec un résultat qui a du mal a dépasser les 90%. Il
> >est juste que les données sont courtes, des titres de publications,
> >même pas les résumés, et avec ce module il est probablement difficile
> >d'obtenir un meilleur résultat dans ces conditions.
> >
> >Auriez-vous une bonne expérience de ce module ou auriez-vous une
> >solution mieux adaptée pour les textes courts tels que des titres (au
> >moins une vingtaine de caractères).
> >
> >Merci.
> >
> >Dominique
> >
>
> begin:vcard
> note;quoted-printable:Put your hand on a hot stove for a minute, and it seems like an hour. Sit=
> with a pretty girl for an hour, and it seems like a minute. That's relat=
> ivity.=0D=0A=
> (A. Einstein)
> version:2.1
> end:vcard
>
> _______________________________________________
> Perl mailing list
> Perl at mongueurs.net
> http://listes.mongueurs.net/mailman/listinfo/perl
--
Plus d'informations sur la liste de diffusion Perl