[Perl] Identification de langue

minc minc.charles at wanadoo.fr
Jeu 23 Fév 13:39:39 CET 2017


Bonjour,

Peux-tu cerner le problème :

Connais-tu la langue de la publication source et les domaines (physique, 
math, etc...) ?

Les sources sont-elles un panel de langues limitées (it's easy to deal 
with languages (you can activate and deactivate the ones you choose 
whenever you want to)) ?

Dans la mesure où le module ne travaille pas sur les mots entiers mais 
apparemment

sur les préfixes et suffixes, tu peux, peut-être, créer ton propre 
dictionnaire où récupérer des dictionnaires

pour constituer un post-traitement limité en fonction des probabilités 
qui te sont données.

En linguistique les résultats sont rarement du 100% pour l'instant.

Cordialement.

Charles


Le 21/02/2017 à 11:58, Dominique Asselineau a écrit :
> Bonjour,
>
> Pour l'identification de langue, j'essaie d'utiliser le module
> Lingua::Identify avec un résultat qui a du mal a dépasser les 90%.  Il
> est juste que les données sont courtes, des titres de publications,
> même pas les résumés, et avec ce module il est probablement difficile
> d'obtenir un meilleur résultat dans ces conditions.
>
> Auriez-vous une bonne expérience de ce module ou auriez-vous une
> solution mieux adaptée pour les textes courts tels que des titres (au
> moins une vingtaine de caractères).
>
> Merci.
>
> Dominique
>

-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <http://listes.mongueurs.net/mailman/private/perl/attachments/20170223/6ceb7d53/attachment.html>
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: minc_charles.vcf
Type: text/x-vcard
Taille: 238 octets
Desc: non disponible
URL: <http://listes.mongueurs.net/mailman/private/perl/attachments/20170223/6ceb7d53/attachment.vcf>


Plus d'informations sur la liste de diffusion Perl