aphorismes générés par ordinateur

par Rémy @, vendredi 07 avril 2017, 00:12 (il y a 2789 jours) @ loulou

Oui - là la question n'est pas tellement le nombre de mots différents, c'est le nombre de suites différentes pour chaque mot. En principe, ça ne détectera pas si tu utilises toujours les mêmes mots, mais si tu les enchaînes toujours de la même façon.
Dans du langage qui essaie de faire sens, ce facteur-là ne varie pas proportionnellement à la taille du corpus, et il suffit de relativement peu de matériau pour différencier les auteurs inventifs de ceux à tendance ponciviale.

(En théorie, taille du corpus analysé, nombre de mots différents et nombre d'enchaînements différents pour chaque mot ont des interférences statistiques plutôt surprenantes - si le corpus est tellement petit et le vocabulaire tellement varié qu'on ne rencontre la plupart des mots qu'une seule fois, évidemment il ne peut pas y avoir plusieurs enchaînements différents pour chaque mot... Une normalisation raisonnable de la taille du corpus consisterait à mettre en place un traitement spécial des hapax et à signaler comme non pertinent un corpus qui en contiendrait une trop grande proportion. En pratique, on est des humains, et quelqu'un qui utilise peu de mots différents utilisera aussi peu d'expressions différentes / d'enchaînements différents des mots ; on n'obtient des statistiques "linéaires" ou "correctes", qui ne séparent pas les sources en deux groupes mais forment un continuum, qu'en fabriquant des corpus artificiels, par exemple en regroupant plusieurs auteurs.)


C'est ennuyeux, quand même, d'utiliser toujours les mêmes mots... Que fais-tu pour combattre ça ?

Fil complet: