jeudi 2 août 2018

Analyse sémantique du corpus ummite

Les  vacances aidant, j’ai décidé de profiter d’un peu plus de temps libre, pour me lancer dans une entreprise de grande ampleur : l’étude sémantique du corpus ummite.

L’idée m’avait été soufflée par Xav, il y a pas mal de temps déjà. L’idée était d’utiliser le logiciel Tropes. J’avais essayé sur quelques échantillons mais le soft me semblait peu adapté.

Depuis, j’ai trouvé un autre software : IRaMuTeQ (Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires), un logiciel libre développé par Pierre Ratinaud, laboratoire LERASS, en Licence GNU GPL.

Ce type de logiciel référence toutes les occurrences de mots d’un corpus. Puis il analyse les corrélations entre elles, la façon dont elles ont tendance à s’associer dans un même segment de texte.

IRaMuTeQ permet de faire deux types d’analyses :
- une analyse sur les formes (en gros les racines des mots), ce qui permet d’isoler les différentes thématiques du corpus
- une analyse sur les types, les classes grammaticales des mots.
Attention, une fois les graphes obtenus, l’interprétation reste à la charge de l’utilisateur du logiciel et elle est ardue. Le logiciel ne fait qu’isoler des mots et leurs cooccurrences, il ne donne pas de sens derrière... Il vous donne une idée dont les mots s'associent, il ne vous indiquera pas les thèmes en clair...
Pour en savoir plus :
ENS Rennes, L'analyse textuelle, ou comment la statistique décortique des œuvres littéraires
→ Cours sur Iramuteq par Mme Mélanie Ferrara - Partie 1 - Partie 2 - Partie 3

L’intérêt d’IraMuTeQ est qu’il permet d’effectuer des analyses de spécificités entre différents textes, donc différents auteurs...

J’ai donc dû préalablement copier dans un unique fichier au format texte, tous les documents U (ummites) et HU (tweets ummites) à l’exception des NR trop « exotiques » et des documents H. J’ai épuré les textes en enlevant les notes, les renvois à des images, les en-têtes et signatures. J’ai ajouté en plus de la référence, une variable à chaque document précisant l’année et une autre, son auteur :
- U60=ummites des années 60
- U70=ummites des années 70
- U80=ummites des années 80 à 84
- U85=ummite sdes années 85 à 89
- U90=ummites des années 90
- TW=tweets U
- GR = auteurs des lettres GR
- NR = auteurs des lettres NR13, 14, 15, 17, 18, 20, 21, 22, 23.
- HU= tweeteurs ummites
- DAC = dactylos
- JLJP = José Luis Jordán Peña
- RF=Rafael Farriols
- HD = Henri Dagousset
- XX = source inconnue
- NN = source du document E17
- AP = Antonio Pardo
- FS = Fernando Sesma
- SAL = Saliano
- EV = Enrique Villagrasa
Et quand j'en ai eu terminé avec ces préliminaires, j'ai poussé un "Ouf !" de soulagement, vous pouvez me croire.

L’emploi de ce logiciel est-il judicieux ? On doit, en effet, tenir compte de certaines limites dans le cadre présent :
- Les textes sont issus d’une traduction.
- Ils comportent énormément de néologismes et de mots non référencés dans le dictionnaire car supposés U. Et ces derniers s’écrivent sous X variantes…
- Certains sous-corpus sont très fournis, alors que d’autres auteurs n’ont écrit qu’une lettre.
- Les tweets étaient limités en nombre de caractères ce qui ne permettait pas à leurs auteurs de s'exprimer librement.
- Les lettres U60, par exemple, regroupent plusieurs auteurs donc des styles potentiellement différents.
Vous l'avez compris, il est difficile de savoir si ce type d'analyse nous permettra de différencier des auteurs.

Je vous joins donc dans ce 1er billet sur la sémantique U, les graphes d’AFC (Analyse Factorielle de Correspondances) issus des analyses de spécificités du logiciel avec les paramètres par défaut.
Vous aurez quelque chose à vous mettre sous la dent.
À savoir :
- Plus les pourcentages indiqués sous les axes sont élevés, plus l’analyse liée au facteur pris en compte sur cet axe est fiable.
- Si des points sur le graphe sont très proches, cela indique que les documents associés sont fortement corrélés relativement aux facteurs choisis sur les 2 axes.

Pour comprendre un graphe AFC, il faut d’abord essayer de trouver le sens caché derrière les axes horizontaux et verticaux. J’y reviendrai mais je vous laisse y réfléchir avant que ce billet ne devienne indigeste. Dans notre cas, les graphes par types grammaticaux sont supposés plus fiables que ceux sur les formes puisque les pourcentages associés sont plus élevés.

Pour visualiser les graphes, il vous faudra cliquer dessus, puis faire un clic droit et choisir "ouvrir un nouvel onglet".

AFC par années :

Graphe d'AFC des différentes formes relevées (limitées à 30 par classe)  :



Graphe d’AFC basé sur les formes (les racines des mots)  :



Graphe d'AFC des différentes types :


Les codes des types grammaticaux retenus par IRaMuTeQ sont les suivants :



Graphe d’AFC basé sur les types grammaticaux  :


AFC par sources :

Graphe d'AFC des différentes formes relevées (limitées à 30 par classe)  :


Graphe d’AFC basé sur les formes (les racines des mots)  :



Graphe d'AFC des différentes types :



Graphe d’AFC basé sur les types grammaticaux  :


Je vous laisse découvrir tout cela... La suite au prochain épisode.


14 commentaires:

  1. Shanana et EYA n'ont pas été pris en compte, on est à la limite du scandale.

    RépondreSupprimer
    Réponses
    1. Qu'ils me fournissent leur prose au format texte et pas sous la forme d'images. On en reparlera alors.

      Supprimer
    2. Un clic et plus d'excuse !
      https://www.onlineocr.net/fr/

      Olivier

      Supprimer
    3. https://cvibouchard.wixsite.com/shanaavaa

      Supprimer
    4. @Olivier

      Bien sûr, je vais m'amuser à passer par de l'OCR pour lire les images... Et puis ensuite, je corrigerai les erreurs une par une. Non merci !

      @ Shanaavaa

      De votre côté c'est du PDF, ce n'est pas mieux.

      @ Olivier et Shanaavaa

      Vous savez que vous pouvez mettre vos textes au format html pour qu'ils soient directement accessibles ?

      Supprimer
  2. C'est un peu facile de s'en prendre à Célia.
    Au lieu de persifler cher Frederic, je ne sais pas moi, enquetez, recoupez..
    On le sait que vous êtes un être supérieur, qu'on ne vous la fait pas a vous, et j'en passe..
    Bien que hmm. non je vais rien dire..
    D'autre part vous pourriez vous recentrer un peu sur le contenu de ce billet, mais visiblement, vous n'êtes pas capable.

    sur ce

    [xavounette]

    RépondreSupprimer
    Réponses
    1. Xavitos qui me reproche de polluer le billet, c'est l'hôpital qui se moque de la charité.
      Mon cher Xav, ne seriez-vous pas jaloux ?

      Supprimer
    2. Mon cher Frederic, je ne vous ai pas accusé de polluer. J'apprécie grandement votre forme d'humour caustique, maintenant vous qui êtes un vrai scientifique, j'attend des commentaires dignes de ce nom.

      salutations

      Supprimer
  3. J’adore quand les gens s’envoient des patates dans la tronche en se vouvoyant
    Ça donne une ambiance mhhh je sais pas, salon de thé anglais mais entre ennemis
    "Vous reprendrez bien un peu de tarte avec votre Earl Grey ? tenez très cher une petite tarte dans la gueule"
    "Je vous enverrais bien le rouleau de pâtisserie avec mais je vais me retenir"

    RépondreSupprimer
  4. https://cvibouchard.wixsite.com/shanaavaa
    Ces lettres là c'est clairement de la daube.
    Quelle bande de zozos !

    RépondreSupprimer
    Réponses
    1. Hem, vous ne devriez pas dire cela..
      Cela choque votre vision "canonique" et ultra-rigoriste du pia pia ummite "à la lettre D" ?
      Bien sur, ici, c'est le mantra de rigueur. Hors lettres "D", pas de salut :)
      C'est très comique, ce manque de discernement, parce que vous manquez un peu de largesse d'esprit quelque part. Vous devriez prendre un peu de hauteur, mon cher..

      Onowe

      Supprimer
    2. @ Xav alias Unknown

      Reviens sur le thème du billet et laisse mes lecteurs tranquilles, STP...

      Supprimer
  5. Une analyse comparative lettres "originelles" et tweet serait sans doute pertinente. Je ne dispose pas de l'outil info.

    RépondreSupprimer
    Réponses
    1. La comparaison serait délicate : langue, formats, sujets différents. J'ai essayé mais je ne suis arrivée à rien de concluant.

      Supprimer



N'hésitez pas à poser vos questions ou à donner votre avis !

Les commentaires sont modérés et ne sont donc pas publiés de suite. Enregistrez-vous sous Google ou Blogger avant de commenter !
En cas de soucis...

Mentions légales

Droits d'auteur

Creative Commons License
Textes et images (signées futurenfolie ou truquimage ou seawindigloo) du blog Futur en Folie par Isabelle G. : Futur en Folie sont mis à disposition selon les termes de la licence Creative Commons Paternité-Pas d'Utilisation Commerciale-Pas de Modification 2.0 France.