lundi 6 août 2018

Analyse sémantique des lettres ummites D

La source des lettres D est-elle unique ? Voilà une question que toute personne intéressée par le dossier UMMO peut légitimement se poser. 

Quand on lit les lettres, on a immédiatement l’impression qu’elles ne sont pas toutes de la même qualité, que les lettres des débuts étaient bien plus riches et élaborées que les suivantes.
Ce sentiment peut-il être confirmé par la sémantique ? Nous allons tenter de le vérifier ou de l’infirmer.



Nous avons déjà vu que je me suis lancée dans l’étude du corpus des documents U (dont les lettres D ne constituent qu’un subcorpus) via le logiciel IraMuTeQ.

J’ai donc réalisé une série d’analyses sur la partie ne concernant que les lettres D.
J’ai artificiellement divisé les sources en U60, U70, U80, U85 et U90 pour pouvoir isoler les décades pendant lesquelles les lettres ont été expédiées.

Comme je l’avais mentionné dans mon précédent billet, on peut effectuer deux types d’études de spécificités:
- une AFC sur les formes (racines de mots) qui permet d’isoler les textes en fonction de leurs thèmes de prédilection ou de choix lexicaux. Il est possible dans ce cas de choisir la nature grammaticale des mots que l’on veut prendre en compte. On peut aussi décider de ne s’intéresser qu’aux mots significatifs (les formes actives) ou aux mots outils très banals  (formes supplémentaires) ou aux deux. La fréquence minimale d’apparition est également modifiable.
- une AFC sur les types (natures grammaticales des mots) qui ne s'intéresse pas du tout aux thèmes ou au lexique. Il n’est pas possible de paramétrer ce type d’analyse.

Voici le tableau synthétisant mes divers résultats. 


Plus les pourcentages cumulés obtenus sont élevés, plus l’analyse est pertinente.
On s’aperçoit immédiatement que les analyses de spécificité tentant de différencier les lettres D par leurs références sont très peu efficaces. C’est lié au fait que beaucoup de lettres sont trop courtes pour être significatives.
Les analyses par source donnent par contre de bons résultats.

Intéressons-nous donc aux lettres D triées en fonction de leurs décades.

Nous allons commencer par prendre tous les mots sans se poser de questions avec les paramètres par défaut. Ce qui correspond à ma 8ème analyse.

Graphe d’AFC sur les formes :


Graphe d’AFC sur les types.


Pour mieux comprendre le graphe d’AFC sur les formes voici le graphe des mots associés que j’ai paramétré pour qu’il ne soit pas trop chargé en ne gardant que les mots les plus significatifs :


Et voici la répartition grammaticale des mots dans l’analyse sur les types.


Qu'en déduire ? L’AFC sur les formes oppose les lettres des années 60 à celles des années 70, 80 et 90. Les lettres des années 85 à 89 sont dans un quadrant à part.
À ce stade, on se dit que cela signifie simplement que les ummites ont évolué dans les thèmes abordés.
Mais voilà, même si l’analyse sur les types est plus difficile à interpréter, on retrouve les U60 dans un quadrant, les  U85 dans un quadrant isolé à l’opposé, les U70 et les U80 ensemble. Les U90 ne sont plus associées  avec elles. Mais il y a eu très peu de lettres pendant cette période. Le placement du point est donc plus sujet à l’erreur. Donc, l'AFC sur les types grammaticaux qui n'a pourtant rien à voir avec les thèmes traités conforte l'AFC sur les formes.

À ce stade, on a envie de varier les paramètres de l’analyse sur les formes.

J’ai donc essayé une analyse ne prenant en compte que les mots intéressants : formes actives seules et limitées à certaines natures grammaticales : noms, adjectifs qualificatifs, verbes (hors auxiliaires), adverbes, onomatopées. Exit les mots non référencés dans le dictionnaire, donc les mots ummites… Exit également les valeurs numériques.
C’est la spécificité 14 de ma liste.
L’AFC sur les types ne sera pas affectée. Que donne l’AFC sur les formes ?

Graphe d’AFC sur les formes actives, limité aux natures grammaticales significatives :


Et pour les petits curieux, voilà les mots qui ressortent de cette analyse :



On notera que l'on retrouve exactement les mêmes résultats que précédemment.

Mais serait-ce le cas si, en gardant les mêmes natures grammaticales, on se limitait aux mots outils, ceux qui n’évoquent pas spécialement un thème particulier ? Il s’agit donc d’une AFC prenant en compte les formes supplémentaires. 
C’est l’objet de la spécificité n°15.

Graphe d’AFC sur les formes supplémentaires, limité aux natures grammaticales significatives :


Les mots qui apparaissent sont les suivants :


Surprise ! On retrouve toujours les mêmes résultats. Pourtant, les mots pris en compte sont cette fois d’une banalité affligeante.

Conclusion : 
Clairement les lettres des années 60 s’opposent à celles des années 70 à 84. Les lettres des années 85 à 89 sont systématiquement à part. Quant à celles des années 90, elles sont plus difficiles à placer, mais elles ne sont jamais associées à celles des années 60.
On a donc envie de dire qu’il y aurait 3 sources au moins :
- source 1 : années 60
- source 2 : années 70 à 84
- source 3 : années 85 à 89

Mais il paraît indispensable de creuser un peu en effectuant le même travail mais par années.
Quand exactement s’est faite la scission entre les sources 1 et 2 ? N’oublions pas que cette décomposition par décade est artificielle, faite par mes soins. Ce sera l’objet d’un prochain billet...

Sémantique, billet précédent                           Sémantique, billet suivant

jeudi 2 août 2018

Analyse sémantique du corpus ummite

Les  vacances aidant, j’ai décidé de profiter d’un peu plus de temps libre, pour me lancer dans une entreprise de grande ampleur : l’étude sémantique du corpus ummite.

L’idée m’avait été soufflée par Xav, il y a pas mal de temps déjà. L’idée était d’utiliser le logiciel Tropes. J’avais essayé sur quelques échantillons mais le soft me semblait peu adapté.

Depuis, j’ai trouvé un autre software : IRaMuTeQ (Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires), un logiciel libre développé par Pierre Ratinaud, laboratoire LERASS, en Licence GNU GPL.

Ce type de logiciel référence toutes les occurrences de mots d’un corpus. Puis il analyse les corrélations entre elles, la façon dont elles ont tendance à s’associer dans un même segment de texte.

IRaMuTeQ permet de faire deux types d’analyses :
- une analyse sur les formes (en gros les racines des mots), ce qui permet d’isoler les différentes thématiques du corpus
- une analyse sur les types, les classes grammaticales des mots.
Attention, une fois les graphes obtenus, l’interprétation reste à la charge de l’utilisateur du logiciel et elle est ardue. Le logiciel ne fait qu’isoler des mots et leurs cooccurrences, il ne donne pas de sens derrière... Il vous donne une idée dont les mots s'associent, il ne vous indiquera pas les thèmes en clair...
Pour en savoir plus :
ENS Rennes, L'analyse textuelle, ou comment la statistique décortique des œuvres littéraires
→ Cours sur Iramuteq par Mme Mélanie Ferrara - Partie 1 - Partie 2 - Partie 3

L’intérêt d’IraMuTeQ est qu’il permet d’effectuer des analyses de spécificités entre différents textes, donc différents auteurs...

J’ai donc dû préalablement copier dans un unique fichier au format texte, tous les documents U (ummites) et HU (tweets ummites) à l’exception des NR trop « exotiques » et des documents H. J’ai épuré les textes en enlevant les notes, les renvois à des images, les en-têtes et signatures. J’ai ajouté en plus de la référence, une variable à chaque document précisant l’année et une autre, son auteur :
- U60=ummites des années 60
- U70=ummites des années 70
- U80=ummites des années 80 à 84
- U85=ummite sdes années 85 à 89
- U90=ummites des années 90
- TW=tweets U
- GR = auteurs des lettres GR
- NR = auteurs des lettres NR13, 14, 15, 17, 18, 20, 21, 22, 23.
- HU= tweeteurs ummites
- DAC = dactylos
- JLJP = José Luis Jordán Peña
- RF=Rafael Farriols
- HD = Henri Dagousset
- XX = source inconnue
- NN = source du document E17
- AP = Antonio Pardo
- FS = Fernando Sesma
- SAL = Saliano
- EV = Enrique Villagrasa
Et quand j'en ai eu terminé avec ces préliminaires, j'ai poussé un "Ouf !" de soulagement, vous pouvez me croire.

L’emploi de ce logiciel est-il judicieux ? On doit, en effet, tenir compte de certaines limites dans le cadre présent :
- Les textes sont issus d’une traduction.
- Ils comportent énormément de néologismes et de mots non référencés dans le dictionnaire car supposés U. Et ces derniers s’écrivent sous X variantes…
- Certains sous-corpus sont très fournis, alors que d’autres auteurs n’ont écrit qu’une lettre.
- Les tweets étaient limités en nombre de caractères ce qui ne permettait pas à leurs auteurs de s'exprimer librement.
- Les lettres U60, par exemple, regroupent plusieurs auteurs donc des styles potentiellement différents.
Vous l'avez compris, il est difficile de savoir si ce type d'analyse nous permettra de différencier des auteurs.

Je vous joins donc dans ce 1er billet sur la sémantique U, les graphes d’AFC (Analyse Factorielle de Correspondances) issus des analyses de spécificités du logiciel avec les paramètres par défaut.
Vous aurez quelque chose à vous mettre sous la dent.
À savoir :
- Plus les pourcentages indiqués sous les axes sont élevés, plus l’analyse liée au facteur pris en compte sur cet axe est fiable.
- Si des points sur le graphe sont très proches, cela indique que les documents associés sont fortement corrélés relativement aux facteurs choisis sur les 2 axes.

Pour comprendre un graphe AFC, il faut d’abord essayer de trouver le sens caché derrière les axes horizontaux et verticaux. J’y reviendrai mais je vous laisse y réfléchir avant que ce billet ne devienne indigeste. Dans notre cas, les graphes par types grammaticaux sont supposés plus fiables que ceux sur les formes puisque les pourcentages associés sont plus élevés.

Pour visualiser les graphes, il vous faudra cliquer dessus, puis faire un clic droit et choisir "ouvrir un nouvel onglet".

AFC par années :

Graphe d'AFC des différentes formes relevées (limitées à 30 par classe)  :



Graphe d’AFC basé sur les formes (les racines des mots)  :



Graphe d'AFC des différentes types :


Les codes des types grammaticaux retenus par IRaMuTeQ sont les suivants :



Graphe d’AFC basé sur les types grammaticaux  :


AFC par sources :

Graphe d'AFC des différentes formes relevées (limitées à 30 par classe)  :


Graphe d’AFC basé sur les formes (les racines des mots)  :



Graphe d'AFC des différentes types :



Graphe d’AFC basé sur les types grammaticaux  :


Je vous laisse découvrir tout cela... La suite au prochain épisode.