L’idée m’avait été soufflée par Xav, il y a pas mal de temps déjà. L’idée était d’utiliser le logiciel Tropes. J’avais essayé sur quelques échantillons mais le soft me semblait peu adapté.
Depuis, j’ai trouvé un autre software : IRaMuTeQ (Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires), un logiciel libre développé par Pierre Ratinaud, laboratoire LERASS, en Licence GNU GPL.
Ce type de logiciel référence toutes les occurrences de mots d’un corpus. Puis il analyse les corrélations entre elles, la façon dont elles ont tendance à s’associer dans un même segment de texte.
IRaMuTeQ permet de faire deux types d’analyses :
- une analyse sur les formes (en gros les racines des mots), ce qui permet d’isoler les différentes thématiques du corpus
- une analyse sur les types, les classes grammaticales des mots.
Attention, une fois les graphes obtenus, l’interprétation reste à la charge de l’utilisateur du logiciel et elle est ardue. Le logiciel ne fait qu’isoler des mots et leurs cooccurrences, il ne donne pas de sens derrière... Il vous donne une idée dont les mots s'associent, il ne vous indiquera pas les thèmes en clair...
Pour en savoir plus :
→ ENS Rennes, L'analyse textuelle, ou comment la statistique décortique des œuvres littéraires
→ Cours sur Iramuteq par Mme Mélanie Ferrara - Partie 1 - Partie 2 - Partie 3
L’intérêt d’IraMuTeQ est qu’il permet d’effectuer des analyses de spécificités entre différents textes, donc différents auteurs...
J’ai donc dû préalablement copier dans un unique fichier au format texte, tous les documents U (ummites) et HU (tweets ummites) à l’exception des NR trop « exotiques » et des documents H. J’ai épuré les textes en enlevant les notes, les renvois à des images, les en-têtes et signatures. J’ai ajouté en plus de la référence, une variable à chaque document précisant l’année et une autre, son auteur :
- U60=ummites des années 60
- U70=ummites des années 70
- U80=ummites des années 80 à 84
- U85=ummite sdes années 85 à 89
- U90=ummites des années 90
- TW=tweets U
- GR = auteurs des lettres GR
- NR = auteurs des lettres NR13, 14, 15, 17, 18, 20, 21, 22, 23.
- HU= tweeteurs ummites
- DAC = dactylos
- JLJP = José Luis Jordán Peña
- RF=Rafael Farriols
- HD = Henri Dagousset
- XX = source inconnue
- NN = source du document E17
- AP = Antonio Pardo
- FS = Fernando Sesma
- SAL = Saliano
- EV = Enrique Villagrasa
Et quand j'en ai eu terminé avec ces préliminaires, j'ai poussé un "Ouf !" de soulagement, vous pouvez me croire.
L’emploi de ce logiciel est-il judicieux ? On doit, en effet, tenir compte de certaines limites dans le cadre présent :
- Les textes sont issus d’une traduction.
- Ils comportent énormément de néologismes et de mots non référencés dans le dictionnaire car supposés U. Et ces derniers s’écrivent sous X variantes…
- Certains sous-corpus sont très fournis, alors que d’autres auteurs n’ont écrit qu’une lettre.
- Les tweets étaient limités en nombre de caractères ce qui ne permettait pas à leurs auteurs de s'exprimer librement.
- Les lettres U60, par exemple, regroupent plusieurs auteurs donc des styles potentiellement différents.
Vous l'avez compris, il est difficile de savoir si ce type d'analyse nous permettra de différencier des auteurs.
Je vous joins donc dans ce 1er billet sur la sémantique U, les graphes d’AFC (Analyse Factorielle de Correspondances) issus des analyses de spécificités du logiciel avec les paramètres par défaut.
Vous aurez quelque chose à vous mettre sous la dent.
À savoir :
- Plus les pourcentages indiqués sous les axes sont élevés, plus l’analyse liée au facteur pris en compte sur cet axe est fiable.
- Si des points sur le graphe sont très proches, cela indique que les documents associés sont fortement corrélés relativement aux facteurs choisis sur les 2 axes.
Pour comprendre un graphe AFC, il faut d’abord essayer de trouver le sens caché derrière les axes horizontaux et verticaux. J’y reviendrai mais je vous laisse y réfléchir avant que ce billet ne devienne indigeste. Dans notre cas, les graphes par types grammaticaux sont supposés plus fiables que ceux sur les formes puisque les pourcentages associés sont plus élevés.
Pour visualiser les graphes, il vous faudra cliquer dessus, puis faire un clic droit et choisir "ouvrir un nouvel onglet".
AFC par années :
Graphe d'AFC des différentes formes relevées (limitées à 30 par classe) :
Graphe d’AFC basé sur les formes (les racines des mots) :
Graphe d'AFC des différentes types :
Les codes des types grammaticaux retenus par IRaMuTeQ sont les suivants :
Graphe d’AFC basé sur les types grammaticaux :
AFC par sources :
Graphe d'AFC des différentes formes relevées (limitées à 30 par classe) :
Graphe d’AFC basé sur les formes (les racines des mots) :
Graphe d'AFC des différentes types :
Graphe d’AFC basé sur les types grammaticaux :
Je vous laisse découvrir tout cela... La suite au prochain épisode.
Shanana et EYA n'ont pas été pris en compte, on est à la limite du scandale.
RépondreSupprimerQu'ils me fournissent leur prose au format texte et pas sous la forme d'images. On en reparlera alors.
SupprimerUn clic et plus d'excuse !
Supprimerhttps://www.onlineocr.net/fr/
Olivier
https://cvibouchard.wixsite.com/shanaavaa
Supprimer@Olivier
SupprimerBien sûr, je vais m'amuser à passer par de l'OCR pour lire les images... Et puis ensuite, je corrigerai les erreurs une par une. Non merci !
@ Shanaavaa
De votre côté c'est du PDF, ce n'est pas mieux.
@ Olivier et Shanaavaa
Vous savez que vous pouvez mettre vos textes au format html pour qu'ils soient directement accessibles ?
C'est un peu facile de s'en prendre à Célia.
RépondreSupprimerAu lieu de persifler cher Frederic, je ne sais pas moi, enquetez, recoupez..
On le sait que vous êtes un être supérieur, qu'on ne vous la fait pas a vous, et j'en passe..
Bien que hmm. non je vais rien dire..
D'autre part vous pourriez vous recentrer un peu sur le contenu de ce billet, mais visiblement, vous n'êtes pas capable.
sur ce
[xavounette]
Xavitos qui me reproche de polluer le billet, c'est l'hôpital qui se moque de la charité.
SupprimerMon cher Xav, ne seriez-vous pas jaloux ?
Mon cher Frederic, je ne vous ai pas accusé de polluer. J'apprécie grandement votre forme d'humour caustique, maintenant vous qui êtes un vrai scientifique, j'attend des commentaires dignes de ce nom.
Supprimersalutations
J’adore quand les gens s’envoient des patates dans la tronche en se vouvoyant
RépondreSupprimerÇa donne une ambiance mhhh je sais pas, salon de thé anglais mais entre ennemis
"Vous reprendrez bien un peu de tarte avec votre Earl Grey ? tenez très cher une petite tarte dans la gueule"
"Je vous enverrais bien le rouleau de pâtisserie avec mais je vais me retenir"
https://cvibouchard.wixsite.com/shanaavaa
RépondreSupprimerCes lettres là c'est clairement de la daube.
Quelle bande de zozos !
Hem, vous ne devriez pas dire cela..
SupprimerCela choque votre vision "canonique" et ultra-rigoriste du pia pia ummite "à la lettre D" ?
Bien sur, ici, c'est le mantra de rigueur. Hors lettres "D", pas de salut :)
C'est très comique, ce manque de discernement, parce que vous manquez un peu de largesse d'esprit quelque part. Vous devriez prendre un peu de hauteur, mon cher..
Onowe
@ Xav alias Unknown
SupprimerReviens sur le thème du billet et laisse mes lecteurs tranquilles, STP...
Une analyse comparative lettres "originelles" et tweet serait sans doute pertinente. Je ne dispose pas de l'outil info.
RépondreSupprimerLa comparaison serait délicate : langue, formats, sujets différents. J'ai essayé mais je ne suis arrivée à rien de concluant.
Supprimer