Quand on lit les lettres, on a immédiatement l’impression qu’elles ne sont pas toutes de la même qualité, que les lettres des débuts étaient bien plus riches et élaborées que les suivantes.
Ce sentiment peut-il être confirmé par la sémantique ? Nous allons tenter de le vérifier ou de l’infirmer.
Nous avons déjà vu que je me suis lancée dans l’étude du corpus des documents U (dont les lettres D ne constituent qu’un subcorpus) via le logiciel IraMuTeQ.
J’ai donc réalisé une série d’analyses sur la partie ne concernant que les lettres D.
J’ai artificiellement divisé les sources en U60, U70, U80, U85 et U90 pour pouvoir isoler les décades pendant lesquelles les lettres ont été expédiées.
Comme je l’avais mentionné dans mon précédent billet, on peut effectuer deux types d’études de spécificités:
- une AFC sur les formes (racines de mots) qui permet d’isoler les textes en fonction de leurs thèmes de prédilection ou de choix lexicaux. Il est possible dans ce cas de choisir la nature grammaticale des mots que l’on veut prendre en compte. On peut aussi décider de ne s’intéresser qu’aux mots significatifs (les formes actives) ou aux mots outils très banals (formes supplémentaires) ou aux deux. La fréquence minimale d’apparition est également modifiable.
- une AFC sur les types (natures grammaticales des mots) qui ne s'intéresse pas du tout aux thèmes ou au lexique. Il n’est pas possible de paramétrer ce type d’analyse.
Voici le tableau synthétisant mes divers résultats.
Plus les pourcentages cumulés obtenus sont élevés, plus l’analyse est pertinente.
On s’aperçoit immédiatement que les analyses de spécificité tentant de différencier les lettres D par leurs références sont très peu efficaces. C’est lié au fait que beaucoup de lettres sont trop courtes pour être significatives.
Les analyses par source donnent par contre de bons résultats.
Intéressons-nous donc aux lettres D triées en fonction de leurs décades.
Nous allons commencer par prendre tous les mots sans se poser de questions avec les paramètres par défaut. Ce qui correspond à ma 8ème analyse.
Graphe d’AFC sur les formes :
Graphe d’AFC sur les types.
Pour mieux comprendre le graphe d’AFC sur les formes voici le graphe des mots associés que j’ai paramétré pour qu’il ne soit pas trop chargé en ne gardant que les mots les plus significatifs :
Et voici la répartition grammaticale des mots dans l’analyse sur les types.
Qu'en déduire ? L’AFC sur les formes oppose les lettres des années 60 à celles des années 70, 80 et 90. Les lettres des années 85 à 89 sont dans un quadrant à part.
À ce stade, on se dit que cela signifie simplement que les ummites ont évolué dans les thèmes abordés.
Mais voilà, même si l’analyse sur les types est plus difficile à interpréter, on retrouve les U60 dans un quadrant, les U85 dans un quadrant isolé à l’opposé, les U70 et les U80 ensemble. Les U90 ne sont plus associées avec elles. Mais il y a eu très peu de lettres pendant cette période. Le placement du point est donc plus sujet à l’erreur. Donc, l'AFC sur les types grammaticaux qui n'a pourtant rien à voir avec les thèmes traités conforte l'AFC sur les formes.
À ce stade, on a envie de varier les paramètres de l’analyse sur les formes.
J’ai donc essayé une analyse ne prenant en compte que les mots intéressants : formes actives seules et limitées à certaines natures grammaticales : noms, adjectifs qualificatifs, verbes (hors auxiliaires), adverbes, onomatopées. Exit les mots non référencés dans le dictionnaire, donc les mots ummites… Exit également les valeurs numériques.
C’est la spécificité 14 de ma liste.
L’AFC sur les types ne sera pas affectée. Que donne l’AFC sur les formes ?
Graphe d’AFC sur les formes actives, limité aux natures grammaticales significatives :
Et pour les petits curieux, voilà les mots qui ressortent de cette analyse :
On notera que l'on retrouve exactement les mêmes résultats que précédemment.
Mais serait-ce le cas si, en gardant les mêmes natures grammaticales, on se limitait aux mots outils, ceux qui n’évoquent pas spécialement un thème particulier ? Il s’agit donc d’une AFC prenant en compte les formes supplémentaires.
C’est l’objet de la spécificité n°15.
Graphe d’AFC sur les formes supplémentaires, limité aux natures grammaticales significatives :
Les mots qui apparaissent sont les suivants :
Surprise ! On retrouve toujours les mêmes résultats. Pourtant, les mots pris en compte sont cette fois d’une banalité affligeante.
Conclusion :
Clairement les lettres des années 60 s’opposent à celles des années 70 à 84. Les lettres des années 85 à 89 sont systématiquement à part. Quant à celles des années 90, elles sont plus difficiles à placer, mais elles ne sont jamais associées à celles des années 60.
On a donc envie de dire qu’il y aurait 3 sources au moins :
- source 1 : années 60
- source 2 : années 70 à 84
- source 3 : années 85 à 89
Mais il paraît indispensable de creuser un peu en effectuant le même travail mais par années.
Quand exactement s’est faite la scission entre les sources 1 et 2 ? N’oublions pas que cette décomposition par décade est artificielle, faite par mes soins. Ce sera l’objet d’un prochain billet...
Sémantique, billet précédent Sémantique, billet suivant

















