Video: ANF TDM 2021 - IRaMuTeQ : l'exploration de corpus à partir de recherches thématiques (DocDrop)

00:00:18

[Musique] donc bonjour à tous et merci d'être venus m'écouter et à cette présentation des rats mitec je vais me présenter très rapidement je suis lucie loubert docteur en sciences de l'information et la

00:00:33

communication au laboratoire du le race de 12 et depuis peu puisque depuis septembre je suis entrepreneur sur le recueil et traitement de données à consonance et textuelle mais pas que

00:00:47

donc là où j'exerce maintenant à bon compte pour ce genre de prestation je vais vous présenter le logiciel ira mutek ça va être une présentation très très très succincte puisque l'objectif est que vous puissiez manipuler assez

00:00:59

rapidement notamment pour les cas d'usagés proposé par la suite donc je vous invite d'ores et déjà pour ceux qui seraient intéressés par un approfondissement et une formation réelle à ce qui se passe derrière une

00:01:11

explication plus statistiques et plus approfondie mais non tendue que ce que je vais faire de vous rapprocher notamment des urfist de votre académie qui propose régulièrement des formations ou alors pour ceux qui ont la chance

00:01:24

d'être sur le sud-ouest du labex sms mais développer ira mutek qui propose également des formations une ou deux fois par an donc pour commencer le logiciel ira mutek en lui-même son nom veut signifie

00:01:43

en fait interface pour aird analyse multidimensionnelle de textes et de questionnaires c'est un logiciel développé par pierre ratinaud ou le race dans le cadre du labex sms de toulouse

00:01:54

il a la particularité c'est pas le seul mais il a quand même cette particularité la d'être un logiciel libre gratuit développé à partir de logiciels libres eux également notamment il s'appuie sur

00:02:06

python il est développé en python il s'appuie sur air pour toute la partie statistiques d'où les difficultés parfois d'installation puisque voilà il faut installer air avant et rami taille puisque ces arts qui fera toute la partie statistiques ainsi que la

00:02:20

connectique 3 pour tout ce qui est traitement du langage notamment les dictionnaires reconnaître ce qu'un verre ben non ce genre de chose dont il a besoin pour les calculs je jacques c'est ma présentation en

00:02:34

fonction de ce que j'ai entendu hier des présentations dont un nom de patrick bellot mais également des questions que l'on m'a posé depuis hier donc en fait je fais une présentation en prenant la trame des questions que l'on m'a posées tout au long du

00:02:47

séjour et des présentations milliard pour quel type de corpus ça peut être pour des discours long type article entretien livre

00:03:00

discours discours de l'assemblée nationale tous types de discours qu'il soit long ça va des discours bref également on pense notamment aux tweets puisqu'un nombre de caractères réduit mais également des

00:03:12

questions ouvertes à des questionnaires ou en règle générale les gens s'expriment en peu de mots ça peut être des focus groups où les prises de parole sont quand même plus régulière et donc plus réduite que sur des entretiens semi

00:03:23

directifs ou non directif et donc toutes sortes se donner les corpus comment j'appellerai corpus dans ce présentation c'est l'entente l'ensemble des textes qu'on va rentrer dans les rames uteq en une seule fois

00:03:36

ils peuvent être très léger très courts c'est-à-dire quelques entretiens un seul discours d'hommes politiques et ils peuvent être de très grande taille qu'est ce que j'appelle très grande taille puisque on me l'a demandé c'est

00:03:50

typiquement le grand nord le grand débat national que j'ai traité sur mon ordinateur personnel pour le coup qui faisait

00:04:01

167 millions d'occurrences la taille du corpus je pourrais difficilement vous la dire en nombre de pages en nombre de textes c'est quelque chose d'assez compliqué parce que les pages en fonction des caractères j'ai pas une grande visibilité dessus pour rire a

00:04:15

muté qu'on va calculer la peine encore plus en nombre d'occurrences puisque c'est ça dont il se sert pour faire les calculs et c'est ça on punit mais sa limite tout est bien sûr conditionné à la machine que vous avez plus la machine et puissante plus elle pourra traiter de

00:04:28

corpus volumineux à savoir que grand débat national et 167 millions d'occurrences correspondrait à 111 fois le livre à la recherche du temps perdu pour donner une idée

00:04:40

trente neuf mille fois l'allocution d'emmanuel macron du 9 novembre la location télévisuelle la dernière en date qu'il a fait voilà mais en sachant que j'ai fait tourner pour tester

00:04:53

le discours d' emmanuel macron qui tient sur mon traitement de texte en faut un peu moins d'une dizaine de pages je les fais tourner sur une rame uteq et il fonctionne également donc ce n'est pas une question de grosseur il mettra plus

00:05:05

de temps à calculer mais par contre il arrivera quand même à les traiter le corpus donc l'ensemble de textes que l'on va rentrer dans la machine il va être vu comme un ensemble c'est à dire

00:05:20

on cherche à explorer on cherche à étudier analyser un ensemble de textes ce que moi j'appelle ici le corpus il se représente matériellement par un fichier point txt c'est un fichier texte et il a

00:05:33

la particularité pour que le logiciel fonctionne d'être délimités par ce qu'on appelle la ligne étoile et contenant les variables étoilé hier c'est ce que patrice vélo par exemple mais également

00:05:44

nos collègues liste aix parler de métadonnées pardon les métadonnées c'est toutes les informations que vous allez pouvoir renseigner sur chaque texte que vous avez rentrer dans votre corpus si je

00:05:57

travaille sur des entretiens j'aurai donc codé toutes les variables qui sont spécifiques à la personne qui a passé l'entretien ça peut être le genre sa patte la catégorie socioprofessionnelle ça peut être sa profession ça peut être énormément de choses toutes les

00:06:09

informations que l'on a comme que l'on peut mettre on peut les y mettre dedans on a comme tradition de dire que on peut mettre autant de variables illustratif que l'on veut autant de métadonnées que l'on veut et de ne pas s'en priver non

00:06:22

plus la réalité c'est que quand on est dans un très grand corpus comme le débat national plus on va avoir deux variables métadonnées plus sûr à de calcul également à faire et plus ça peut ralentir la machine

00:06:34

mais en soi pour la plupart des corpus on peut rajouter autant de lignes étoilé dessus si vous rentrez un corpus avec un seul discours comme je lé fais il vous faudra également mettre une ligne étoilé

00:06:47

au début du corpus petite note particulière pour les utilisateurs de microsoft et d'outils microsoft world comme le bloc notes par exemple il faut que vous souhaitiez neuilly au tout

00:06:59

début du corpus avant la première ligne étoile est autrement il avoit pas si elle est au tout début il va pas gagner tout simplement après le corpus il pourra être découplée à partir d'hier à mutek le logiciel

00:07:13

propose dans son interface plusieurs options de découpage de corpus les découpages de porc corpus il pourra être à partir d'une modalité de variables je veux faire en corpus plus petit

00:07:25

circonscrit que aux femmes ou que aux hommes ou de tout va modalités de variables que j'ai choisi il pourra également être en fonction d'une thématique on va le voir

00:07:37

le logiciel permet d'étudier ce que l'on appelle les mondes de lexicaux qui sont les thématiques que stable que l'on retrouve dans les discours dans le corpus et on peut faire à partir des résultats qu'une fois qu'on a fait identifier ces thématiques dire

00:07:51

maintenant je veux un corpus que sur cette thématique là tout ce qui lie à contenu dans cette thématique que j'exporte que je vais traiter qualitativement ou que je vais rentrer dans l'air à mutek et sur lequel je vais

00:08:02

les faire d'autres analyses le corpus en soi qu'on utilise au départ il faut pas qu'il soit vu comme imperturbable intouchable c'est quelque chose qui peut changer et toutes les analyses que l'on affaires vont rebondir

00:08:14

sur d'autres besoins et l'intérêt un des intérêts de cet outil et que l'on peut classer les corpus est allé fouiller dedans à partir et on peut également le faire à partir de concordance y ait d'un ou

00:08:26

plusieurs mots à savoir je veux tous les tours de parole qui contiennent le mot euro qui contiennent le mot présidence qui contiennent la liste des mots que je définis - afin d'avoir dans un grand

00:08:40

ensemble quelque chose de plus circonscrit parfois plus manipulable mais surtout plus pertinents en fonction des hypothèses de recherche des hypothèses de travail que l'on a

00:08:51

pour quels types d' analyse peut-on faire rire à mithaq donc toujours pareil en réponse aux questions et aux interventions de patrick hilliard

00:09:03

voilà les types d' analyse comment on pourrait comment je pourrais répondre en les découpant on va pouvoir faire des comparaisons lexical de sous ensemble de textes c'est à dire que je prends un

00:09:16

groupe d'articles c'est le corpus que je viens de vous envoyer pour les travaux pratiques par la suite un groupe d'articles de presse de presse nationale sur un sujet identifiés et je veux

00:09:27

savoir si une différence de lexique si une différence de discours en fonction de la source des articles est ce que libération parle de cette actualité de façon particulière par rapport au reste est ce que le figaro un langage

00:09:41

spécifique par rapport à cela toutes ces variables bien sûr sont en fonction de la recherche mais il entendu pour cela on va avoir trois outils principalement qui sont pas cloisonnés

00:09:54

les autres outils peuvent permettre également d'étudier mais on rentre pas par les modalités des variables dans les trois analyses que je présente ici qui sont l'analyse similitudes l'analyse

00:10:06

factorielle de correspondance la distance de la baie leur particularité c'est qu'en amont de l'analyse on demande aux logiciels d'étudier l'ensemble du corpus au regard de la

00:10:17

variable que l'on en sait les autres types d' analyses sont les explorations des mondes mexico c'est la méthode reinhardt la classification reinhardt initialement

00:10:29

implémenté dans le logiciel alceste qui est donc été développé par max reinhardt lors de sa thèse il rameute avec reprendre mon rythme similaire qui va permettre non pas de renseigner une

00:10:42

variable et de dire au regard de cette variable quels sont les lexiques spécifique mais qui va dire dans l'ensemble de ce lexique quelles sont les thématiques les mondes lexicaux qui reviennent de façon

00:10:54

stable et récurrentes enfin l'exploration de la structure du texte qu'elles m'ont est relié à quels mots avec les analyses de similitudes les comparaisons lexical dans le type

00:11:12

d'anaïse comparaison lexsi câble en fait la structure de base pour l'analyse elle est sur le tableau que je vous ai montré c'est un tableau lexical qui croise les lem ce que nous appelons lem en méxico

00:11:25

mettrie c'est la racine grammaticales d'un mot pour un verbe mange on mangeait mangeront nous avons mangé c'est le verbe manger l'infinitif pour les pour

00:11:37

les noms pour les adjectifs c'est le masculin singulier pourquoi masculin parce que il ya souvent moins de lettres dans masculin que dans la forme féminine tout simplement donc celle m on va les comptabiliser

00:11:49

pour chaque variés modalités d'une variable défini sur le tableau que je vous ai affiché c'est la source de l'édition dans des articles et on peut voir que le mot sécurité vient 15 fois

00:12:02

dans la croix quarante six fois dans le figaro 28 fois dans le monde 43 dans l'humanité qu'elle soit dans libération pour chaque forme pour chaque l'aiment on va comptabiliser c'est un tableau de

00:12:15

contingence en fait tout simplement qui permet de comptabiliser ça c'est la base des calculs qui va se faire dans le temps qui m'est imparti surtout si je veux que vous puissiez manipuler derrière je ne vais pas approfondir la partie statistiques qu'est ce qui se

00:12:29

passe mais sachez que à partir pardon de ce tableau il va y avoir des calculs de spécificités parce que là on pourrait dire que en gros le figaro et humanité parle aussi

00:12:42

souvent de sécurité l'un que l'autre à peu près sauf que en regardant juste ces lignes on ne sait pas combien de mots avec le corpus du figaro on ne sait pas combien de mots avaient le corpus de l'humanité

00:12:55

l'objectif à partir de ce tableau là à partir des lignes de total qu'il y aura sur chaque édition à partir des cellules de total de la colonne total pour chaque forme il va y avoir un calcul de

00:13:08

spécificités calcul de spécificité c'est une comparaison entre ce tableau observé avec ce qu aurait été le hasard une répartition totalement homogène des mots

00:13:20

à partir de cette cour à partir de cette comparaison là on va calculer quelle est le langage spécifique porter de façon sûre représenté par une édition ou par une autre

00:13:34

sur la partie des résultats les calculs et spécificités donc la question c'est quel est le vocabulaire spécifique d'une catégorie de texte et/ou répondants lorsqu'on est dans des entretiens on va pouvoir les voir je passe à sa fiche

00:13:48

bien oui c'est invisible on va donc pouvoir les voir sur les résultats sur des listes avec un indice de spécificités plus il est haut plus la forme est spécifique de cette édition

00:14:00

ici plus il est bas plus la forme est absente de cette catégorie là qu'on peut reprendre de façon graphique à voir que c'est pas la même distribution dedans

00:14:15

à partir de ces analyses de spécificité il y à une modélisation une visualisation de ces données de ces résultats qui est dans l'analyse factorielle des correspondances c'est une représentation graphique des

00:14:28

langages spécifiques qui croise deux facteurs par facteur en fait ces deux axes c'est ce que disait patrice est un peu hier c'est à dire que le langage est vu comme un vecteur à un moment donné et

00:14:41

c'est à dire que ce sont deux axes sur un plan donc de deux axes en deux dimensions qui permettent de voir que la répartition des mots n'est pas la même en fonction de ces deux critères la

00:14:55

celle que l'on voit par exemple les couleurs vont être une modalité de la variable une édition les mots qui sont dessus seront soit les plus fréquents ce soient les plus spécifiques de la

00:15:06

catégorie au choix du chercheur quand il demande la modélisation et en attaque est un logiciel qui propose beaucoup d'options et notamment beaucoup d'options de personnalisation

00:15:17

des graphiques et des analyses en fait ensuite là on était jusqu'à présent sur des ensembles de textes tous les articles de libération tous les articles du figaro par exemple maintenant rentrer dans la partie

00:15:31

exploration des mondes lexicaux et il va y avoir un changement spécifique c'est que dans l'exploration lexicaux il ya ce que l'on appelle la segmentation c'est à dire que un article de libération va

00:15:43

être segmenté en plusieurs portions des morceaux de phrases dont on peut choisir la longueur dans les critères que l'on nous demande

00:15:54

et tous ses segments vont permettre mon vol l'algorithme elle va essayer de les classer sur la présence et l'absence du lexique il va classer donc les segments qui se

00:16:08

ressemblent parce qu'il ya les mêmes noms ensemble et jamais certains mots donc il va laissant des enseignements ce que je disais il va regrouper des passages qui se ressemblent sur la présence et l'absence et ensuite une

00:16:23

fois qu'il les a classés qui a regroupé ses segments ses morceaux de phrases pourquoi ils segmente déjà faut bien comprendre que sur un article sur un article à l'heure actuelle du coville le même article il va traiter de

00:16:34

plusieurs choses dans le fil de l'argumentaire de l'article le fait de le scinder veut dire que l'article de libération sur la vaccination un troisième dose de ce matin va pouvoir

00:16:45

être découpées répartis dans plusieurs thématiques parce que d'autres articles où on parlait également sur l'allocution soin des personnes âgées soit de ce qui se passe dans le monde par rapport à la

00:16:58

troisième dose ou pas et d'autres parties de l'article vont parler de l'hôpital toulousain ou parisien qui fait la troisième dose déjà ou pas voilà deux façons en fait à ce que l'on puisse avoir plus finement la segmentation la

00:17:11

segmentation est une option on peut également décider en fonction des corpus non je veux que chaque article chaque entretien chaque tour de parole que je demande son cassé dans une seule thématique c'est une option au choix du chercheur

00:17:23

une fois qu'il a fait tous ces regroupements ce qu'il fait c'est qui va avoir pour chaque forme pour chaque même s'il est surreprésentée où sont représentés dans chaque groupe de segments les groupes de segments les

00:17:35

appels des classes de discours il va regarder et c'est ça qui nous a fichu en fait comme résultat comme résultat comme porte d'entrée dans les moments qu'il a fait ce sont les formes sûr représentée

00:17:47

dans cette classe par rapport aux autres donc tout à l'heure je vous montrais que c'était un tableau de contingence combien de fois sécurité était arrivé dans libération le figaro ou autres là ici vous voyez il n'y a pas les

00:18:01

variables dans la construction du tableau qui est la base de l'algorithme ce sur quoi ils travaillent ici on croise et segments de texte en ligne donc les portions de phrases et les

00:18:12

formes en colonnes là c'était à partir d'un corpus sur l'éolien maritime et donc on va encore des la présence ou l'absence de chaque forme 06 l'absent ainsi les présents s'en

00:18:25

fiche un peu et l'objectif de ce qui se passe dans la machine très très très grossièrement bien entendu c'est de faire glisser les lignes de les intercalés dans le tableau de phase on trouvait un groupe qui se ressemblent

00:18:40

par rapport au reste là les deux qui sont bleus si vous regardez il ya une seule chose qui change c'est le mot zone le dernier du tableau qui est dans l'une qui est pas dans l'autre par rapport au

00:18:52

reste des lignes elles se ressemblent ira mutek va donc les mettre ensemble ça fera une classe pas forcément sur deux segments de textes sur beaucoup plus mais ça fera un groupe de scène d'un texte l'autre groupe sera la place de la

00:19:07

suite de l'algorithme c'est de prendre la place la plus grosse ici la place de de refaire la même chose de rechercher en bougeant les lignes lesquels se ressemblent plus de faire une troisième

00:19:18

classe à partir de ça il va reprendre la plus grosse des classes eelv a redécoupé et ainsi de suite jusqu'à arriver au nombre de places qu'on lui a demandé lorsqu'on a lancé l'analyse le nombre de classes qu'il y aura dans la

00:19:31

classification ou est propre au corpus certes mais surtout est propre aux indicateurs aux paramètres que l'on à rentrer dans la machine à la quand même corpus on peut faire quinze classes ou

00:19:43

trois classes tout dépend des hypothèses tout dépend de ce que l'on cherche les résultats que vous aurez l'occasion de regarder tout à l'heure sur votre machine

00:19:56

ils vont se présenter tout d'abord un an dro g avec les formes les plus caractéristiques de chaque groupement de textes là si vous regardez l'image donc avec le d'andrew g la plus colorée là

00:20:08

avec la liste des mots vous avez vous allez voir une structure en le lead en eau tout en haut là où il ya le titre c'est l'ensemble du corpus qui se découpe en deux parties

00:20:19

à droite la classe 5 et la classe 6 à gauche toutes les autres ça c'est la première découpe il a pris la plus grosse les deux parties il a redécoupé et ainsi de suite jusqu'à arriver au

00:20:33

nombre que je les demande et les listes de mots que vous avez ce sont les mots que l'on a retrouvée dans les profils qui sont montrés sur les trois panneaux qu'elle a qui sont en fait les

00:20:44

formes caractéristiques caractéristiques significativement sur représentés il ya un test de qi 2 qui est fait à chaque fois pour savoir si cette forme elle est surreprésentée ou pas dans cette classe en le fait sur les formes que nous on

00:20:59

appelle les formes actives les noms les adjectifs les adverbes quelques catégories comme ça et seulement et mais également à posteriori une fois que le découpage

00:21:11

effet on va le faire sur les formes supplémentaires qui sont les pronoms qui sont les articles qui ont la cote et caractéristiques des dents toutes les phrases en français en fait donc on les prend pas en compte quand on fait le tableau de tout à l'heure mais par

00:21:24

contre à la fin on va quand même voir s'ils sont représentés est ce que dans telle classe de discours on n'utilise plus souvent le jeu ou le nous le sommes être ou avoir ce genre de choses est à

00:21:36

toutes fins vous voyez le dernier du triptyque qui rouge on va aller regarder également les métadonnées les variables étoiles et si elles sont représentées dans une thématique ou dans

00:21:49

une autre c'est à dire que tout le calcul que l'on a fait ou le découpage il prend pas en compte ces variables ces métadonnées les a pas prises en compte au départ pour découper par contre à la fin il va aller regarder est ce que

00:22:01

libération et plus sûr présente est surreprésentée dans une classe sous représentées dans une autre voie là à partir de ces résultats là ça nous renseigne ça nous permet d'avoir une visibilité globale ça nous permet

00:22:15

d'avoir des premières intuitions des thématiques puisqu'on voit le lexique qui suit représenté par contre on est bien d'accord que qu'est ce qui se dit vraiment c'est plus compliqué ça reste des listes de mots on les voit pas en

00:22:28

fait le muc dire à mutek et d'aller explorer à partir de ce chemin là et le dernier cadran que vous avez là pardon

00:22:39

à ne s'est pas moins pour le coup du coup je vais parler très fort ma voix c'est un risque de dérailler mais je parlais très forte il me reste plus grand chose c'est ça la bonne nouvelle donc en fait le dernier panneau

00:22:52

qui a là vous allez le voir avec les phrases des mots colorés en rouge là c'est ce qu'on appelle des concordances y est si ce qu'on appelle les segments de textes caractéristiques ça va

00:23:04

permettre d'aller explorer quels sont les segments de textes les plus spécifiques de cette classe quels sont les segments de textes qui dans

00:23:16

cette thématique contiennent un mot dans les autres thématiques contiennent le même mot ou autre chose voilà l'objectif de l'un des objectifs de ce type d' analyse est donc d'aller explorer le

00:23:29

corpus non plus dans une lecture qui serait chronologique par rapport aux livres par rapport aux entretiens par rapport à tour recueille que l'on fait mais par thématique

00:23:42

là on allons regarder les segments de textes caractéristiques on a regardé les segments de textes qui sont classés dans la place santé investir sécurité spécifiques comme gf1 comme ça je vais aller lire les uns après les autres des

00:23:55

segments qui traite de cette thématique de l'investissement dans le secteur de la fonte et de toute évidence et ça quelles que soient les articles quelle que soit l'issue

00:24:09

enfin l'analyse de la structure du discours l'analyse de similitudes c'est une analyse qui est issu de la théorie des graphes et les analyses similitudes sont très souvent utilisé en

00:24:22

psychologie sociale pour étudier les structures des représentations sociales elle permet de visualiser les relations entre les éléments discours c'est à dire entre les mots entre les formes

00:24:33

ici je vous ai mines est un exemple le nombre donc avec un indice de nombre d'occurrences en fait on a misé sur un plan toutes les formes présente dans le discours forme active

00:24:46

c'est à dire les noms les articles et fiable les adverbes on les a reliées quand ils étaient présents ensemble dans un même segment dans une même portion de texte et de ça on a compté combien de

00:24:58

fois il apparaissait ensemble ça fait un graphe ira mutek propose par défaut le graphe minimum c'est à dire que on enlève les boucles puisque là vous voyez le graphique qui a il apporte des

00:25:10

informations mais il est difficilement synthétise à bhl dans la partie synthétiser le graphe maximum enlève les liens les plus faibles de façon à ce qu'il ait pas de boucles ou tout simplement ici on peut voir que le donc le mot

00:25:22

transmettre et court se retrouvent ensemble 32 fois facile difficile 12 fois et ainsi de suite au niveau de l'interface du logiciel ira mutek je vous la décrire très brièvement

00:25:37

également donc comment entrer dans le logiciel il ya des menus soient et criant oh sois avait des petites icônes quand vous roulez vous savez à quoi ça correspond le panneau qui lie à gauche celle

00:25:50

historique là où vont se mettre tous les dossiers tous les corps puisque vous allez ouvrir et en dessous toutes les analyses que vous allez faire sur chaque corpus et au milieu mons affichaient tous les résultats

00:26:05

une particularité du logiciel c'est que à partir de là vous être sur les résultats pour accéder aux options c'est par clic droit il faut le savoir c'est tout vous pouvez faire un clic droit sur l'analyse ou sur

00:26:18

corpus vous allez avoir un menu contextuel qui va vous proposer les options propres l'analyse dans sa globalité notamment extraire le corpus en couleur qui va vous permettre de voir dans l'ensemble du corps une couleur par

00:26:31

classe ou a été désigné tous vos entretiens tous vos textes ça permet de bien le voir notamment également d'exporter des parties de votre corps puce c'est à dire je veux faire un corpus avec la place un

00:26:43

6,8 il ravitaille prendra alors tous les segments de textes qui composaient la classe 1 les classes suite et les classe g oblige que les nuits et les mettra dans un même corpus qui

00:26:57

réouvrira et sur lequel on pourra porter les analyse plus fine plus précises puisque n'aura pas le bruit de toutes les autres classes on peut également les faire sur chaque forme pour pouvoir éditer les listes de segments qui contiennent la forme et

00:27:10

d'autres choses sur dessus dans les différentes étapes qu'il y a excusez-moi plus fort c'est tout à l'heure sans micro du coup je la vois qui s'enraye donc dans l'ouverture du corpus dès le

00:27:28

départ en fait donc il faut que ce soit un corpus texte qui soit formaté avec une ligne étoile et à chaque texte que vous avez mais sinon ça marchera pas lorsqu'il va ouvrir le corpus il y aura une segmentation par défaut

00:27:41

il segmente le texte vous pouvez très bien dire non je veux pas c'est à vous de changer cette la valeur de cette segmentation par défaut il va y avoir un nettoyage il va sortir tous les caractères non

00:27:52

alphanumérique les ponctuations les @ les les signes utilisés dans certaines langues ou autre c'est pareil vous pouvez paramétrer vous pouvez dire non c'est cette forme là ce caractère là je

00:28:06

veux qu'on le conserve ensuite il va faire une indexation avec un dictionnaire par défaut à l'installation c'est je crois c'est peut-être le dictionnaire du système

00:28:17

d'exploitation de la machine la plupart du temps tout ce que j'ai vu par défaut c'était en français c'est à dire que y'a un dictionnaire dans le code source dira multaq qui va dire que tellement

00:28:29

et que c'est une flexion une déclinaison de du verbe manger tout à l'heure dans mon exemple ça veut également dire aussi que si vous êtes sur un corpus multilingue tous les mots

00:28:42

des phrases d'une autre langue que le dictionnaire que vous avez choisi ne seront pas rentrés dans le dictionnaire ira mutek ne les reconnaîtra pas et considérera que c'est une forme non

00:28:55

reconnue comme un nom propre un endroit par défaut fait partie des tableaux de construction des calculs c'est anticiper c'est à dire que si j'ai des formes à nancy j'ai des phrases en

00:29:08

anglais the le mot ce qui est un article sera considéré comme une forme active voilà et il va séparer de lui même les segments qui parlent anglais les segments qui parlent espagnol les segments qui parlent français non pas

00:29:22

sur leur contenu voulue par les auteurs mais uniquement sur la forme des mots qui sont dessus donc la classification reinhardt les paramètres que l'on va vous demander la première boîte c'est pour toutes les

00:29:35

analyses que vous allez avoir cette première boîte d'options elle vous demande si vous voulez les matiz et le corpus c'est à dire réduire toutes les flexions toutes les déclinaisons des mots à leur acier

00:29:48

paramètres des clés c'est là vous allez pouvoir changer si vous voulez par exemple que les noms propres finalement ne soit plus actif ne participe pas aux calculs des répartitions des segments dans les classes de discours dans le calcul les analyses factoriens de

00:30:01

correspondance de similitudes vous allez pouvoir dire non mais finalement les auxiliaires et les auxiliaires être et avoir je veux les avoir finalement dedans les adjectifs c'est par catégories grammaticales et

00:30:14

vous pouvez dire qu'est-ce qui est actif qui est-ce qui est supplémentaire c'est à dire que ça ne ce n'est pas contenue dans l'analyse dans la distribution des segments et par contre c'est étudié après enfin le dictionnaire celui de

00:30:27

l'indexation ou un autre pour cette analyse là je veux utiliser un autre dictionnaire que celui qu'on a un accès au départ par défaut les autres paramètres ils sont assez nombreux je vais pas tous

00:30:39

les détails et je veux juste parler du nombre de classes terminales en phase 1 celui où il ya dix comme valeur ça c'est le nombre de classes que j'ai demandé au départ quand je vous disais

00:30:51

il prend d'état ils découpent le plus gros il reprend le plus gros il refait l'analyse factorielle ce qu'on appelle la bipartition jusqu'à arriver au nombre de classes c'est celui-là est juste en

00:31:03

dessous nombre minimum de segments de textes par classe zéro et en automatique en fait une fois qu'il a fait tout les découpages qu'il a atteint les 10 classes ici par défaut certaines classes

00:31:17

qui sont trop petites parce qu il y a deux phrases qui était exactement la même il les a mis ensemble mais ça contiendra que deux trois phrases comme ça toutes ces petites toutes ces toutes petites classes il va les enlever c'est

00:31:29

vous qui dites à partir d'une de combien de segments vous voulez que ça apparaisse dans l'analyse là je vous ai envoyé un corpus qui restreint je vous conseille dans les premières étapes de bidouillage de découverte de m 2 en

00:31:44

nombre minimum de 50 texte parce que du coup il va vous afficher toutes les classes si vous en demandez dit si vous avez vous à nous à fait chez dc vous en demandez 50 va afficher les 50 ça me permet de voir qu'est-ce que vous perdez entre guillemets comment ça se passe

00:31:57

et donc voilà c'est les deux principaux paramètres à modéliser dessus où j'ai du moins le temps de vous présenter les résultats que vous allez que vous allez voir pour la classification reinhardt

00:32:10

toujours donc il se présente comme ça pour chaque classe une liste des formes classés par ordre décroissant de corrélation plus ils sont surreprésentés dans la classe

00:32:22

plus haut ils sont dans la liste et vous avez première première colonne num en fait c'est uniquement pour retrouver cet ordre la seconde colonne et fst c'est le nombre de segments de textes donc deux

00:32:36

portions contenant cette forme dans cette classe ici et maintenant f total le nombre de segments de textes qui contiennent cette forme dans l'ensemble du corpus classé

00:32:50

pourcentage celle au ratio de ces deux chiffres lucky 2 qui va avec la dernière colonne paix c'est le test de corrélation du kit deux formes classe

00:33:02

et enfin le type grammaticale de la forme et la forme c'est le lem du dessus vous pouvez à partir de sa demande et donc des observations des explorations

00:33:16

dessus avec les menus contextuels du clic droit vous avez les contrats qu'on compte dansiez pour chaque forme quels sont les segments de textes qui contiennent cette phrase pour aller lire qu'est ce qu'ils ont dit à partir de ce moment

00:33:29

vous avez plein de choses le graphe de la classe les analyses de similitudes dont on a parlé tout à l'heure vous pouvez le faire sur les mots de cette classe les formes se représenter de cette classe vous pouvez également faire des

00:33:44

exports pour d'autres logiciels pour trope pour raoul edge faire des nuages de mots exporté est exporté que cette classe si vous le voulez également vous avez d'autres

00:33:55

options sur l'analyse complète je vais détail aurait pour ce qu'elles ont besoin quand on fera les travaux en passant pour chacun l'analyse de similitudes qui est une autre analyse donc celle où on fait la

00:34:09

structure du discours les constellations comme ça là vous pouvez voir que vous avez les paramètres le premier bloc c'est le même que tout à l'heure donc j'en parle pas le second vous allez vous allez voir que

00:34:23

la ciotat liste de mots c'est parce que vous pouvez sélectionner les mots que vous voulez mettre dans le graphe si vous les mettez tous si vous avez un gros textes immense si vous les mettez tous vous allez avoir des gros nuages qui sont illisibles directement parlé à

00:34:37

mutek comme ça il faut les exporter pour gifi les remèdes danger fille les retraités l'export se passe très bien mais il faut le faire il faut aussi qu'ils aient j'ai fait du coup vous pouvez demander juste une dizaine de mots vous pouvez demander les 50

00:34:51

premiers c'est vous qui choisissez quels sont les mots qui en son temps le graff dans le graf vous pouvez également exclure certains mots là c'était des contributions sur les sur une concertation sur l'éolien en mer vous

00:35:03

voyez que le mot éolien en ile et il a un ratio de 10 fois plus exemple que les autres peut-être parce qu'en fait tout le monde parle et d'éolien il parle que de ça c'est le sujet de la conversation donc dans ce cas là on peut faire un

00:35:15

graphe en enlevant le mot et ohiane parce que trop discret au milieu tout le monde pointe très vert lui puisque forcément il est dans tous les maux d'accord on l'enlève de façon à voir la structure en dehors de lui qu'est ce qui s'y passe

00:35:27

sur les analyses de spécificité c'est une coquille sur le titre c'est le même titre mais c'est ok voilà donc ce soir les analyses spécificité je changerais dans le diaporama je vous enverrai le premier menu comptait le menu de

00:35:40

paramètres c'est toujours le même le second vous allez voir qu'il est plus restreint vous allez juste choisir quel variable vous voulez analyser si c'est une variable vous pouvez dire c'est pas

00:35:52

la variable que je veux c'est certaines modalités de cette variable dans ce cas là vous au lieu de variables vous mettez modalités et vous sélectionnez les 4/5 modalités que vous voulez et surtout je le montre parce que une erreur

00:36:04

récurrentes qui m'arrive encore de faire très souvent quand je vais trop vite c'est sur le premier champ forme utilisée par défaut c activée supplémentaires c'est à dire ça vous utilisez les noms les verbes toutes les

00:36:17

formes actives mais aussi les supplémentaires les articles les pronoms tout donc vous vous lancez l'analyse ça prend du temps analysé pas beaucoup mais quand même et vous avez un graphique qui est pas forcément exploitables parce que

00:36:28

vous avez le d'un côté art donc pensé à mettre formative en général et ce sera tout pour aujourd'hui