Video: Tuto@Mate#47 Analyses statistiques de textes avec le logiciel libre IRaMuTeQ par Pierre Ratinaud (DocDrop)

00:00:00

on y va bien bonjour à toutes et tous et bienvenue dans cette nouvelle session des tutos à mater dédiés à iramutech à un logiciel libre pour l'analyse de détectuelle et nous avons le plaisir d'accueillir pierre ratino

00:00:14

et maître de conférence en sciences de l'éducation à l'Université de Toulouse de Jean Jaurès et c'était avec un grand plaisir que nous accueillons pierre à la fois en tant que utilisateur mais surtout en tant que développeur de dire

00:00:27

à mutech et donc pierre merci beaucoup d'avoir accepté cet invitation et on te laisse la parole pour que je nous présente ira mutech merci beaucoup Benoît merci pour l'invitation donc c'est la deuxième fois

00:00:40

tu me confirmes que j'ai la chance de participer à ces tuto net je suis ravi d'être parmi vous je vois qu'il y a beaucoup de monde donc je peux commencer par vous demander de surtout ne pas

00:00:51

hésiter à m'interrompre pendant que le déroulait de cette séance si vous le faites pas pour vous faites-le pour moi ça nous donne des petits temps de respiration aussi voilà vous n'hésitez pas soit par le chat je vais garder le chat sous les

00:01:04

yeux soit directement je pense qu'il doit y avoir une petite main qu'on va pouvoir lever ou sinon vous prenez la parole il n'y a pas de problème on a tous maintenant l'habitude de ces nouvelles réunions en visio et donc je vais vous

00:01:16

présenter le logiciel gravita alors je vais faire des allers-retours entre des éléments qui sont sur le diaporama et la manipulation du logiciel je vais revenir sur notamment l'installation qui est un peu

00:01:28

pénible en ce moment sur Windows j'espère que ça va pas durer trop longtemps et puis je vais décrire les principales analyses et la façon d'interpréter les résultats des

00:01:39

principales données toujours dire interface de R pour les analyses multidimensionnelles de textes et de questionnaires en fait le logiciel donc enfin vous trouverez toutes les informations du logiciel sur son site

00:01:58

www.org c'est un logiciel libre donc qui distribué sous la licence du GPS qui veut dire que si vous avez des compétences en R ou python juste de traducteur ça peut suffire vous

00:02:11

pouvez aider à développer ce logiciel construire des dictionnaires pour des nouvelles langues également c'est toujours le bienvenu ça quand on n'a pas de compétences en informatique on peut quand même aider au développement de certains logiciels libres le principe du

00:02:24

logiciel est relativement simple c'est une interface en WX python avec du code en Python qui va du point de vue de l'analyse lexicale s'occuper du traitement textuel et de la génération de tableau de données et qui va

00:02:37

également écrire des scripts pour le logiciel R qui va être à l'origine de toutes les analyses statistiques et de la production de tous les graphiques qui sont ensuite affichés dans l'interface qui permet de refaire les graphiques etc d'avoir une interaction indirecte avec

00:02:51

le logiciel R il est construit donc exactement sur le même principe qu'un autre logiciel de lexicométrie libre que je vous invite à découvrir qui s'appelle TXM ou certains que la plupart d'entre vous connaissent déjà

00:03:02

développé par nos collègues à l'ENS de Lyon donc vous remplacez Java enfin python par Java et c'est exactement le même principe utilisé le logiciel est censé tourner sur tous les systèmes d'exploitation

00:03:16

et normalement ça fonctionne on inscrit ce logiciel dans le paradigme de l'analyse textuelle sur corpus le point de départ de ces analyses c'est toujours la production d'un corpus donc j'aurais pas le temps aujourd'hui de

00:03:31

revenir sur les règles qui préside à la construction de ces corpus mais retenez que c'est une phase absolument essentielle de l'analyse de texte pour le dire vite dans ce schéma là les gens

00:03:43

qui travaillent dans dans ce champ passe énormément de temps à construire leur corpus énormément de temps à interpréter les résultats de ces analyses et nous selon nous allons parler aujourd'hui

00:03:57

c'est ce qui se passe entre les deux le moment de l'analyse qui d'un point de vue temporel est absolument négligeable tant des analyses et relativement courtes ça dépend de la taille des corpus mais on passe beaucoup plus de temps à faire des corpus et analyser et

00:04:10

interpréter les résultats qu'à utiliser concrètement les différentes analyses dans le logiciel donc dans ce journal les corpus qu'on construit doivent être codés en fonction du logiciel qu'on utilise pour

00:04:23

l'analyser le codage qu'utilise iranuthèque est un codage qui est hérité du logiciel Alceste qui est compatible avec plusieurs logiciels donc avec txn notamment qui ont très bien le codage

00:04:35

durabuthèque c'est également compatible avec la version web de du logiciel Hyperbase qui est hébergé sur les serveurs de 10 donc si vous avez encore plus formaté pour dire à luttech vous pouvez l'utiliser en ces deux logiciels

00:04:48

ils sont assez facilement modifiables pour être utilisé dans Lexico également c'est un codage assez classique une fois que le corpus est codé il peut être entré dans le logiciel et à partir de là on peut réaliser tout

00:05:00

un tas d'analyses souvent des organisations textuelles on va s'intéresser à une partie du corpus ou une sous-partie particulière des analyses statistiques et c'est ce dont je vais vous parler par la suite et d'autres possibilités en fonction des

00:05:13

logiciels ça produit des résultats qui vont donner lieu à interprétation par le chercheur donc une petite remarque sur ce point de vue là ces analyses là sont en savoureux mélange de quantitatif et

00:05:26

de qualitatif ici on va faire des analyses statistiques sur des gros gros tableau de données en fonction de la taille des corpus mais à la fin le chercheur va devoir donner du sens aux résultats qui sont produits et dans cette phase là il est susceptible de

00:05:38

réinjecter ces a priorités toutes les formes de subjectivité qui mobiliser alors j'ai résumé à mutech en une certaine qui est en soi pourrait suffire à toute cette formation j'en ai un peu

00:05:56

plus mais le point de départ donc des analyses dans l'ermite ce sont des corpus qu'on va sauvegarder au format pointe et le texte brut le plus vieux format de l'informatique qui vont se présenter un

00:06:11

peu de cette forme là donc je pense que j'aurais le temps de revenir sur le codage mais comment chaque texte par quatre étoiles pour signaler à l'ordinateur qu'à cet endroit là il y a un nouveau texte qui commence et on associe à ce qu'on appelle cette ligne

00:06:24

étoilée des variables qu'on appelle des méthodes données qui sont bien souvent en rapport avec le texte qui peuvent avoir une infinité de forme différente en fonction de la nature des corpus des objectifs de la recherche etc il n'y a

00:06:37

pas de limite au nombre de métadonnées qu'on peut associer avec un texte on peut en mettre autant qu'on en veut tant qu'il y a pas de retour à la ligne dans la ligne des métadonnées il y a pas de problème et puis de préférence on va essayer de les formater

00:06:49

de la façon suivante en mettant d'abord une étoile pour marquer que c'est une métadonnée et puis quelques lettres pour signaler la variable donc voilà cette méta donnée un tiret bas et quelques lettres pour signaler la modalité de la

00:07:01

variable concernée ce qui est important dans le formatage de ces métadonnées c'est surtout de ne pas introduire d'espace ou d'apostrophe ou de signe de ponctuation de plus ou de moi ce genre de choses on va se contenter des chiffres des lettres et le tiret bas

00:07:15

mais normalement avec des chiffres et des lettres on peut écrire tous les modes de notre langue donc ça donne déjà un bon endroit donc les textes vont être empilés les uns ou les autres dans un fichier TXT et sur cette base là après indexation dans

00:07:27

irramuthèque on va pouvoir faire des analyses les plus simples de ce que j'appelle des statistiques descriptifs qui vont consister à les compter les fréquences d'apparition de chacun des mots donc présenter sous forme de liste

00:07:39

on verra ça juste après on peut faire des représentations graphiques de ces distributions de mots donc sous forme de nuage de bois mais comme c'est moins pratique à lire qu'une liste de mots on évite de le faire un côté juste

00:07:53

esthétique le village de le deuxième possibilité consiste à construire ce qu'on appelle des tableaux lexicaux entiers donc là on va partir d'une partition qui est décidée par l'utilisateur généralement sur la base d'une métadonnée

00:08:05

et puis on va construire un tableau de contingence dans lequel on mettra en colonne toutes les modalités possibles de cette moldonnée dans le corpus et en ligne tous les mots du corpus si on va tout simplement les compter la fréquence

00:08:17

d'apparition de chacun des mots dans chacune des parties du corpus c'est partitions il était décidée par l'utilisateur sur la base donc ça c'est une méthode aussi bien que la lexicométrie et sur la

00:08:29

base de ce tableau là on peut réaliser deux analyses une analyse de spécificité qui ont été proposés par Lafont où on va aller déterminer quels sont les mots qui sont statistiquement sur représentés ou

00:08:42

sous-reprétés dans chacune des colonnes souvent sur la base de la loi hyper géométrique ou d'un kit 2 et une autre puce possibilité puisque nous avons à faire à des grands tableaux de contingence mais c'est d'utiliser l'analyse factorielle des correspondances pour avoir une

00:08:54

représentation graphique de la proximité ou de la distance des mots entre eux mais bien souvent ce qui va nous intéresser c'est plutôt la proximité ou la distance des colonnes entre elles des marqueurs de colonnes voilà

00:09:08

ça c'est spécificité c'est implémenté dans les radithèque et c'est implémenté dans à peu près tous les logiciels de lexicométrie et la troisième possibilité c'est le fait de d'abord segmenter notre corpus

00:09:20

dans une unité plus petite que le texte qu'on appellera des segments de texte qui m'ont représenter deux trois lignes de texte à peu près et de représenter le corpus sous la forme d'un tableau de présence absence

00:09:33

où chacune des lignes du tableau sera en segment texte chacune des colonnes un mot pour l'instant je vais parler de mots et puis on va tout simplement coder un si le mot est présent dans le segment est 0 s'il est absent et sur la base de

00:09:45

ces grandes matrices de présence absence on va pouvoir réaliser deux indices qui sont plutôt spécifiques du logiciel ironique donc la première c'est une classification hiérarchique descendante

00:09:58

ce qu'on appelle la méthode rennaire héritée du logiciel Alceste donc l'objectif de cette analyse c'est de regrouper de façon automatique des segments de texte qui ont tendance à contenir les mêmes mots de façon à

00:10:10

décrire les différentes thématiques qui sont abordées dans un corpus de texte donc ça c'est le premier intérêt de cette méthode elle va nous dire de quoi parle le texte elle va nous permettre de déterminer la taille relative de chacune

00:10:23

de ces thématiques et dans un deuxième temps elle va nous permettre également d'étudier le expérience statistiques qu'il y a entre les différentes modalités enfin les différentes métadonnées qu'on a associé à nos textes

00:10:34

et chacune de ces thématiques donc c'est les deux principales raisons d'utilisation de cette technique déterminer des thématiques et étudier les biens statistiques entre ces thématiques et les méthodes une autre

00:10:47

possibilité d'analyse de cette matrice de présence absence c'est le fait de faire des analyses de similitude ça va consister à l'aider les relations de co-occurrence des mots à l'intérieur des segments textes et en les représentant

00:11:00

sous la forme d'un graphe où chaque mot sera le sommet des sommets dans le graphe et où les relations entre les mots seront symbolisées par ce qu'on appelle des arêtes qui avaient des graphes qui vont relier des traits qui

00:11:12

vont relier les mots entre eux qui pourraient confondu à priori avec un nuage de mots mais ça contient beaucoup plus d'informations qu'un nuage de mots puisque là la position relative des mots entre eux a une signification alors qu'elle en a absolument aucune dans un

00:11:26

nuage de donc ce sont ces analyses là que je vais essayer de décrire si le temps me le permet alors avant de rentrer dans les analyses quelques mots sur l'installation parce que je vous dis en ce moment elle a un

00:11:43

peu récalcitrante sur le texte tout simplement pardon pierre tu as dû couper ton micro juste au moment où tu avais dire que l'installation est un peu récalcitrante c'est pas moi qui coupait

00:12:10

[Musique] donc oui d'habitude je dis que il faut utiliser la dernière version d'ailleurs disponible en ce moment c'est pas le cas puisque les gravité qui n'est pas compatible avec les versions de r supérieur à 4.2 donc pour l'instant et

00:12:24

tant que c'est possible un jour ça ne sera plus mais tant que c'est possible il faut utiliser la version 4.1.3 de r que vous trouvez dans les halls sur le site de air project alors c'est plus

00:12:36

facile à trouver pour Windows que pour Mac on y arrive quand même à trouver pour Mac donc voilà il faut installer l'installation de gravité commence par installer r toutes les analyses sont

00:12:47

faites dans R il a besoin de R pour fonctionner s'il y a pas de logiciel R il peut pas fonctionner donc on installe r dans la version 4.1 - 3 ensuite on télécharge iramutech si vous êtes sous Mac il faut

00:13:01

installer x Square et redémarrer la machine après l'installation de soi et ensuite pouvoir installer un texte donc pas de difficulté mais souvent Windows c'est un setup en fait suivant suivant et Souma qui a rien à faire c'est un

00:13:15

document qui est zippé qui sera des idées automatiquement par Mac OS et vous avez plus qu'à poser dans l'application alors ce qui se passe en ce moment également donc sous Mac vous n'avez pas le problème il va retrouver le chemin de r mais sous Windows il trouve pas les

00:13:28

chemins de l'air depuis la version 4 donc c'est à vous de lui dire en fait il va vous prévenir quand vous allez lancer un budget vous allez voir une fenêtre et puis il va vous dire qu'il trouve pas le chemin de r donc là vous allez dans édition préférence et puis vous avez une option qui s'appelle chemin de r vous

00:13:41

cliquez sur le bouton Broze et vous allez sélectionner l'exécutable de R qui est toujours au même endroit il s'installe toujours dans ces programmes quand vous sélectionnez cette exécutable de herbe parce que il y a beaucoup de

00:13:58

gens qui sélectionnent par exemple le fichier d'installation d'ailleurs ce qui fait qu'à chaque fois qu'il en sera du tags c'est d'installer R ou bien qui sélectionne l'interface de Hertz qui fait que ça marche pas du tout et ça

00:14:10

bloque un petit peu avec les trifouiller dans ses fichier de configuration pour remettre les choses en ordre donc c'est la seule difficulté actuellement il faut aller sélectionner le bon exécuteur de r une fois que vous avez fait ça de vous fermiez un bouteille qui vous le

00:14:22

relancez et là vous allez passer à la fin du processus d'installation irrabuthèque va vous signaler que il manque certains des librairies de r donc il a besoin pour fonctionner donc vous

00:14:34

avez rien à faire en fait suffit d'être connecté à Internet vous cliquez sur OK et il va aller installer ces livres si ça ne marche pas ou s'il y a des difficultés vous pouvez essayer de les installer manuellement dans R en tapant

00:14:47

la commande ministère au packaging avec le nom du paquet concerné entre guillemets mais a priori en ce moment ça se passe plutôt bien ça va pas toujours été le cas conseils dans dans le chat là

00:15:07

effectivement il y a la possibilité de faire cohabiter plusieurs versions de Earth Windows il y a aucune difficulté il s'installe tous dans dans un dossier qui contient le numéro de version de l'échelle donc il y a pas de problème

00:15:18

sous Mac de ce que j'ai vu c'est un peu plus pénible d'arriver à faire cohabiter plusieurs versions de alors pour les plus aventureux d'entre vous les plus courageux aussi vous

00:15:34

pouvez installer la version en cours de développement durabuthèque donc dans sa version 2 donc le dépogite vous avez l'adresse ici ou clonez le dépôt tout simplement la première étape il vous faut pour

00:15:49

l'instant alors vous avez deux versions qui cohabitent dans ce dépôt une version pour Python 2 et une version pour Python 3 je vous conseille plutôt la version pour Python 2 pour l'instant sous Windows en tout cas donc vous installez

00:16:02

python de 7 W expliquons 3 et python xlrd quelques packages supplémentaires mais normalement il devrait vous le signaler et du coup vous récupérez une version gravité qui est sans doute buggé

00:16:13

mais qu'il y a l'avantage de contenir 7 ou 8 ans de développement supplémentaire en comparaison de la version que vous pouvez télécharger sur ce soir j'ai actuellement vous pouvez aussi faire ça sous Macan donc un problème à installer la version

00:16:27

de l'épouse même si ça peut être un peu plus compliqué quelques conseils de logiciel qui cohabitent très bien avec eramute ou avec n'importe quel environnement pratique la lexicométrique donc j'en

00:16:46

mets une couche le chef Excel qui habite très bien avec hyper base Web vous avez pas besoin de le faire cohabiter c'est un logiciel qui est disponible par intermédiaire d'un navigateur vous embêtez pas avec les outils Microsoft quand vous faites de la

00:16:58

lexicométrie vont vous faire perdre beaucoup de temps préférez LibreOffice plutôt notamment par exemple sur iron tech bientôt tous les les résultats sont en codés en du tf8 donc faire comprendre ça avec ça parce toujours compliqué tous

00:17:11

les fichiers de résultats des rabutex sont tes fichiers CSV qui sont séparés soit par un point virgule soit par une tabulation et pareil faire comprendre ça Excel c'est comme pénible donc je vous conseille vous embêtez pas vous prenez

00:17:23

LibreOffice avoir un très bon outil éditeur de texte quand on manipule des fichiers au format pointe et XT c'est toujours très pratique le 8 mai Max sont deux dinosaures de l'édition de texte ça veut dire que le point par contre ils le

00:17:35

font plus vite que n'importe quel autre si vous avez jamais essayé d'ouvrir un fichier d'un giga de texte sur Word par exemple voilà n'essayez pas ça va prendre 40 minutes alors que vim va vous l'ouvrir instantanément

00:17:48

Inkscape alors tout ça ce sont des logiciels libres gratuits ou télécharger qui fonctionne sur tous les systèmes d'exploitation Inkscape est un très bon logiciel de manipulation d'images vectorielle et gramuthèques permet de réaliser tous les graphes en vectoriels

00:18:01

gym est un logiciel à la Photoshop instant logiciel libre très puissant défi evison sont des logiciels qui permettent de visualiser des graphes et iranuther qui exportent les graphes qui produit au format kraffenel qui sont qui

00:18:13

est compatibles avec des fils épisodes et puis les deux derniers bossaux pour le fait mais gros moteur qu'on n'arrive plus à télécharger actuellement mais c'est un aspirateur du web qui est programmé par un collègue et

00:18:25

psychométritien et du coup qui donne pas mal d'outils pour non seulement récupérer de façon pertinente et pas du web mais également les nettoyer ou de garder que le texte qui nous intéresse est un logiciel qu'on utilise donc un

00:18:41

peu pénible à installer pour l'installer sur des serveurs Linux mais on l'utilise ça pour faire des collections tweet très pratique pour faire des collections de tweet il y a des utilisateurs qui nous voient

00:18:52

que la moitié de la diapositive [Musique] enfin moi je le laisse je sais pas comment vous gérez diaporama mais à mon avis vous pourrez vous procurer à la fin de la séance

00:19:13

alors pour obtenir de l'air de voilà sur le site de pour obtenir de l'aide sur irrémité vous avez une liste de discussion hyper classique il faut s'inscrire pour pouvoir poster un message

00:19:26

on fait une recherche avant de poser une question parce que quand même de grandes chances que la réponse est déjà été donnée et puis on évite les messages hyper génériques du type j'ai installé l'Iran tech mais ça ne marche pas parce que là on peut pas vous aider parce qu'il y aura du texte ça fonctionne sous

00:19:39

Windows ou max ou Linux il y a des centaines de distribution Linux Mac OS c'est deux versions par an Windows il y a le 11 le 10 le 7 jusqu'à etc bref il faut qu'on ait quelques informations sur

00:19:51

le contexte dans lequel vous vous trouvez l'analyse que vous essayez de faire qu'est-ce qui s'est passé éventuellement un petit fichier de log tel que décrit sur la page de support durabicate voilà vous avez sur cette page là quelques informations qui

00:20:05

peuvent vous aider pour demander de alors on peut de lexicométrie avant de faire une première étape dans le logiciel donc ce que je vous raconte là c'est quelque chose qui est assez consensuel quand même chez les gens qui pratiquent les statistiques textuels

00:20:23

on va dire qu'une suite de caractère bornée par deux caractères délimitateurs est une occurrence on parle de World token anglais donc les caractères des limitateurs c'est l'espace bien sûr mais c'est également tous les signes de

00:20:36

ponctuation l'apostrophe les parenthèses etc cette liste est paramétrable vous pouvez la modifier et je vous rappelle que certaines langues ne respectent pas ces règles là par exemple le japonais le chinois n'avait pas proposer d'espace

00:20:48

entre les différents mots certaines autres langues sont à lutinantes comme l'allemand ou le Suédois c'est-à-dire que certains mots vont être accrochés entre eux donc pour ces langues là en amont de l'utilisation de grabitech il

00:21:00

faut utiliser un token dizer mais un peu péniseur choisir un outil qui va rajouter des espaces en fait entre les mots qui créent des token et vous trouverez des Pokémon dizer pour à peu près toutes les langues asiatiques que l'allemand le Suédois etc donc je vous

00:21:14

conseille de faire passer votre texte dans cette localiser les gravités qui ne pourra pas pour vous et après une fois qu'il y a des espaces et des signes de ponctuation ça sera utilisé comme délicateurs on dira que de suite identique de caractère ou

00:21:26

constitué deux occurrences d'une même forme graphique parce qu'un remportant à retenir ici dans cette notions d'occurrence et de forme c'est qu'a priori c'est indépendant de la notion de mots au sens où on va l'entendre dans le langage naturel n'importe quelle suite

00:21:39

de caractère même si elle est pas présente dans un dictionnaire sera une occurrence et c'est très souvent le cas dans les textes que nous analysons que les occurrences ne soient ne correspondent pas à des moments vous avez marqué 13h30 13h30 c'est une suite

00:21:50

de caractères il y a pas de caractère délicateur donc ça va devenir en l'occurrence pour autant ce n'est pas un va réaliser une climatisation donc de façon optionnelle elle est activée par défaut mais vous

00:22:05

pouvez la désactiver pour n'importe quel analyse donc ça va consister à ramener les mots à l'entrée qu'ils auraient dans un dictionnaire c'est à dire que ça va vous remettre les verbes à l'infinitifs et non au singulier les adjectifs au masculins singulier il faut quand même

00:22:19

retenir que la lesmatisation telle que la réalisation [Musique] [Musique] et si vous avez vraiment besoin d'augmenter la qualité de la

00:23:18

climatisation pour vos analyses je vous conseille de vous tourner vers TXM qui lui va utiliser tritager pour réaliser cette tâche qui est un logiciel qui est beaucoup plus

00:23:31

performant au moins pour la les motivation et la reconnaissance des catégories handicap sur le français après ça dépendait et en prenons un petit exemple donc on va imaginer que le texte en noir ici

00:23:47

c'est votre corpus on va imaginer qu'il est composé de ce que j'appellerai plus tard deux segments de texte dans la réalité c'est seulement sont de plus grands vous voyez que ce texte se présente de

00:24:00

la façon la plus naturelle possible dans le sens où le texte doit respecter toutes les règles typographiques classiques avec des majuscules en début de phrase de la ponctuation à l'intérieur etc la ponctuation est

00:24:12

vraiment fondamentale pour les remonter parce que il va utiliser la ponctuation pour essayer de découper des segments de texte qui respectent le plus ou moins le découpage naturel de la langue découpage qui est marqué par des ponctuations

00:24:25

fortes donc la première étape que réalisera mutuelle quand il indexe un texte qui va consister à passer l'intégralité du texte en minuscule alors pourquoi on fait ça parce que pour un ordinateur a

00:24:37

priori se le là n'a rien à voir avec ce lol ce sont deux mots différents alors il existe des champs de recherche dans lesquels cette différence est importante moi dans le lien pas du tout donc par

00:24:48

défaut il rajoutait en minuscule donc on l'intérêt de tout passer en minuscule c'est de diminuer la variabilité du lexique on a moins de mots différents l'inconvénient c'est qu'on va perdre notamment les noms propres qui dans

00:25:03

beaucoup de langues dans la particularité de commencer par une majuscule donc si vous avez des noms propres qui une fois remis en minuscule peuvent ressembler à un nom ou un autre groupe il faut les marquer dans le

00:25:15

corpus en rajoutant aux deux caractères pour qu'ils soient distincts des autres formes une fois que tu as passé l'intégralité du texte en muscu il va procéder à tokenisation donc il va

00:25:27

repérer les séparateurs d'occurrence et voyez par exemple l'apostrophe est en séparateur d'occurrence et donc le C va devenir une occurrence au même titre que tout les autres maux de tête et puis il va dans cette même phase

00:25:40

découper le texte en segment texte qui va être une unité qui est mobilise dans beaucoup d'analyses et donc ça va donner le corpus en bleu ici donc ce corpus en bleu et composé de 13 occurrences naturelles on

00:25:54

dirait qu'il y a 13 mots en tout donc ce corpus et c'est très occurrent sont composées de 10 formes différentes autrement dit certains des mots se répètent plusieurs fois alors c'est le cas du pronom le

00:26:06

c'est le cas du substantificat c'est le cas du verbe être on s'informe St donc il y a toujours dans un texte plus d'occurrence que de forme le mieux que vous pouvez obtenir c'est avoir autant d'occurrence que de forme mais c'est un

00:26:20

cas très particulier dans lequel chaque mot ne revient qu'une seule fois et je vous mets au défi d'écrire un texte de plus de cinq six lignes dans lequel enfin qui respecte cette règle là très vite vous allez avoir besoin entouré utiliser un pronom de réutiliser un

00:26:32

auxiliaire etc l'étape suivante une fois qu'il a fait ça donc c'est la climatisation le petit chat être mort ce être dommage d'être sympa le chat la climatisation ne change pas le nombre d'occurrences elle est réalisée fort en par forme par contre

00:26:47

elle change de nombre de formes et c'est bien ce qu'on attend de cette procédure c'est à dire de diminuer la variabilité du lexique et donc ici le verbe être été repéré par deux formes différentes et une fois les matisée ne représentent

00:27:00

plus qu'une forme différente donc ici nous avons pris quelques décisions donc on a passé le corpus en minuscule on a supprimé la ponctuation après le découpage des segments de texte

00:27:21

on a les baptisé le corpus et même sur un tout petit texte comme celui que je vous propose c'est quelques décisions là ont déjà des conséquences même sur l'analyse la plus simple c'est-à-dire le fait d'aller compter les mots en fait le

00:27:34

tableau de gauche c'est les fréquences des formes que vous donnerez un logiciel comme TXM ou comme Lexico son des logiciels qui vont compter la ponctuation qui ne vont pas passer le texte en minuscule qui vont

00:27:46

pas les matiser et donc pour ces logiciels là mais il nous dirait qu'il y a 16 occurrences en tout dans le corpus et que la forme la plus fréquente c'est le 2 le centime chat et la forme être dans

00:27:58

sa forme St alors qui rajoute avec lui il va vous dire qu'il y a 13 occurrences en tout et que la forme la plus fréquente c'est le verbe être à l'infinitif donc il faut avoir conscience des conséquences des petites décisions qui sont pris au moment de

00:28:11

l'indexation des corpus le tableau de droite il y a deux fois chat en deux erreur c'était pas ça qui manquait c'est

00:28:28

sympa à la place de chat en bas bon des gens qui suivent merci comme quoi fallait revenir à mater c'est [Musique] donc irrémité qu'utilise la segmentation

00:28:54

dans beaucoup d'analyses on pose pas la question quel est l'intérêt de segmenter donc segmenter va consister à diviser à partager en segment et on va définir un segment comme une suite donc ça c'est des définitions la plus basique

00:29:06

voilà tous les niveaux de granularité que que comprend et un texte le corpus donc le corpus est indivisible c'est encore plus à l'intérieur d'un corpus il y a un ou

00:29:18

plusieurs textes associés à des méthodes la plupart du temps il y a plusieurs textes mais on peut tout à fait imaginer une encyclopédie un roman tout seul etc il y a aucun problème dans ma bouche la

00:29:30

notion de texte prend un sens extrêmement générique pour moi un tweet c'est un texte une encyclopédie c'est un texte ça peut avoir des tailles très différentes en dessous du texte il rajoutait permet d'utiliser un niveau comme il aurait été

00:29:43

qu'on appelle le paragraphe ou la thématique c'est-à-dire qu'on peut marquer à l'intérieur d'un texte des sous thématiques ou des sous paragraphes alors on utilise ce codage beaucoup quand on retranscrit des entretiens semis directifs pour marquer les grandes

00:29:55

thématiques ou les questions des entretiens celui directives ce qui est très pratique puisque après ça permet de réaliser des analyses questions par question ou groupes de questions par groupe de questions en dessous du

00:30:07

paragraphe donc va découper les textes en segment de texte un des intérêts également de faire des paragraphes c'est que quand il y a mutait avec des coupes des segments il évite de découper des segments qui superposeraient sur deux par là des segments à l'intérieur de

00:30:21

Paris un certain moment il rabutèle va utiliser comme niveau d'analyse des segments répétés donc les segments répétés sont des suites d'occurrence qui

00:30:32

se répètent plusieurs fois dans un corpus et le plus petit niveau d'analyse que comprend irbutex c'est l'occurrence le mot il y a des logiciels qui travaillent à un niveau en dessous ils

00:30:45

vont repérer les suites de lettres ce qu'on appelle les ngram à l'intérieur des mots mais gravités qui ne le fait pas alors l'intérêt de la segmentation quand on

00:30:56

a pour objectif de déterminer les thématiques à l'intérieur d'un texte c'est que si on utilisait le texte comme unité dans une classification on ne pourrait pas mettre à jour des différences de thématiques à l'intérieur

00:31:10

d'un même texte donc l'intérêt de la segmentation c'est d'augmenter le niveau de précision de l'analyse en diminuant le niveau de granularité des unités qu'on a eu et comme segmentation n'aurait pu se

00:31:23

dire à priori qu'on pourrait prendre la phrase mais dans beaucoup de langues la taille des phrases présente une très grande variabilité en français et ben avec un point d'exclamation c'est une

00:31:35

phrase et pour Proust ça fait pas divine c'est pas une phrase donc on va avoir on va se retrouver à manipuler des unités avec des tailles très différentes alors des analyses du type analyse factorielle des correspondances par exemple n'est

00:31:48

pas trop manipuler des unités et détails très différentes donc on va essayer de construire des segments de texte qui soit de taille à peu près homogène tout en essayant de

00:32:00

respecter le découpage naturel de la langue donc tu rajoutes en fait va essayer de faire un ratio entre la taille des segments qu'on lui demande et les ponctuations fortes donc il va regarder si il trouve des points des points d'interrogation des points

00:32:13

d'exclamation aux environs de la taille des segments vous l'avez demandé puis si l'on trouve pas dans les 15% plus grandes plus petit que cette taille là il va aller chercher des points virgule ou même deux points puis ils trouvent pas il va aller chercher des virgules et

00:32:25

puis si vous donnez un rabute avec un texte qui ne contiennent qui contient aucun signe de ponctuation il va couper donc par défaut on lui dit de faire des segments textes de 40 occurrence il va aller couper toutes les 40 occurrences bêtement mais d'un autre côté un texte

00:32:38

sans ponctuation c'est absolument impossible à lire donc je vous déconseille fortement de manipuler ce genre de texte la première chose que va faire ira butter et puis on va le faire tout de suite c'est moi je vous conseille de

00:32:54

systématiquement commencer après l'indexation par l'analyse la plus simple qui consiste à les compter la fréquence des mots donc ça donne déjà une première idée du contenu du texte et donc quand

00:33:07

vous ferez ça va vous faire un graphe de ce type là qui vous montrera que la distribution des mots dans votre corpus respecte ce qu'on appelle la loi de zip du nom du premier chercheur qui a mis un évidence

00:33:19

la particularité de la distribution des fréquences de mots dans les corpus textuels cette règle est à ma connaissance valable pour à peu près toutes les langues vivantes en tout cas je suis pas ici il y a des spécialistes parmi vous je suis

00:33:32

à la recherche d'une langue qui ne respecte pas la loi de zip alors qu'est-ce qu'elle nous dit cette loi elle nous dit que si on classe les mots en donnant le rang 1 au mot le plus fréquent le rang 2 au deuxième le rang 3

00:33:43

ou 3e etc et qu'on représente les fréquences et les rangs sur un graphe avec deux échelles logarithmique on va obtenir à peu près une ligne droite et ce quel que soit la taille du corpus ou

00:33:56

donc quel que soit la langue qui va vous dire quoi qui va nous dire qu'il y a peu de mots qui sont hyper fréquents et bien souvent ces mots hyper fréquents et peu nombreux ce qu'on va

00:34:08

appeler des mots utiles ou des mots grammaticaux et puis à l'opposé on a ici beaucoup de mots de fréquence 1 ce qu'on appelle des apaqs et qui sont assez caractéristiques

00:34:21

des corpus textuels dans le sens où tous les corpus textuels en langue naturelle contiennent des des attaques à tel point que certains logiciels que gravités vont planter s'il y a pas d'impact dans dans les corpus

00:34:34

et donc voilà si un jour vous indexez encore plus dans les rabuthèque et que ce graphe ne ressemble pas à ça je veux bien le voir a priori personne pardon cette loi de l'indépendante à peu

00:34:50

près de la taille du corpus il fait quelques lignes évidemment mais à partir du moment où il fait quelques pages on va retrouver cette distribution là donc soit sur des corpus de plusieurs centaines de millions d'occurrences ou sur des corpus de quelques dizaines de

00:35:03

milliers d'occurrence que ce soit sur des corpus en français ou des corpus en anglais ou en espagnol ou en italien ça changera rien on devrait retrouver cette distribution particulière

00:35:15

alors je vais maintenant partager mon écran pour vous montrer s alors je vais commencer par vous montrer encore plus ce que j'appelle encore plus que dans nos esprits

00:35:32

donc il y avait devant vous alors c'est peut-être un peu petit pour vous [Musique] là c'est en train de monter chez les participants chez moi c'est toujours pas là et en

00:35:48

même temps il y avait une question de de Gaëlle sur la taille des segments selon la langue si tu avais des des conseils oui alors en fait vous regrets quand on verra la phase d'indexation mais il y a beaucoup de

00:36:02

critères ou de paramètres par défaut dans les rabutect qui sont complètement arbitraire la taille des segments par exemple fixés à 40 c'est quelque chose qui est complètement arbitraire mais l'expérience montre que

00:36:16

ça n'a pas énormément d'incidences sur les résultats qu'on obtient alors bien sûr faudrait pas faire des segments de 3 ou 4 mots pas des segments de 400 000 mots non plus mais quand on reste dans

00:36:28

des fourchettes du type 25 75 ça n'a vraiment pratiquement aucune incidence sur les résultats alors c'est toujours fonction de la taille des corpus plus corpus et petit plus la modification de paramètres vont avoir des incidences mais quand le corpus deviennent assez

00:36:41

massif ça n'a aucune incidence on pourrait effectivement se poser la question de la langue par exemple souvent je suis tenté quand j'habite de l'anglais de faire des segments un peu plus petit parce que les Anglo-Saxons font des phrases un peu plus courtes en

00:36:54

moyenne que les langues latines donc ça peut être pertinent effectivement si j'analysé les oeuvres de Proust ben je pense que je ferai des segments plus grands puisque la phrase moyenne de Proust est quand même largement plus longue qu'une phrase qu'une phrase

00:37:06

classique mais voilà donc on peut effectivement l'adapter à l'angle alors après je suis pas un spécialiste de toutes les langues si vraiment vous analysez des langues vous savez que les phrases sont très courtes vous pouvez effectivement baisser un peu la taille des corpus ou

00:37:18

si vous analysez un moteur dont vous savez qui fait des phrases très longues l'augmenter un petit peu après Faites des tests encore une fois le temps d'analyse et négligeable par rapport au temps que vous aurez passé à construire le corpus et autant que vous allez

00:37:30

passer interpréter donc ça vaut vraiment le coup de a carrément il a enlevé mon partage d'écran je recommence donc oui faites des tests voir si vous obtenez des différences mais a priori de

00:37:46

qu'on a dans la littérature même sur des petits corpus et pas de différence alors est-ce que vous voyez mon corpus alors moi je suis toujours sur les

00:38:04

distributions de l'homme et là on a aucun signe que ça monte moi j'ai deux flèches qui tournent pas encore il faut attendre un petit peu

00:38:21

j'ai coupé ma vidéo au cas où au coeur je vais arrêter le partage et recommencer parce que là autant il est conte un affiché que le partage d'écran est terminé en fait c'est encore plus d'articles de

00:39:05

presse vous voyez ici les quatre étoiles qui marquent le début d'un premier texte ici une métadonnée qui est la source d'où est issu l'article donc fait ça c'est toujours cet exemple alors que

00:39:17

c'est un super mauvais exemple ne connaît pas vos variables avec une seule lettre bon là c'est des journaux donc on va le reconnaître vite fait la source mais bon quand on reprend encore plus 3 à 4 semaines après avoir travaillé

00:39:29

dessus c'est bien d'avoir un codage qui fait que on reconnaît instantanément on reconnaît instantanément les variables et c'est encore mieux si un lecteur extérieur peut lui-même reconnaître le sens que vous avez donné un scénario

00:39:43

c'est toujours en train de monter chez pas mal de personnes j'ai l'impression moi j'ai pas l'écran non plus j'ai une autre idée je vais arrêter le partage je retenterai par contre

00:40:31

propose de couper ta caméra c'est peut-être une bonne idée en tout cas le temps de voir si de temps ça me dit que le partage est terminé je pense que tout le monde est revenu sur les diapos

00:40:59

mais là tu veux peut-être essayer alors je vais plutôt le retenter pour est-ce que je peux aller directement à une slide par exemple ok donc ce que vous aviez tout à l'heure

00:41:25

sous les yeux j'étais un fichier texte qui contenait encore plus formaté de cette façon là de vraiment très identique à celui que vous avez sous les yeux donc c'est un grand fichier texte il y avait 100 articles en sous les autres donc c'est au formater que c'est

00:41:38

format texte brut et voilà ce qu'il faut faire attention c'est juste que formatage des métadonnées qui doit respecter quelques lettres pour la pour la variable un tirer bas quelques lettres pour la pour la modalité vous pouvez aérer vos corpus

00:41:55

tout faire des [Musique] mettre des soins des paragraphes à l'intérieur des corpus ça pose aucun problème en fait il faut avoir un corpus lisible l'expérience montre qu'on fait beaucoup d'aller-retour entre l'analyse des résultats et son corpus souvent les

00:42:07

premières analyses qu'on fait on nous montrer des petites erreurs de formatage ou des mots qu'on voudrait lier entre eux pour qu'ils formant tout des expressions que nous avoir traité comme un tout des fautes de frappe sur des mots qui nous intéressent bref on fait

00:42:20

pas mal d'aller retour et du coup c'est vraiment important d'avoir un corpus aéré facile à lire avec la ponctuation les majuscules etc qui fait que la lecture est relativement facile bien donc je vais indexer ce corpus là

00:42:34

derrière le tech et c'est là où il faudrait que mon partage d'écran fonctionne je retente alors c'est monté chez moi et encore plus à côté de ça c'était pas très important donc je vais indexer ce

00:43:05

corpus dans le texte c'est la première étape de l'analyse d'un fichier texte donc cette étape là évitera classique vous allez regarder là ça marche pas vous êtes Fichier Ouvrir encore plus de

00:43:16

texte et vous allez sélectionner votre corpus attention au nom des corpus vous allez voir celui-là il s'appelle elle est rue 5.txt

00:43:27

c'est un corpus sur campus de presse qui contiennent enfin qui parle de la loi liberté responsabilité des universités j'aurais pu la liberté responsabilité des universités mais clairement je savais que ce nom là aurait fait planter

00:43:41

un métier faut essayer de donner des noms courts à vos corpus parce qu'il rajoutait que va utiliser va utiliser le nom de ce corpus pour générer des dossiers des sous dossiers etc ce qui fait que si vous lui donnez

00:43:53

un nom de 300 km de long au bout de deux trois analyses vous allez atteindre le maximum la taille maximum d'un chemin sous Windows et ça marchera plus donc on lui donne des longs courts on essaye de

00:44:06

le mettre dans des dossiers qui ne contiennent pas de caractères bizarres ce que j'appelle un caractère bizarre dans un autre dossier ça peut être tout simplement une apostrophe ou des parenthèses voilà j'ai été formé l'informatique il y a longtemps donc

00:44:18

nous on a toujours pas appris à donner des noms de dossiers sans espace sans accent etc et il se trouve que R il aime pas beaucoup les noms de dossiers avec des espaces ou des apostrophes ou des parenthèses donc quand je suis en

00:44:30

formation par exemple je demande aux gens de mettre le corpus sur le bureau ça me garantit que le chemin qui amène à ce corpus de quand il y a pas de caractère bizarre ouh là une perte de votre connexion a été détectée

00:44:45

alors on t'entend bien on a perdu le partage d'écran si c'est que ça dans le chat sur qui possible de préciser l'élaboration des métadonnées le variable héros des underscore alors

00:45:21

les métadonnées c'est des informations liées à votre texte ça dépend à 100% de ce que vous cherchez de l'origine de votre ex mais surtout de ce que vous cherchez alors par exemple quand on retranscrit des entretiens semi directifs on va coder à minimal le genre

00:45:34

des sujets sauf s'il y a qu'un seul genre représenté mais on va coder leurs gens à coder leur statut et toutes les variables liées à ces sujets aux institutions dans lesquelles du travail par exemple qui ont un intérêt pour les chercheurs ici j'analyse des articles de

00:45:48

presse donc je vais coder le journal dont il fait l'article mais je pourrais aussi coder l'orientation politique du journal je pourrais y aller à la date qui est codé je pourrais coder le nom du propriétaire du journal etc etc toutes

00:46:02

les informations qui dans le cadre de ce sur quoi je travaille auraient pour moi un intérêt donc il y a une très grande variabilité des possibles pour ce que représente les métadonnées après le rôle de l'Ender score c'est un moyen de faire

00:46:15

comprendre au par exemple que H et F peuvent être deux modalités d'une même variable sexe on a tendance à coder sexe tirage pour les hommes c'est que c'est la base pour les femmes et le fait de coder comme ça ça lui permet de faire

00:46:29

des analyses qui pourraient pas faire si il n'avait pas ça par exemple on peut en demander de faire un graphe qui reprennent toutes les modalités de la variable sexe on peut coder HF ça marche très bien si vous collez HF seulement

00:46:40

vous pourrez pas faire ce type de graphe là c'est vraiment une habitude de travail qui permet d'obtenir très facilement des des analyses complémentaires ou des pages de corpus par exemple pour traiter pour construire

00:46:52

les tableaux lexicaux entiers et quand on a codé le corpus comme ça il suffit de sélectionner la variable source ici et va faire directement une colonne pour chacune des modalités de la variable source dans le corpus que je m'apprête à

00:47:06

indexer il y a quatre journaux représentés donc le monde Le Figaro l'humanité et Libération il va donc créer une colonne pour chacun de ces journaux donc ça fait gagner du temps ça marche si vous le pas il y a aucun problème à ne pas coder les variables

00:47:18

comme ça par contre il y a des analyses que vous pourrez pas faire des sous analyses ou des découpages du corpus donc voilà la fenêtre d'indexation du corpus alors ça doit être à peu près

00:47:31

lisible donc vous avez ici tout en haut le chemin complet du corpus c'est le dernier chance que vous avez de vérifier que ce chemin ne contient pas trop de caractère bizarre ici vous avez le nom du corpus tel qui va s'afficher

00:47:46

dans l'historique sur la gauche du logiciel après l'indexation tous les corpus viennent je vous montrerai après il vient de se mettre dans l'historique ensuite l'encodage donc c'est l'encodage du

00:48:03

texte du corpus alors ça dépend soit de vous si vous maîtrisez bien les logiciels édition textuelle et que vous savez enregistrer dans différents encodages si vous savez pas faire ça ça dépend de votre système d'exploitation

00:48:16

et par défaut gravité qui affichera l'encodage de votre système d'exploitation mais si vous voulez analyser encore plus que quelqu'un vous a envoyé mais il faut lui demander soit son système d'exploitation si les connais rien soit dans quel encodage il

00:48:29

a bien pu mettre le texte mon conseil c'est quand même d'utiliser du kfit à chaque fois que vous le pouvez en dessous vous avez la langue du corpus on crash ah ben là j'ai même pu

00:48:43

le portage proposé alors comment ça se fait j'ai été dégradé donc là tu vas pouvoir reprendre la main

00:49:13

sur la présentation principe c'est bon [Musique] la langue donc pour analyser des corpus dans toutes ces langues en fait vous pouvez en n'importe quelle langue l'intérêt c'est que pour ces langues là il rajoutait dispose d'un dictionnaire

00:49:30

autrement dit il y aura un minimum de l'hématisation et un minimum de reconnaissance des catégories grammaticales mais vous pouvez analyser n'importe quelle langue vous n'aurez pas de climatisation il y aura pas de

00:49:42

reconnaissance des catégories grammaticales mais ça va très très vite de se faire un dictionnaire à partir d'un corpus je pense que je vous montrerai comment faire donc pour analyser toutes ces langues bien sûr il ne faut pas mélanger les langues ça

00:49:54

c'est le générique de la construction de corpus donc pour toutes ces langages iranuthèque dispose d'un dictionnaire qui va sélectionner par défaut encore une fois ces dictionnaires ce sont des fichiers CSV en codé en UTF8 que vous

00:50:06

pouvez manipuler dans LibreOffice qui utilise la tabulation comme celle réparateur ils sont très faciles à modifier c'est juste des gros tableurs avec une colonne de forme une colonne de laine une colonne de catégorie verticale

00:50:17

donc moi j'invite les utilisateurs à mettre leur dictionnaire à jour en fonction de ce sur quoi il travaille et donc là vous cliquez sur Autre et vous sélectionnez votre dictionnaire si vous voulez modifier ici vous avez le dossier

00:50:31

dans lequel les résultats vont être enregistrés après les dictionnaires des expressions donc il y en a pas pour toutes les langues mais il est très fourni en français c'est un dictionnaire dans lequel je vais mettre tous les mots ou tous les expressions qui a priori

00:50:43

serait cassé en plusieurs mots par les règles de tokenisation donc grand-père grand-mère il y a un petit mot au milieu si on fait rien ça va être cassé en grand et père grand Mr le mot aujourd'hui en français quand il y a une apostrophe et si on fait rien il va être

00:50:56

cassé en 11 jours d'un côté et lui de l'autre donc tous ces mots là l'équivalent avec un tiret bas entre les Bretons grands par ailleurs présents dans le dictionnaire des habitants donc si vous avez comme ça des expressions qui vous

00:51:12

travaillez enfin que vous utilisez régulièrement et que vous voulez voir traiter comment tout vous pouvez les ajouter à ce dictionnaire et ajouter une expressions avec intérêt au dictionnaire des [Musique]

00:51:25

après vous avez une option pour faire ou ne pas faire de segments de texte donc la plupart du temps c'est très pertinent de faire des segments textes quand on est sur des textes classiques des entretiens semi directives des articles

00:51:37

de presse comme ici témoignage des contenus de site web etc il y a quelques cas où c'est absolument pas pertinent par exemple quand j'analyse des tweets les tweets étant déjà plus courts qu'un segment de texte classique

00:51:51

on va pas laisser augmenter donc il y a plein de bonnes raisons de décocher cette case là quand on analyse des des réponses à des questions ouvertes dans les questionnaires moi j'aime bien garder le fait d'avoir un texte qui va

00:52:05

un individu donc j'évite de segmenter enfin bref sinon les situations il peut être pertinentes de pas le faire et je lui ai dit par défaut iranuthèque va créer des segments d'une quarantaine d'occurrence vous avez la possibilité de

00:52:19

générer manuellement ces segments de texte simplement en mettant des retours à la ligne dans le corpus à chaque fois que vous voulez voir un segment de texte et

00:52:32

en choisissant l'option ici paragraphe à la place d'occurrence et si vous faites paragraphe donc le critère du dessous ne joue plus du tout et rajouter considéra que les segments de texte sont marqués

00:52:43

par des retours à la ligne qui est en anglais de nettoyage à peu près toutes les options de cette onglet là sont extrêmement expérimentales ce qui fait qu'il y en a même si vous voulez décocher ça marche plus si vous cochez conserver la ponctuation par

00:53:00

exemple je pense que le logiciel planables le vent il y en a une qui est importante c'est celle-là là et les caractères en dehors de cette liste donc vous avez ici une expression régulière qui dit au

00:53:12

logiciel d'éliminer tous les caractères qui ne sont pas dans cette liste là et cette liste là elle contient toutes les lettres du français de l'italien de l'espagnol de l'allemand du suédois du norvégien et bien sûr de l'anglais

00:53:24

mais si vous analysez de l'arabe du grec ou du chinois avec une expression régulière comme ça dès le corpus va sortir vide donc il faut absolument adapter cette expression régulière par ailleurs si vous voulez garder le

00:53:36

arobase si vous voulez garder les smileys par exemple vous pouvez les rajouter à cette liste et il ne seront pas éliminés voilà donc moi je change aucun de ces paramètres je fais OK et je vais lancer l'indexation

00:53:54

texte qui va très vite alors la première chose qu'on regarde quand on a réalisé une indexation c'est cette valeur là le nombre de textes donc la plupart du temps c'est pas toujours le cas mais la plupart du temps on sait combien de

00:54:07

textes on a dans notre corpus et il faut juste vérifier qu'il rajoutait qui repère bien tous ces textes alors je vais faire juste une petite pause pour regarder les questions dans le chat quand on a un gros corpus par exemple reprise y a-t-il

00:54:19

un moyen d'automatiser la séparation des articles oui alors complètement si vous avez un corpus de retraites des outils de formatage automatique de

00:54:31

ces qui est disponible dans la version que vous avez actuellement en ligne et planté enfin planquer dans le sens où Europresse change hyper régulièrement

00:54:47

[Musique] les formatages mais j'en ai mis en ligne ce qui m'évite d'avoir à le refaire à chaque fois seulement je retrouve pas l'adresse annoncez pas ça c'est pas

00:55:07

OK donc si vous extrayez un corpus de repress en demandant à ce qu'il soit sorti en HTML

00:55:32

vous mettez toutes vos extractions dans un seul dossier vous zippez le dossier et vous allez sur ce site Web là il y a un métèque.org Europark vous lui donnez vous lui téléchargez votre votre

00:55:44

extraction et il va vous le formater automatiquement donc il va vous coder en variable la source et la date codée de trois façons différentes avec que l'année le mois l'année et le mois et le jour

00:55:57

automatique donc à partir des extractions de retrait sous de Factiva donc on s'embête plus effectivement à coder tout ça à la main quand on fait des corpus avec plus de 100000 articles c'est un peu

00:56:10

donc quand vous avez fait ça le premier truc qu'on regarde c'est donc le nombre de textes combien de textes à récupérer donc si vous manque des textes ça ça veut dire on arrête tout de suite on retourne dans le corpus alors la plupart du temps vous avez les trois

00:56:22

trois espaces à la place de deux de quatre vous allez laisser un espace devant il faut sauter une ligne avant la première ligne étoilée sinon

00:56:36

des fois il ne voit pas le premier texte mais bref si le logiciel n'a pas récupéré tout vos textes c'est ne foi sur dix un problème de formatage après il nous donne le nombre de segments de texte qu'il a construit le nom de l'occurrence

00:56:48

le nombre de formes et le nombre d'impacts qui sont ces mots qui apparaissent qu'une seule fois vous voyez qu'ici une forme sur deux n'apparaît qu'une seule fois donc ça pèse lourd en terme de nombre de formes les impacts par contre ça ne pèse rien en termes d'occurrence puisque ces mots

00:57:00

sont tous de fréquence une fois que vous avez indexé encore plus vous obtenez les différentes analyses en mettant tout en mettant un clic droit

00:57:11

sur le nom du corpus dans l'historique et je vous conseille de toujours commencer par l'analyse statistique qui est la plus simple et la plus rapide vous aurez systématiquement cette petite fenêtre donc qui vous demande si vous voulez travailler sur le corpus

00:57:24

climatisé ou pas si vous voulez modifier les clés d'analyse donc qui vont indiquer la nature pleine ou secondaire ou supplémentaires des formes et j'en ai pas encore parlé donc j'y

00:57:36

reviendrai et puis vous pouvez tester des dictionnaires sur chacune de vos analyses donc si je vais juste lui dire OK pierre pardon j'ai pas l'impression que les écrans suivent

00:57:51

moi chez moi je suis toujours sur description du de du corpus tuto à 219 ok donc je vais refaire la manip alors

00:58:08

c'est que c'est bloqué donc je vais arrêter et relancer souvent c'est ce qui lui fait du bien c'est mon vrai sourire refuse d'être ici ça c'est le partage d'écran

00:58:31

[Musique] attends je vérifie que tu as pas perdu ton statut de présentateur ok donc l'action que j'ai faite c'est consistait à mettre un clic droit sur le nom du corpus à choisir statistique et à

00:59:08

cliquer ok sur la fenêtre suivante ok donc ce gras vous l'avez pas le grave du bas il nous indique la taille volatile la fréquence en fonction de la taille des segments de texte vous avez le graphe de X qui est affiché et puis des informations en haut qui reprennent

00:59:27

ce qu'on a déjà vu le nombre de textes etc et après vous avez un onglet pour les formes pleines en anglais pour les formes supplémentaires un onglet indiqué total à onglet indiqué par exemple dans ira buttech quand vous

00:59:39

voyez ces listes de mots ça veut systématiquement dire que vous avez que vous avez un fichier CSV sur votre disque dur enregistré automatiquement dans le dossier de l'analyse qui contient exactement la même chose vous

00:59:53

prenez le réflexe quand vous voyez une liste de bonnes irlandais ça veut dire qu'il y a un fichier CSV qui contient exactement cette liste de lot vous pouvez l'ouvrir dans LibreOffice le mettre dans pierre ça ressautait je suis désolé c'est

01:00:07

le partage s'est arrêté chez vous c'est ça un moment donné sur le compteur venu sur la description du corpus d'accord alors je vais arrêter et repartir

01:00:25

un jour j'aurai la fibre à la maison je vois une question de Bénédicte bonjour Bénédicte j'ai pas vu que tu étais là ouais alors le problème des du formatage de reprise est-ce que c'est

01:00:50

fait exprès je sais pas il me semble que depuis deux trois ans ils sont un peu calmés sur la variabilité du formatage là ça fait un moment que j'ai pas dû remettre la main à la pâte pour pour refaire le parcheur

01:01:03

donc voilà je pense pas qu'il le faisait exprès je pense que au début il cherchait il se sentent cherché un peu sur la façon de formater les fichiers HTML j'ai l'impression que c'est plus stable actuellement mais ça se trouve

01:01:16

dans deux mois ils vont recommencer à changer le format donc voilà c'était ça les listes j'ai envoyé le partage maintenant c'était ça les listes de mots dont je vous parlais donc il y aura du Tech vous avez souvent

01:01:29

des listes de mots comme ça veut dire vous pouvez cliquer sur les colonnes pour les réorganiser par alphabétique fréquence ascendante ou descendante si vous double cliquez sur un mot vous ferez apparaître ce que

01:01:43

j'appelle un concordancier ce qui est pas vraiment un concordancier en fait c'est la liste des segments textes qui contient au moins une fois le mot et ces options là sont systématique dans les rabuthèques quel que soit l'endroit où vous êtes si vous double cliquer sur un

01:01:55

mot vous aurez vous aurez les segments de texte qui les contiennent sur cette base là d'ailleurs vous pouvez construire des sous corpus vous voyez cette option construire un scorpion si je clique dessus il y aura

01:02:10

du texte va générer un nouveau corpus dans l'historique qui ne contiendra que ces segments de texte là donc ça c'est hyper pratique pour faire des focus sur des notions on double clic dessus dans la liste de mots on obtient les segments

01:02:21

de texte uniquement les segments textes qui contiennent ce mot-là on en génère un sous corpus et on peut appliquer n'importe laquelle des analyses d'hyrabutex sur sur ce sous corpus voilà donc vous avez les formes pleines

01:02:37

donc ici rapidement université étudiant universitaire recherche enseignants donc vous voyez qu'ici on a enlevé les mots outils de cette liste là ce qui permet tout de suite de repérer en début de thématique si vous allez voir les formes

01:02:50

supplémentaires donc ce que j'appelle les formes supplémentaires vous retrouverez donc ces mots grammaticaux les pronoms les articles définis etc et si vous allez sur l'onglet total vous aurez la totalité des mots et vous

01:03:04

pourrez constater que les mots les plus fréquents sont ces outils ici la présence d'université aussi dans la liste est assez factuelle en fait c'est que le corpus hyper homogène autour de cette mesure initié d'abord tous les

01:03:16

textes le contenu à minimum une fois mais en fait il parle plus d'université donc voilà encore plus moins homogène dans un corpus moins homogène la première forme pleine

01:03:27

la plus fréquente apparaît bien plus bas alors je vais volontairement se couper arrêter le capteur d'écran et essayer de retrouver aux gens nous pour vous parler de cette

01:03:57

distinction coopère ira nostek entre ce que je vous appelle les formes pleines et les autres types de mots donc ça c'est vraiment irrité du logiciel Alceste et donc dans hérabutech on va

01:04:09

très souvent faire la distinction et par défaut c'est important parce que par défaut c'est les formes pleines participent aux analyses et ce que je vais vous appeler les formes pleines ce sont les verbes les adverbes les adjectifs et les substances pourquoi

01:04:22

parce que pour nous ces mots là sont porteurs des thématiques dont traite le corpus et bien souvent l'objectif de nos analyses c'est de déterminer ces thématiques et donc on va distinguer ces

01:04:34

mots plans que j'appelle mon plan informatif ces notions sont synonymes dans la bouche on va les distinguer de ce que je vous appelle des fois démocratiques ou des formes supplémentaires ou bien des mots outils qui sont marqués en noir ici et donc

01:04:47

dans la donc c'est voilà ça va être tous les auxiliaires les pronoms les prépositions et les objectifs possessifs etc y compris d'ailleurs en français quelques verbes ou adverbes qui sont hyper fréquents comme les verbes de

01:04:59

devoir en falloir qu'on utilise à toutes les sauces mais qui nous disent pas grand chose sur ce dont nous sommes en train de parler et donc cette phase là est bien sûr optionnelle on peut tout à fait réguler la nature pleine ou supplémentaire de

01:05:13

chacun des mots et c'est la dernière étape avant la construction des matrices et bien souvent par défaut dans les matrices que va construire du texte seul les formes pleines vont participer et donc si on imagine qu'on a deux segments

01:05:25

de texte ici et bien il y aura peut-être va construire une matrice où elle va consacrer une ligne à chacun de ces segments et une colonne à chacune des formes pleines et puis elle va coder on va coder si la forme pleine est présente

01:05:38

dans le segment et zéro si elle ne l'est pas côté je pulsois ce que dit la Gaëlle de la trace euro presse est absolument pas adapté à l'étude de la presse anglo-saxonne

01:06:00

il y a des bases de données qui sont bien meilleures pour la prise la pression anglo-saxonne je me souviens pas le nom de mes collègues québécois et j'utilise le roquestre franchement la presse anglo-saxonne a

01:06:16

été abandonné dans dans le reprise de mon point de vue il manque tous les Artis les journaux majeurs c'est je pense qu'aujourd'hui on peut pas se permettre de faire encore plus de presse en blocks sur la base de repas

01:06:29

je reviens à ma batterie donc cette matrice là va être le point de départ de deux des analyses qui sont un petit peu spécifiques des ravitaques à savoir les classifications hiérarchiques

01:06:41

descendante avec la méthode Runner et les analyses de Sylvie alors je vais passer assez vite sur le détail de la méthode Runner mais le point de départ de cette analyse ça va

01:06:57

être une matrice de ce type là chaque ligne est un segment chaque colonne est une forme plaie on code un si la forme est présent dans le segment et le but de cette analyse ça va être de réorganiser cette matrice de

01:07:10

façon à faire apparaître à mettre dans un sac un même groupe qu'on va appeler une classe les segments de texte qui contiennent les mêmes mots parce que on va postuler que s'il contiennent les mêmes mots c'est probablement qu'il

01:07:23

parle de la même chose et donc le but c'est de trouver une méthode automatique pour arriver à ces regroupements-là donc sur ce sur cette matrice là on pourrait tout à fait le faire à la main mais quand on a plusieurs centaines de milliers de lignes c'est beaucoup plus compliqué et

01:07:36

donc la stratégie lui proposait par un herbe consiste à réaliser une analyse factorielle des correspondances sur cette matrice ordonnée les lignes selon le gradient du premier

01:07:47

facteur et aller tester le long du premier facteur toutes les billes partitions possibles en calculant pour chacune des vies partition une valeur qui grosso modo correspond à la quantité

01:08:00

d'information que l'on extrait en coupant à cet endroit là donc l'algorithme va parcourir l'intégralité de la matrice le long du premier facteur de l'AFC et va essayer de déterminer quelle est la partition qui extrait le

01:08:12

maximum d'informations ensuite dans une deuxième phase il va inverser toutes les lignes d'une classe à l'autre une fois qu'il a trouvé l'endroit qui maximise cette première 8 partition il va donc inverser tous les

01:08:24

segments d'une classe à l'autre il va recalculer l'information extrait et si cette cette ce changement augmente l'information extraite il va le conserver sinon il va pas le conserver il va faire ça autant de fois que

01:08:38

nécessaire pour qu'il puisse parcourir l'intégralité de la matrice sans que plus aucun changement ne fasse augmenter la quantité d'information récupérée à la fin de cette phase là il a

01:08:50

déterminé les deux premières classes on va pouvoir commencer à dessiner le dendrogramme qui rencontre de ce découpage et l'étape suivante va consister à sélectionner la plus grande des classes de l'analyse et à refaire exactement la même chose il va refaire

01:09:03

une analyse factorielle sur cette petite matrice là rechercher l'habille partition qui maximise l'information extraite le long du premier facteur etc etc donc ce schéma il rencontre de d'une

01:09:17

partition en quatre classes et le nombre de classes terminales de à cette dans cette phase là c'est c'est une un paramètre de l'utilisateur qui est fixé à outrement par défaut à 10 dans les rapetèques c'est complètement arbitraire

01:09:29

et donc là on est dans la situation d'utilisateurs auraient demandé quatre classes terminales donc on avait notre première partition qui était ici entre la classe 1 et la classe 2 la classe 2 était la plus grande donc elle a été séparée en la classe 3 et la cascade qui

01:09:42

était ici qui était regroupement des classes 4 et 5 c'était la classe le plus grand donc elle a été séparée en classe 5 et classe 6 et ici si

01:09:52

15 / plus grosse ou plus grande inertie la classe qu'on divise c'est celle qui est la plus grande ombre d'éléments ou c'est celle qui a la plus grosse inertie il me semble que tu avais proposé une amélioration où j'ai DDT mais je m'embrouille peut-être non

01:10:11

par défaut dans l'algorithme de manière c'est la plus grande et dans l'algorithme de la version d'iranitec actuellement en ligne c'est c'est la plus grande également mais effectivement j'ai proposé un nouvel algorithme dans

01:10:24

lequel on va s'intéresser à l'homogénéité de la classe et considérer que la classe la plus hétérogène la plus intéressante à aller découper n'est pas forcément la plus grande ce qui est vrai dans plein de situations et du coup dans

01:10:36

ce nouvel algorithme on pourra lui demander de ne plus utiliser le critère de taille comme sélection de la classe mais un critère d'homogénéité mais cet algorithme n'est pas encore disponible donc voilà une fois qu'on a réalisé

01:10:51

cette partition on va par habitude de travail inverser le tableau et puis on va faire la somme de tous les 1 dans dans la version de développement en fait il

01:11:03

faut compiler ce code qui est en C++ pour une grosse partie et autant sous Linux ça prend aucun problème autant sous Windows et sous Mac c'est un peu chiant donc je cherche un moyen simple

01:11:15

de le mettre à disposition de travail on va récupérer ça ça ressemble beaucoup à un tableau lexical entier pour avoir l'impression d'une partition en haut et puis des mots en ligne avec un effectif et

01:11:32

il faut se méfier de ça parce que ça ressemble beaucoup à un tableau lexicainty mais c'est pas un tableau lexical entier parce que dans les tableaux lexicaux entiers l'unité c'est toujours une fréquence de mots donc unité c'est le

01:11:43

mot or dans ce tableau là la seule unité qu'on a manipulé jusqu'à présent ce sont des segments de texte et les valeurs numériques ici ne sont pas des fréquences de mots ce sont des fréquences de segment de texte la valeur 2 sous mon point rouge là signifie que

01:11:55

il y a deux segments de texte dans la classe 1 qui contiennent au moins une fois le mois et ça la fréquence du mois peut être différente s'il apparaît plusieurs fois dans les segments de texte donc ça c'est un tableau qui

01:12:08

résume les résultats on peut le représenter sous forme d'analyse factorielle des correspondances pour décrire des grands tableaux de contingence l'outil d'analyse qu'on va préférer dans

01:12:22

les rabutex ce sont les profils de classe donc c'est le fait d'aller déterminer quel est dans chacune des classes le lexique qui est statistiquement sur représenté on pourrait également transformer ça on

01:12:34

matrice de distance et calculer des grades de distance donc le calcul des profils de classe se réalisent de la façon suivante en fait on va faire pour chacun des mots du

01:12:47

corpus pour chacune des formes pleines on va le faire également pour les formes supplémentaires qu'on peut injecter à ce moment-là les mots outils d'ailleurs ne sont pas perdus qui participent pas à la classification et on va les réinjecter dans ce tableau là on va réinjecter

01:12:58

également les métadonnées dans ce tableau là et pour chacune de ces valeurs donc c'est les formes de plaids métadonnées etc on va calculer l'orchidée de liaison à chacune des classes sur la base d'un tableau de contingence à 4 cases

01:13:11

où on va opposer la classe à l'ensemble des autres classes et les segments ou les unités qui contiennent la forme aux autres segments donc on a un tableau à 4 cases on va calculer le Ki 2 de ce

01:13:22

tableau là et puis ici l'effectif qu'on observe de la forme dans la classe enfin des unités qu'on peut au moins une fois la forme dans la classe et supérieure à l'effectif théoriques on va considérer que le mot sur-représenté dans la classe donc il apparaîtra dans le profil de la

01:13:35

classe alors que si il est un sourd représenté enfin si effectivement théorique on va considérer que le mot est sous-reprété il va aller dans ce qu'on appelle des antiprofils c'est à dire les la liste des formes qui sont

01:13:49

particulièrement absentes d'une classe donc je vais tenter de vous montrer les paramétrage de cette analyse sur un partage d'écran on a un clic droit sur le nom du corpus

01:14:18

dans dans l'historique et puis là c'est classification pas vu semble-t-il tout à l'heure qui apparaît à chaque analyse je n'ai pas changé les paramètres et on arrive donc paramétrage de la méthode Runner alors

01:14:34

je ne vais parler que de l'analyse simple sur segment de texte les deux premiers paramètres concernent la double sur regroupement de segment de texte donc ne nous intéresse pas les paramètres qui vont vraiment on est sur des analyses exploratoires les

01:14:47

paramètres que vous allez utiliser ici vont avoir une énorme incidence sur le nombre de classes que vous obtenez et c'est ce qu'on cherche donc par contre il faut retenir qui sont

01:15:00

complètement arbitraire par exemple le nombre de classes terminales de la phase 1 a été mis à 10 j'ai dû prendre 10 parce que ça devait dix dans SS mais la probabilité pour que ce soit le meilleur paramètre pour votre corpus est

01:15:12

un film je trouve que pour ce corpus là ça va très bien mais quand vous travaillez sur des gros corpus vraiment augmenter cette valeur là il faut laisser le temps à l'algorithme de trouver toutes les théorogénéités qui viennent à

01:15:24

l'intérieur de votre corpus quand on travaille sur des tweets il faut faire x 10 par rapport à ce qu'on aurait pris normalement et puis si le corpus est tout petit faut pas hésiter à baisser cette valeur là donc quand les corpus

01:15:36

sont de taille raisonnables il faut pas hésiter à faire plusieurs fois les analyses en changeant ce paramètre en dessous vous avez le nombre minimum de segments de textes par classe alors dans cette analyse là par exemple on va

01:15:48

demander au logiciel de produire 10 classes mais il ne va pas afficher le 10 classes tout simplement parce que l'algorithme va éliminer les classes trop petites qu'il estime comme étant trop petite et cette valeur de la taille minimum d'une classe et calculer en

01:16:01

divisant le nombre de segments de textes par le nombre de classes que l'on demande par exemple dans ce corpus il y a 1682 secteurs logiciel va considérer que les classes qui auraient moins de 168 à long texte

01:16:13

sont trop petits si je mets 1 comme valeur ici je demande à l'algorithme de retenir toutes les classes qui contiennent au moins un segment de texte et toutes les classes contiennent au moins un segment de texte donc si je lui

01:16:25

mets le paramètre 1 j'obtiendrai 10 classes terminales donc avec ces deux paramètres là vous régulez complètement le nombre de classes terminales que vous obtenez le dernier paramètre qui est important c'est le nombre maximum de formes

01:16:37

analysés donc pareil servitraire c'est fixé à 3000 je pense que dans la prochaine version je mettrais 30000 comme ça on sera tranquille si votre corpus est vraiment massif il y a un vrai intérêt à conserver un maximum de place en fait il faut qu'une forme

01:16:50

apparaisse au moins trois fois pour participer aux analyses et je pense qu'il y a un intérêt à conserver toutes les formes de fréquence supérieure ou égale à 3 par contre la petite difficulté sur des gros corpus c'est que ça va augmenter le nombre de colonnes de la matrice et donc la mémoire nécessaire

01:17:04

mais bon de nos jours les machines vraiment beaucoup de mémoire le prix c'était écroulé pendant 50 ans on peut remonter mais ça va redresser un jour donc on aura pas je pense beaucoup de rames dans nos machines donc faudra

01:17:15

pas hésiter à augmenter cette valeur là je vous parle pas du mode patate parce que le temps avance donc j'ai lancé cette analyse qui va sur des corpus comme ça relativement vite méfiez-vous quand même quand la taille

01:17:33

des corpus augmente fortement c'est des analyses qui peuvent vraiment durer des plombes voilà donc vous voyez les résultats ils sont affichés chez vous

01:17:50

mais écoute oui une violette ok donc les résultats s'affichent comme ça donc vous voyez vous souvenez on a demandé au logiciel dit classe terminale vous avez en dessous originel si vous

01:18:05

comptez les classes terminales de temps de programme vous verrez qu'il y en a 10 toutes celles qui sont marquées dans zéro sont des classes qui étaient trop petites pour être conservées au final il conserve cinq classes qui regroupent

01:18:17

80% donc c'est tout à fait raisonnable il est un certain nombre de séquences quand vous voyez les graphiques comme ça dans les ravita qui ça veut dire qu'ils sont sauvegardés sur votre disque dur dans le répertoire de l'analyse et la

01:18:31

plupart du temps vous pouvez refaire ces graphiques donc par exemple en changeant les barres pour des camembert donc la taille de ses barres proportionnelle au nombre de segments de

01:18:43

texte qui ont été rassemblés dans une case autrement dit il y a plus de classe de segment de texte dans la case 2 dans la classe verte on pourrait dire qu'elle c'est une thématique qui est plus fréquemment abordée dans la presque la classe verte ce qui est très pratique

01:18:55

c'est ce bouton là qui permet de faire des avec un début de profil des classes sous chacune des classes et généralement le l'analyse passe le plus clair de son

01:19:10

temps sur la partie intitulée profil donc qui contient ce qu'on appelle les profils c'est-à-dire la liste du lexique sur-représenté dans ces classes qui est ici ordonnée par qui de décroissant donc

01:19:24

vous voyez la première classe ici tourne propose un laxique autour des mouvements sociaux mouvements congrès blocage semaine manifestation examen etc etc donc les profils se composent de la façon suivante vous allez d'abord les

01:19:37

formes pleines en gris en dessous vous avez les mots outils en turquoise on va dire et tout en bas les métadonnées donc première remarque les mots outils ne sont pas perdus et la

01:19:50

présence des métadonnées c'est là où on va pouvoir étudier le lien statistique entre ces métadonnées et les thématiques donc pour interpréter ces profils de classe qu'on fait généralement c'est qu'on essaie de comprendre de quoi parle cette classe de discours quelle est la

01:20:02

thématique regroupée représenté par cette case de discours on utilise de préférence le lexique qui a le qui2 le plus fort c'est le plus sûr représenté dans cette classe-là alors

01:20:15

pour bien analyser ou bien comprendre ça il faut savoir à quoi correspondent les valeurs numériques que vous avez dans les colonnes donc je vais revenir rapidement sur ces notions là donc la première valeur qui est marquée nul c'est juste pour pouvoir remettre le

01:20:26

profil dans cet ordre là c'est en identifiant de lignes qui n'a pas d'autre signification le deuxième colonne qui est notée FST c'est le nombre de segments de textes qui contiennent au moins une fois le mot

01:20:40

plus intéressant et qui ont été mis dans la classe que vous regardez donc moi ça me dit qu'il y a 48 segments de textes qui contiennent au moins une fois le mouvement qui ont été mis à classe 1 la valeur d'un côté noté F total c'est le

01:20:51

nombre total de segments de texte parmi ceux qui participent à la classification finale qui contiennent au moins une fois le mot que je regarde et la colonne pourcentage donc là la première valeur divisée par la deuxième autrement dit je

01:21:04

pourrais dire que 71% des segments de textes contenant au moins une fois le mouvement était placé dans la classe 1 dans cette année à côté vous avez deux donc une valeur numérique qui plus à l'effort plus elle vous indique la sur-représentation de la

01:21:17

forme dans la classe la catégorie grammaticale la forme est tout au bout le seuil de significativité associé à ceux qui donc vous avez un onglet pour chacune des classes avec la taille des onglets la taille des classes exprimée

01:21:29

en segment de texte et donc la première étape consiste à parcourir ces classes ces profils de classe d'abord en essayant de repérer la thématique principale et puis en regardant quand

01:21:41

même en allant plus bas dans le profil pour voir s'il y aurait pas d'autres thématiques parce qu'une classe peut être hétérogène dans le sens où elle peut contenir différentes thématiques ce qui veut tout simplement dire qu'on n'a pas assez découpé le segment le corpus

01:21:55

on aurait pu demander plus de place sachant qu'on peut par ailleurs exporter des classes comme des sous corpus dans les rabuthèques c'est une option que vous trouverez en mettant un clic droit sur le nom du corpus vous avez ici l'option qui s'appelle sous corpus par

01:22:07

classe et qui vous permet de générer des supports plus à partir de une ou plusieurs places pour pouvoir éventuellement leur refaire une classification dessus si vous avez perçu de l'hétérogénéité voilà vous avez

01:22:23

des outils qui sont à votre disposition pour vous aider à interpréter ces classes donc vous les trouvez soit en mettant un clic droit à l'intérieur des profils soit en mettant un clic droit sur le nom de l'analyse dans

01:22:35

l'historique donc par exemple on peut faire je sais pas moi regarder les projeter les petits deux par case dans le groupe de mots alors ça vous devez pas le voir parce que c'est pas sur le bon écran en fait

01:22:53

voilà ça c'est un grave qui nous dit que les mots que j'ai sélectionné sont sur représentés dans la classe 1 on peut réaliser un grave de classe qui est un outil assez pratique parce que ça nous donne

01:23:08

une autre lecture de la composition d'une classe alors je vais je fais rapidement donc en fait cette analyse va consister à réaliser une analyse de similitude sur

01:23:28

les segments de la classe je vais enlever étudiant et donc ça va nous donner une autre lecture de la classe des fois c'est assez difficile de percevoir de l'hétérogénitaire à l'intérieur d'une classe sur la base du seul profil de

01:23:43

classe alors que dans ce type de graphe là ça peut être assez parlant directement graphiquement parlant le fait qu'il est interroger dans une classe ça peut être aussi un bon outil pour communiquer sur le profil d'une classe j'ai remarqué que les gens

01:23:55

comprennent assez intuitivement ce type de graves de relation entre les mots à l'intérieur d'un corpus de texte d'une classe voilà donc vous avez une série de petits outils qui peuvent vous aider à

01:24:09

interpréter ces classes là parmi les plus intéressants vous avez ce que j'appelle les segments de textes caractéristiques x ça va vous lister les segments de texte les plus lourds de la classe donc les plus représentatives de

01:24:20

la classe et par défaut sans liste du cinquantaine donc on parcourant ces segments de texte là souvent on a une idée assez claire du type de discours qui a été regroupé dans une classe

01:24:35

donc vous avez d'autres outils ici un qui est assez pratique donc vous avez les anti-profils que vous pouvez ouvrir à partir d'ici donc ça va vous ouvrir les mots qui sont ça va vous montrer les mots particulièrement absents d'une case

01:24:47

vous avez également les profils des segments répétés sont très pratiques parce que même dans un tout petit contexte de deux ou trois mots la plupart des mots vont perdre de leur ambiguïté donc souvent

01:25:01

une des difficultés d'interprétation de ces profils c'est que les mots apparaissent dans des listes comme ça et puis dans beaucoup de langues avec nous pour avoir présente et du coup soit on connaît très bien le corpus on l'a lu auquel cas il y a

01:25:16

aucune difficulté quand on a fait des entretiens semi-directifs on a entendu les mots les heures retranscrits donc aucun problème par contre quand on travaille sur des gros campus de presse par exemple souvent on les a pas lu parce qu'il faudrait plusieurs années pour les lire

01:25:28

donc on les lie pas et du coup on est assez méfiant sur la signification qu'on va accorder au mot alors que donc pour se rassurer quelque part on va aller regarder le profil des segments répétés pour vérifier que la signification qu'on

01:25:41

a donné aux classes aux mots correspondent bien ils ont les segments répétés les mots vont être dans des petits contextes de 2-3 mots ils vont la plupart du temps perdre tout en difficulté ça va nous rassurer sur la

01:25:53

signification qu'on a donné qu'est-ce qu'on a d'autre qui pourrait être intéressant le dernier outil que vous avez lié à cette analyse c'est des graphiques d'Alice factorielle des correspondances qui sont réalisées sur le tableau qui

01:26:18

résume la classification donc ça nous raconte un petit peu la même chose que le dendrogrades vous pouvez les mettre en parallèle d'androgramme ici nous parler d'une séparation une première grande

01:26:31

séparation qui mettait la classe rouge et grise d'un côté et puis les classes vertes bleues et mauves de l'autre côté et c'est exactement la forme à retrouver sur le FC avec lesquels les classes rouge et grises d'un côté du factorat et

01:26:44

les classes vertes rouges et bleu de l'autre côté méfiez-vous des analyses enfin des représentations en deux dimensions des minis factorielles dès que vous avez plus de trois classes dès que vous avez plus de dimensions par

01:26:57

exemple ici on pourrait penser que la classe verte et la classe bleue sont superposés au même endroit en fait si on regarde ce graphique en trois dimensions elles sont complètement d'un côté de l'autre du troisième facteur qui est ici

01:27:09

perpendiculaire à l'écran donc vous pouvez refaire ces analyses avec le petit outil que vous avez en haut à droite ici [Musique] les graphes et vous pouvez les faire en trois dimensions ça va vous montrer des

01:27:22

graphes en 3D donc là je vais même pas essayer avec le partage d'écran vous avez un graphe pour les formes pleines un grave pour les motifs pour les métadonnées un grave pour les classes tout ça est enregistré sur votre

01:27:39

disque dur et vous pouvez reproduire refaire ce graphe changer la taille etc et ça sera automatiquement enregistré sur votre disque dur je vais arrêter là pour retourner là vous parlez d'une

01:27:58

autre je passe là dessus je passe sur cet exemple une autre analyse disponible dans les ravita donc celle-là est très classique c'est les recherches de spécificité vous

01:28:38

la retrouverez dans txn dans Lexico sur hyper base Web vous avez aussi des spécificités c'est assez classique donc le point de départ c'est un tableau lexical entier la partition a été

01:28:51

décidée par l'utilisateur et ça va permettre d'étudier quel est le lexique qui caractérise chacune des parties du texte ça se fait sur la base de la loi hyper géométrique tout ça est super bien

01:29:04

expliqué dans la très bonne documentation de TXM donc je vous renvoie à la documentation de txn pour comprendre ce que sont les spécificités grosso modo ça va revenir à calculer

01:29:16

pour chacun des mots si il est sur ou sur représenter d'un point de vue statistique dans une partie quand on compare cette partie à l'intégralité des autres parties du corpus on utilise classiquement la loi hyper

01:29:29

géométrique on peut utiliser ça donne des résultats tout à fait équivalents et généralement ces analyses sont associés à des indices factorielles des correspondances puisque commencer embêter à construire un gros tableau de

01:29:41

contingence et Bénédicte nous donne la nouvelle la nouvelle adresse de la documentation donc on associe ça à des iris factoriel des correspondances mais puisqu'on a le

01:29:54

tableau de contingence c'est gratuit alors ici par exemple vous voyez une année factorale des correspondances qui a été réalisé sur des corpus qui ont été extraits des sites web des partis politiques donc la partie

01:30:05

actualités d'Europe Écologie verte et du FN qui ont été d'abord découpés en classe une classifications spécificité sur ce gros corpus l'objectif c'était de voir s'il y avait

01:30:22

des classes identiques des classes de discours identiques entre chacun de ces parties et là et où des classes spécifiques et si on regarde la répartition de nos classes vous pouvez voir ici là dans cette zone une zone qui

01:30:36

contient à la fois des classes bleues qui sont des classes du Front national des classes roses qui sont des classes du Parti socialiste et des classes vertes qui sont des classes d'Europe Écologie Les Verts et cet endroit là

01:30:47

c'est ce discours là autour de l'Europe milliard chômage etc c'est le discours économique qui est dans la politique française moderne un discours obligatoire ne peut pas

01:30:59

de passer de ce discours là quand on veut être un parti politique crédible ensuite maintenant si on regarde ici vous voyez que là vous avez une zone qui ne contient que des classes du Parti socialiste et c'est la zone du discours

01:31:12

sur l'éducation nationale qui est une thématique particulièrement investie par le Parti socialiste ici vous avez une zone qui ne contient que des classes du Front National et c'est la zone

01:31:26

c'est la zone ici de l'umpas de l'immigration de la délinquance etc donc un discours assez caractéristique du Front National et puis enfin vous avez toute cette zone ici qui contient que des classes d'Europe Écologie Les Verts

01:31:40

et c'est le nucléaire l'énergie l'énergétique l'écologie en général bref le discours qui caractérise Europe Écologie donc ça c'est un des intérêts de ce type d'analyse qui permet de regarder les proximités les distances entre 15 et en fait finalement ça permet

01:31:53

de regarder les proximités les distances entre les colonnes des tableaux qu'on met dans l'analyse ici c'est le même corpus mais on l'a utilisé comme marqueur de partitions et

01:32:06

les dates auxquelles ont été extraits les actualités alors c'est très intéressant pour deux raisons d'abord vous voyez ce qu'on appelle un effet gutmanche ici qui est très caractéristique des séries chronologiques textuelles André salade

01:32:20

le montre très bien ça donc qui nous montre finalement là une lente évolution lexicale au cours du temps donc c'est une cette forme en cloche vous le retrouverez à chaque fois que vous avez

01:32:33

encore plus donc homogène en thématique qui évoluent sur de longues périodes temporelles le deuxième intérêt c'est que cette date là noté ZZ c'était la date qui était associée au projet du

01:32:45

Front national qui n'était pas daté en fait au moment de l'extraction et bah ici l'intérêt c'est qu'on va pouvoir dater ce projet de quelque part entre 2011 et 2012 c'est la vue la position de la variable il semblerait qu'il

01:32:58

contienne un lexique caractéristique de 7 temporalité là et comme il se trouve que c'était le projet du rassemblement du rassemblement national pour l'élection présidentielle de 2012 mais

01:33:09

ça assez cohérent de le retrouver ici un autre exemple de de cette évolution lexicale chronologique c'est ici un très gros corpus des débats à l'Assemblée

01:33:25

nationale entre 1998 et 2016 et vous voyez que non seulement donc on retrouve cette forme en cloche on repère également assez facilement des changements de législature il y a eu une élection entre 2001 et 2002 donc c'est

01:33:39

le passage de la gauche plurielle on retrouve ici une rupture entre 2011 et 2012 avec l'élection de François Hollande et une nouvelle majorité de gauche donc ça permet de repérer ce phénomène qui est assez classique d'évolution lexicale en forme de cloche

01:33:58

ça permet également de repérer des ruptures dans le Mexique alors avant de passer à ça petite démonstration de ça dans ira du Tech donc je me copie moi cette adresse de la

01:34:20

doc de txn pour mettre à jour mon diaporama est-ce que vous allez récupérer le partage d'écran alors pour moi oui oui on a bien récupéré le partage d'écran et on mettra

01:34:34

toutes les infos de la discussion dans sur le site de Mathé donc le lien TXM aussi merci ok donc pour faire une analyse de spécificité dans les rabutex c'est toujours pareil on a un clic droit

01:34:47

sur le nom du corpus on choisit spécificité AFC toujours cette petite fenêtre de paramétrage on fait OK et donc vous avez ici donc vous avez la possibilité de le faire soit en sélectionnant une variable donc ici par

01:35:00

exemple la source ce qui va nous intéresser par exemple ce serait de regarder [Musique] les différences entre notre 4 journaux alors ça ça marche parce que les métadonnées ont été correctement formatées c'est-à-dire que je peux me

01:35:12

permettre de prendre la source parce que je sais que je vais dire au logiciel de récupérer toutes les modalités associées à la source si vous n'avez pas correctement informé vos métadonnées vous pouvez tout à fait

01:35:24

aller chercher dans les modalités et aller récupérer manuellement les quatre modalités de cette variable moi je vais rester sur variable je sélectionne la source ici vous avez deux

01:35:37

indices possibles donc la loi hyper géométrie cultivée qui vont vous donner des résultats très proches la fréquence minimale d'une forme pour être prise en cause et puis par défaut l'analyse est réalisée à la fois sur les

01:35:49

formes actives et sur les formes supplémentaires je vais restreindre ce calcul au format active en calcul qui va très vite donc le calcul le résultat du calcul que vous avez ici il est réalisé à partir du

01:36:05

package de textométrie de R qui est un package qui a été développé dans le cadre du logiciel txn que j'ai emprunté au collègue lyonnais et donc par défaut donc vous voyez vous avez beaucoup d'Anglais le premier

01:36:18

anglais ce sont les spécificités la valeur numérique que vous voyez ici vous pouvez la traduire comme étant à peu près le l'exposant du seuil de significativité associée à ça donc Bénédicte tu as dit

01:36:34

toujours mieux que moi mais grosso modo quand vous allez la valeur neuf ici ça veut dire que vous avez une chance sur 10 puissance 9 d'avoir une fréquence du mot entreprise aussi élevée dans le

01:36:46

journal Le Figaro étant donné ce qu'elle représente dans le reste du corpus donc ça fait une chance sur un milliard on est ici sur une forte sur représentation du mot entreprise dans le journal Le Figaro et en cliquant sur les colonnes

01:37:00

vous pouvez avoir apparaître les mots qui sont sur représentés dans l'humanité les mots qui sont sur représentés dans le monde etc etc vous avez quelques outils associés à

01:37:13

cette analyse donc le fait de faire des graphiques sur ces sur représentations le fait de déterminer les segments de texte caractéristiques de chacun des journaux dans cette univers des spécificités

01:37:24

l'onglet suivant est intitulé formal donc autrement dit vous avez ici les mots qui ne sont ni sur représentés ni sous-représenté dans aucune de vos parties ça c'est très intéressant c'est

01:37:36

à dire que c'est un lexique qui est présent dans les mêmes proportions dans chacun des journaux on pourrait parler un peu de lexico-bliger quand on traitait quand les journalistes traitaient de cette thématique là à ce

01:37:49

moment-là ils utilisaient supérieurs enseignants premier école formation établissement dans les mêmes proportions ça ne caractérise pas les journaux ensuite vous avez des spécificités des

01:38:00

catégories grammaticales les le tableau de contingence brut des formes donc il y a absolument impossible à interpréter directement mais que vous pouvez utiliser pour faire une fc dans un logiciel particulier le tableau des fréquences des catégories

01:38:15

de pareil difficilement interprétable en brut comme ça mais peut être utile dans d'autres contextes les formes relatives qui sont mis en pour 1000 donc là on peut comparer entre les colonnes mais on ne sait pas si les

01:38:29

différences que l'on observe sont significatives pour voir ça il suffit d'aller dans le tableau de spécificité et la même chose pour les catégories grammaticales cette analyse est associée à une

01:38:41

factorielle des correspondances vous avez un plan pour les mots et un plan pour les colonnes bien souvent c'est le plan des colonnes qui va nous intéresser ici on va retrouver le journal Le Figaro isolé enfin c'est pareil des trois

01:38:53

autres journaux par le premier facteur ce qui est assez classique quand on émet que ces quatre journaux là dans l'analyse et pareillement donc vous voyez par défaut le plan factoriel des loups est assez

01:39:03

moche mais vous pouvez le refaire par exemple en lui demandant de limiter au 80 mots [Musique]

01:39:21

et je vais arrêter et relancer est-ce que c'est bon alors là on voit deux plans factoriels c'était ce premier plan là qui est le plan des mots et celui que vous avez en dessous c'est le plan le dernier que

01:40:09

vous voyez c'est un plan que j'ai refait avec cet outil là et qui il faut le refaire assez directement puisqu'il est beaucoup plus joli donc les options que j'ai activé ici c'est je lui ai dit de prendre les

01:40:21

80 mots les plus spécifiques de chacune des colonnes et j'ai cliqué sur empêché les recouvrements pour que les mots ne s'écrivent pas les uns sur les autres et du coup il m'a produit ce plan factoriel là dans lequel les mots sont

01:40:34

lisibles en fait ce que j'aurais dû faire pour rendre ça encore plus visible c'était de cocher l'option taille du texte proportionnelle au Kido donc en fait il va faire que la taille des mauvaises proportionnelle alors

01:40:45

score de spécificité ce qui rend généralement le plan encore plus facilement lisible voilà je vais m'arrêter là je pense parce qu'il reste un quart d'heure je vais vous laisser le temps de me poser

01:40:59

quelques questions on verra pas les analyses de similitudes mais je vous ai montré un exemple sur les graphes de classe vous avez la description dans le diaporama de comment fonctionne les analyses de similitude c'est relativement simple on construit une

01:41:11

matrice de similitude avec l'un ou l'autre des indices disponibles dans la littérature et on représente ça sous forme de graphe ça donne une lecture assez intuitive des relations entre les mots c'est moins

01:41:23

précis qu'une classification quand il s'agit d'aller étudier précisément un texte quand l'objectif est de déterminé de quoi il parle précis qu'une classification mais c'est un très bon outil par exemple d'aide à

01:41:35

l'interprétation des classes alors si j'arrive à arrêter à récupérer ma souris voilà j'arrête ma souris partage d'écran je remets ma caméra j'aurais autorise ma caméra je prenais ma caméra

01:41:56

et je vous écoute pour vos questions c'est pardon parce que tu dis tu remets ta caméra et c'est moi qui a parlé en premier alors j'ai commencé par te remercier pierre pour la présentation sur dire à mutail et puis des d'avoir

01:42:10

déjà répondu aux nombreuses questions qui étaient dans le chat je sais pas du tout s'il y a d'autres questions chez les participants alors on

01:42:21

est nombreux mais si jamais vous souhaitez poser votre question à l'oral on peut on peut tenter moi j'avais juste une petite besoins de précision là sur ta maman tu as parlé de

01:42:39

définir les caractères qui étaient admis dans le corpus et que ça te permettait de traiter les enfin de gérer et surtout d'exclure les smileys c'est-à-dire que c'est des smileys sous forme d'image ou

01:42:53

smiley si je sais pas du tout deux points parenthèses fermantes alors la règle de nettoyage en fait j'ai mis en place quand j'ai commencé à analyser beaucoup de corpus du web les tweets notamment etc j'imagine vraiment très

01:43:06

très sale donc c'est un avantage dans ce sens là dans le sens où ça nettoie rapidement tous les textes de 1001 caractères qui moi ne m'intéresse pas encore une fois j'ai des collègues que eux ça m'intéresse donc il faut vraiment choisir ça et donc dans cette liste là

01:43:20

j'ai même enlevé le arobase par exemple qui moi ne m'intéresse pas mais pour d'autres ça peut être intéressant donc on peut rajouter des caractéristiques je trouve que tous les smileys sont rentrés dans le KFC tous les smileys grande image c'est en fait un caractère

01:43:33

a été fait qui est reconnu dans beaucoup de jeux de caractères et donc on peut tout à fait les copier-coller dans cette liste là ils vont apparaître comme un smiley mais en fait c'est un caractère en forme de smiley et donc moi j'aimerais bien enfin je vais intégrer je pense ni raconter que possibilité

01:43:46

d'avoir les smileys en variable supplémentaire puisque quand j'analyse des tweets c'est super intéressant de voir une classe marquée par un smiley qui fait la gueule ou par un smiley qui rigole donc j'aimerais bien faire ça mais on peut déjà un peu le faire en rajoutant

01:43:59

tout simplement les smileys dans cette liste là par contre ils vont traiter comme des formes pleines on peut aussi les rajouter dans les dictionnaires après les smileys ça a l'air simple comme ça mais quand j'ai commencé à m'intéresser au truc en fait il y a beaucoup de smileys qui sont codés sur

01:44:12

un code du TH8 et d'autres qui sont codés sur deux codes et ça c'est très compliqué l'air d'arriver à faire de la totalisation de smiley tout simplement à mettre un espace entre deux smileys c'est assez compliqué parce que ils sont

01:44:25

pas tous codés de la même façon on peut rajouter des caractères dans cette liste là si on veut les conserver si on veut les conserver le dièse par exemple pour les hashtags quand on veut distinguer les hashtags des autres mots si on veut conserver leur base pour

01:44:41

les mentions sur Twitter on les rajoute dans cette liste là ils seront pas éliminés mais du coup merci pour le pour la réponse mais aussi merci pour le développement d'iramutech parce que finalement c'est la deuxième fois que tu

01:45:00

tu présentes et il y a quand même une feuille de route qui est effective et qui est en action et on sent quand même qu'il y a le l'évolution de l'outil pour répondre à de nouveaux besoins qui

01:45:13

sont différents et que mais que derrière ça suit donc bravo alors du coup il y a des questions qui sont arrivées dans le chat il y a Baptiste complètement dans la ligne droite de ce que tu viens de dire

01:45:25

Baptiste qui demande merci donc ma question le maintenance du logiciel participer à celle-ci oui aucun problème tu vois un bug au premier DIF enfin voilà au premier patch qui passe tu

01:45:38

auras le droit d'écriture sur le dépôt des rabutex il y a aucun souci la documentation avec plaisir si vous allez voir sur le site web durabutech donc quel a documentation qu'on a écrit avec Lucie ouvert toutes les autres

01:45:50

documents les tutoriels etc c'est des collègues qui les ont spontanément proposé et je leur ai demandé gentiment s'il acceptaient que je les mettre en ligne et la plupart d'entre eux ont accepté donc aucun problème pour des

01:46:02

propositions de modification de code [Musique] ou de documentation alors sur le dépogite donc je vous l'ai dit tout à l'heure dans le déploji qui a deux branches actuellement la branche master

01:46:14

qui est le code en python 2 il y a une branche qui s'intitule toi trois points 0 qui est le développement en Python 3 et quitte à mettre du code mettez le plutôt sur la branche 3.0

01:46:27

puisque la va devenir master de TF1 je sais pas quand c'est le meilleur prochainement ce qui est un mensonge elle va devenir master un jour mais un jour

01:46:40

et après est-ce que le logiciel est adapté à l'analyse de mail d'un réseau de personnes alors oui en première intention je dirais oui c'est adapter l'analyse de mai je suis tout à fait d'accord avec

01:46:55

votre commentaire sur Le fait qu'effectivement ça dépend vraiment comment vous récupérez les mails parce que si c'est une seule conversation vous prenez juste le dernier mail si tout le monde a fait répondre à chaque fois vous

01:47:07

prenez le dernier mail et là vous n'aurez qu'une fois chaque message mais effectivement si vous récupérez les mails chez chacun des intervenants vous allez avoir plein de doublons et je pense qu'il serait pertinent de dédoubler

01:47:18

là je pense que c'est ultra pertinent de le faire mais que ça va demander un gros travail de formatage ça dépend vraiment l'ampleur de la de la collection ça va demander du formatage après normalement les mails c'est assez bien informé il y

01:47:33

a des marqueurs pour les réponses rares donc on doit pouvoir trouver un petit moyen de automatiser un peu la tâche repérer de qui il a écrit puisqu'on a le marqueur 2 bref je connais pas bien le format de base des mails je sais que

01:47:46

c'est formaté et quand c'est formateurs normalement on peut automatiser la construction de corpus alors soit si vous savez pas faire vous enfin pour un informaticien même débutant normalement

01:47:59

c'est le verbe d'aller par ces fichiers textes ou équivalent texte comme du HTML ou l'équivalent de HTML utiliser dans les votre proposition elle est vraiment hyper intéressante parce que ça fait très longtemps que je me dis qu'il y a

01:48:17

sûrement de super boulot à faire en étudiant les mails et j'en ai rarement vu passer dans la littérature je croise rarement des analyses portant sur les mails il y a peut-être prévenu une petite difficulté notamment dans la

01:48:31

gestion de l'anonymat des sujets qui rapportent à la confidentialité des échanges ce genre de choses qui doit être une barrière mais je trouve ça hyper pertinent alors est-ce qu'il rajoutait qui a été

01:48:47

utilisé pour l'oral avec un texte des productions de chaque locuteur pour les comparer je sais pas ce que vous entendez par un iramique a déjà été utilisé sur de l'oral on l'utilise beaucoup pour analyser des entretiens

01:49:00

semi-requis je sais pas si vous pensiez à 100% à l'oral donc pour ces hyper fréquent que des collègues utilisés en luthèque pour analyser des entretiens semis directifs

01:49:13

et après un texte de production de chaque locuteur pour les comparer oui tout à l'heure excusez-moi non je pensais pas forcément du tout même à des entretiens je pensais plus un autre et plus dans des

01:49:25

interactions et je me disais que ça pourrait quand même être intéressant aussi de voir comment si on a par exemple des certains marqueurs forts donc il serait qu'on extrait qu'on retirerait bien sûr des mots outils parce qu'ils sont très fréquents et voir

01:49:37

s'ils étaient plus utilisés par un locuteur plutôt qu'un autre parce qu'un locuteur tel ou tel je sais pas tel ou tel rôle par exemple dans une réunion de travail des choses comme ça ou dans une dans un commerce je sais pas un vendeur

01:49:49

par rapport à un client ce genre de choses et ça m'intéressait et je me disais que du coup est-ce que c'est un texte qu'on va faire un texte parlocuteur et on va les comparer parce que c'est un peu compliqué il faut pas qu'on perde le locuteur et les productions sont souvent très courtes

01:50:02

l'exemple du Abba que vous avez donné tout à l'heure par rapport aux phrases de pouce par exemple mais je me demandais un petit peu comment les gens avaient l'habitude d'organiser les choses parce que enquêteur c'est plus enquêteur et interviewer j'imagine

01:50:14

oui mais on l'utilise aussi pour analyser des focus group et là les focus group ça ressemble vraiment à l'interaction donc il y a plein de profonds différentes de le coder mais on peut tout à fait mettre quatre étoiles locuteurs Pascal et ce locuteur Pascal

01:50:27

peut revenir 40 fois donc en plus il y a aucun problème c'est une métadonnée comme une autre et donc j'ai déjà vu passer des corpus comme ça de conversation codées avec une ligne étoilée pour chaque prise de parole ça marche très bien et vous obtiendriez

01:50:40

exactement le type de résultat auquel vous pensez c'est à dire être capable de dire que Pascal emploie significativement plus tel mot versus l'autre locuteur qui est encore et l'intérêt c'est que par exemple vous

01:50:52

pouvez ajouter d'autres marqueurs de que le nom du locataire merci beaucoup à nous dire ce qu'il y a de plus comparativement à une analyse les

01:51:06

psychologique sur Sphinx je sais ce qu'il y a de moi c'est le prix vous n'avez pas payé à luthèque alors que vous avez payé Sphinx je j'avoue que ça fait longtemps que j'ai pas utilisé le

01:51:19

Sphinx dans sa version lexicale même si je croise régulièrement son auteur fondateur de l'entreprise je sais qu'il avait implémenté mais je l'ai vu

01:51:30

présenter via d'été une analyse qui ressemble un peu il y aura du Tech enfin une classification rennaire que j'avais pas trouvé complètement abouti mais comme il fait très longtemps que le développeur de fréquente les journées

01:51:43

d'analyse statistiques des données sexuelles donc c'est vraiment un spécialiste du domaine donc j'imagine qu'ils ont vu vraiment progresser du point de vue des analyses lexicales dans le Sphinx ça fait longtemps que j'ai pas utilisé

01:51:56

pour l'analyse de l'aide il y a l'homme un logiciel libre d'analyse de traitement des messages ça c'est pas mal je découvre et je le note pour le coup ferait se rapproché de Frédéric pour voir où s'en est au niveau

01:52:10

de la maintenance parce qu'effectivement enfin c'est on l'a précisé avec 20 euros presse quand les standards de documentation évoluent quand les champs évoluent généralement les on peut voir quelques scripts qui tombent mais donc

01:52:22

là il y a pas il y a Frédéric verniaux là qui est dans le périmètre de ma télé ce que vous pouvez contacter sans aucun problème un truc qui me sauve c'est que je pense que le formatage des mails n'a pas changé depuis les années 90 donc a

01:52:35

priori alors sauf que des fois on passe par une couche logicielle les solutions Office Windows et donc les afficher en texte brut a priori il y

01:52:52

a rien de plus simple et en plus il y a eu un tuto mat sur sur l'âme voilà c'était le troisième tuto et du coup alors j'ai loupé des questions d'autres

01:53:28

questions mais sur le l'impôt de corpus europépress aujourd'hui si je prends un corpus euro presque je le passe avec le

01:53:40

europarts que tu as indiqué je vais pouvoir l'intégrer dans eramutech directement alors attention c'est si tu as extrait les articles de

01:53:52

retrait en html l'option extraire en html ça dépend de l'abonnement de l'université et même nous qui sommes abonnés à ça

01:54:03

on est obligé de passer par un chemin assez biscornu pour arriver à pouvoir extraire les fichiers en HTM et ça fait quand on se connecte sur Europe presse on a un en haut à droite où il y a

01:54:18

marqué version enfin il y a marqué étudiant par défaut il faut aller sur ce qu'ils appellent la version classique une fois qu'on est sur la version classique il faut aller il faut faire deux clics pour arriver à la recherche

01:54:30

en mode avancé et seulement en passant dans cette version classique on a le bouton qui permet d'exporter 1000 par 1000 les articles en HTML et par ailleurs

01:54:45

j'ai quelques témoignages de collègues qui se sont fait blacklistés de repress pour avoir extrait trop d'articles donc il faut vraiment se mettre en mode je

01:54:58

fais une petite heure d'extraction à un moment j'arrête je refais une petite heure d'extraction un autre moment sinon il vous repère et pour les collègues qu'on a fréquenté et qui ont carrément

01:55:09

été voir les gens de reprise pour leur expliquer que c'était galère de construire des corpus avec Euro presse les gens ne reprennent oui mais c'est pas du tout fait pour ça a priori ils ont pas du tout construit

01:55:21

un outil pour simplifier la construction de corpus c'est un outil de visionnage d'actualité en ligne mais c'est pas fait pour automatiser la construction de corpus mais écoute ça vaut peut-être le coup de

01:55:36

se rapprocher de repress parce que là il y a hier je pense c'est l'orange égout que peut-être de piratineau connaît parce qu'il est maître de conf en géographie à l'Université de Toulouse qui s'est plaint sur Twitter que

01:55:50

WordPress ne mettait pas à disposition correctement les images des cartes et il y a eu une réponse de repress en disant que il prenait en compte la remarque et qu'ils allaient essayer d'en tenir compte

01:56:29

alors comment je peux récupérer le lien de cette intervention de ça je vais laisser Benoît répondre si le corpus comprend des annotations qu'on aimerait consulter dans les segments affichés peut-on les

01:56:41

retirer des occurrences des rabutèques est-ce qu'on les conservera dans l'affichage des segments alors des annotations oui par exemple des mots qu'on que vous auriez donné comme mot supplémentaire si c'est pas les

01:56:54

catégories aucun problème alors il reste affiché dans les segments en fait les segments sont redonnés de gouttes de pomme indépendamment de la nature des formes qu'elle soit pleine de supplémentaires donc quand ils seront dans l'affichage

01:57:08

et on peut les retirer des occurrences on les retire pas des occurrences mais ils sont comptés comme dans les formes supplémentaires par contre ils sont comptés quel que soit la forme qu'on leur donne

01:57:22

il y a un moyen de contrôler complètement des mots c'est les mots qui commencent et qui se terminent par un tiret qui vont être par défaut des motifs sans qu'on ait besoin des intégrer au dictionnaire

01:57:37

mais votre côté par contre une occurrence comme un autre d'accord super alors écoutez chers participants et il est un peu plus de 16h

01:58:00

j'ai envie de mettre un terme à ce tuto parce que déjà pierre intervient depuis deux heures dans une position qui est qui est pas toujours évidente

01:58:13

maintenant c'est un peu celle que certains d'entre nous ont connu quand on a fait cours et que c'est quand même assez fatigant et en plus il a dû faire face à des difficultés techniques donc qui est surmonté avec panache donc

01:58:26

vraiment merci et bravo puis en plus du coup là je vois le nombre de participants qui commencent à baisser donc je vous propose [Musique]

01:58:39

d'arrêter ici et puis donc merci Pierre pour le la qualité de ton intervention c'est un besoin de savoir à quel point les SAS ont besoin de solution libre pour pouvoir travailler je pense que le

01:58:51

nombre de participants peut en être un bon indicateur donc merci à toi pour ces tutos là dont je vois en plus qui progresse je trouve mais c'est de

01:59:03

plus en plus facile c'est lié je pense à la fois au progrès du bouton mais aussi l'expertise de l'équipe d'accueil et des participants et des participants enfin

01:59:16

c'est on a quand même la qualité de nos interventions que ce soit des tutos ou des formations des journées annuels repose aussi beaucoup sur les participants qui sont là donc merci à tout le monde d'avoir été présent et

01:59:30

d'avoir animé ce tuto avec nous