Video: P. Beaufils : Textométrie et métadonnées (DocDrop)

00:00:00

donc je vais vous représentez refaire la présentation que j'avais réalisé à l'inserm aussi aspirent en octobre 2017 dans le cadre des séminaires sur le text mining et donc j'avais présenté

00:00:14

l'utilisation des métadonnées associées au corpus je vais commencer par quelques définitions la notion de corps plus très rapidement de métadonnées et on verra

00:00:28

aussi ce que c'est qu'une partition est un sou corpus avant d'aborder des exemples pratiques un corpus c'est un ensemble de documents regroupés dans un but précis de d'études

00:00:42

donc il va voir un périmètre alors je vais pas rentrer sur le détail de construction du corpus c'est tout un sujet ici on va avoir un ensemble de corpus texte dans mon exemple c'est le

00:00:56

corpus 20 que j'avais déjà utilisé l'année dernière au cours d'ateliers c1 sans commentaires de dégustation issus de ce site où on a des commentaires nos logiques qui ont toujours un peu la même

00:01:09

structure des petits textes qui parlent de effectivement d'abord de 2,2 des arômes lune et ensuite la texture de la

00:01:19

bouche voilà les 500 petits textes qui sont représentées de en fonction de leur nombre de mots les métadonnées ce sont

00:01:36

des données sur les données la donnée étant un texte il y aura d'autres données structurées cette fois qui peuvent les concerner parce que le texte ne vient pas comme ça il a été créé par un auteur à une certaine date dans une

00:01:49

certaines langues ces informations là sont structuré et vont nous permettre une exploitation de du corpus voilà à titre

00:02:03

d'exemple d'autres métadonnées qui complète notre corpus 20 on à la notion de domaine de région d'origine de ces pages de millésimes la note c'est très

00:02:15

important on va voir pourquoi le prix et c'est donc données structurées souvent des variables discrète des catégories des modalités ça va nous permettre de

00:02:28

réaliser des partitions ici par exemple une partition en fonction de la région va nous permettre de regrouper les 500 textes en vain une quinzaine de partition voici tous les textes

00:02:39

regroupés concerne issus de la région loire les textes concernant la région de bordeaux une autre partition par exemple en fonction du millésime 2009 190 à 2014

00:02:55

donc ça va nous permettre d'avoir des ensembles de textes beaucoup plus réduit est beaucoup plus intéressant à manipuler que les 500 textes individuel

00:03:07

ça va nous permettre cette méta données de créer des sous corpus par exemple avec la variable région je vais

00:03:20

sélectionner 3 3 modalités ici dans tes xm beaujolais bordeaux et bourgogne on verra un peu plus loin l'utile usage de quelques logiciels et j'ai sept fois

00:03:33

sélectionné sous corpus qui représente un peu moins de 100 commentaires sur les cinq sens ici que les commentaires de beaujolais bordeaux et bourgogne voilà

00:03:45

pour les ensembles de définition et on va voir un petit peu des illustrations et l' usage qu'on va pouvoir faire de cette association corpus et métadonnées et comment le réaliser pratiquement

00:04:04

bien on va passer maintenant à l'utilisation du corpus sans les métadonnées dans un premier temps le premier réflexe c'est de voir ce que l'on peut obtenir avec un corpus de

00:04:17

textes bruts on peut faire déjà beaucoup de choses donc je vais prendre mon corps +20 avec les 500 textes l'unité découpage bien sûr ce sera l'élément texte donc je n'aurai pas d'autre choix

00:04:31

mais je peux déjà faire les choses très classique par exemple le comptage l'occurrence des mots et les présenter dans un grand club on retrouve la notion

00:04:44

de nez bouche et vins qui sont primordiales dans vance corp le tri views réalise à peu près la même chose mais il associons plus la notion de co occurrence des mots c'est à dire que les mots clés sont représentés en

00:04:58

fonction de leur fréquence leur occurrence mais aussi de leur proximité donc autour de nez on aura par exemple le final longue harmonieux bush

00:05:11

harmonique aromatiques agréable et ses jolis vins la notion d' usage à table on retrouve donc une espèce d'agencement qui préfigure des topics ou des

00:05:26

thématiques avec le logiciel ira mutek qu'on peut réaliser une classification hiérarchique descendante qui va nous permettre de structurer notre corpus en

00:05:39

fonction bien sûr de la similitude des textes et des mots et là par exemple je vais obtenir six catégories les blancs si on regarde un petit peu la structure

00:05:54

des mots-clés lezava correspond de plus ici au au blanc les conseils table facile marié les rouges sous bois cerise noire ça ce sont des

00:06:08

caractéristiques des rouges et puis quelques problèmes aussi qu'ils sont vraiment à part les mauvais paraître carafage améliorer décevant donc c'est

00:06:19

déjà très intéressant on peut représenter d'ailleurs c'est par cette partition sur une analyse factorielle de correspondance toujours derrière à mutek ici les couleurs correspondent aussi

00:06:31

classé catégorie que j'avais mentionné au dessus les problèmes la notion de table les blancs et les rouges donc on retrouve les mots-clés principaux je vous laisse voir on peut

00:06:45

faire à peu près la même chose avec les métèques en utilisant l'outil similitudes donc il va se baser aussi sur la cocue rance des mots et on retrouve également les trois grands groupes bouche nez et

00:06:59

20 les usages du vin donc voilà je n'insiste pas sur cet outil pour l'instant le détail rang c'était donc quelques exemples d'utilisation d'un

00:07:12

corpus sans métadonnées vous voyez qu'on on a plein de possibilités déjà alors avec les métadonnées on va pouvoir

00:07:24

réaliser un certain nombre d'opérations supplémentaires on va pouvoir agir sur le corpus et le parcourir en fonction de ces variables pour effectuer des

00:07:38

comparaisons des contrastes on va pouvoir éventuellement aussi établir des progressions si on a des variables des séries temporelles et enfin d extraction à partir de modalités de variables

00:07:54

alors voilà quelques types de métadonnées qui seront utilisés sont des variables souvent quantitative discrète on aura par exemple les séries temporelles datage période les notions

00:08:06

de notes 1 2 3 4 5 l'âge on aura des variables qualitative ordonné les notations abcd d'intensité faible moyen fort des variables

00:08:18

qualitative non ordonnés cocktail que des variables de région de ville avec des variables spatiale l'auteur le sexe sont des variables qualitative non ordonnés classiquement un texte aura

00:08:33

toujours un minimum de métadonnées associées à lui dans la mesure où il a été créé par un auteur il a un titre et il a une date de création une source est

00:08:47

une langue donc c'est le minimum que l'on pourrait espérer récupérer comme information là j'ai un petit exemple de métadonnées que j'avais récupéré pour établir un corpus

00:08:59

de gens sont donc j'ai classiquement l'année le titre l'auteur plus d'autres informations et la langue bien sûr un autre exemple avec le corpus 20 ou qu'on

00:09:12

a déjà vu où on avait la notion de notes la notion de domaine de millésimes la région le prix dans le corpus unafam sur

00:09:25

les syndromes prodromes it de la schizophrénie il s'agissait d'une enquête auprès des proches des malades pour savoir ce qu'ils avaient repéré comme signe avant que la maladie ne soit diagnostiquée

00:09:37

on a la variable intensité de la maladie qui est qualitative ordonné de légèrement a manifestement malade voilà quelques exemples alors la première chose que l'on peut

00:09:51

réaliser ces petites analyse des métadonnées c'est un petit peu l' enveloppe externe à partir de quelle qu'elles métadonnées on va travailler donc les analyse

00:10:04

univariée l'histogramme sont classiquement à faire les analyses multivariées tels que les ac b on va voir ensuite quelles seront les analyses

00:10:17

à proprement parler texto métriques que l'on pourra réaliser à l'aide des métadonnées et auparavant bien sûr il y aura une phase de data management pour

00:10:30

mettre en oeuvre l'ensemble corpus plus métadonnées donc concrètement comment on va mettre en oeuvre cette utilisation des métadonnées associées à leur corpus

00:10:41

je suis illustré avec deux logiciels le logiciel thé xx ème et le logiciel ira mutek on a une phase de data management ou de près ce prêt process a réalisé auparavant

00:10:55

on va regarder en parallèle à ce que l'on fait au niveau du texte et des métadonnées oui à la collecte sur le web on récupère nos réponses nous 500 corpus

00:11:07

de textes on stocke nos métadonnées dans d'un fichier structuré sous le nom csv ou sous excel le corpus de textes nécessitera peut-être un nettoyage mais

00:11:21

une normalisation suppression des ponctuations des majuscules c'est la partie de prêts process de streaming et de mise en forme d'un corpus classique ici on aura nos données structurées dans

00:11:35

un fichier excel ou csv dans tes xm l'import avant d'importer il faut apporter l'ensemble du corpus sous la forme de textes indépendant isolé qui

00:11:50

rend tous tous un identifiant et une structure pointilliste et un texte libre brut donc il faudra 500 petits textes et un fichier qui s'appellera métadatas

00:12:02

point csv qui donc sera issu de notre fichier excel et qui contiendra nos données structurées en ce moment on voit ici les huit premiers textes et un fichier

00:12:15

qui s'appelle métadatas point txt à l'import j'ai choisi l'option import texte et csv y en a plusieurs il y en a qui permettent d'importer directement

00:12:28

des données structurées pour le traitement le corpus et de textes donc je vais parler simplement de cette option donc j'ai spécifié mon répertoire où sont

00:12:42

situés les 500 petits textes et le point csv et tec-sem se chargera d'apporter le corpus associés à ces métadonnées dansira mutek

00:12:56

c'est un petit peu différent on aura besoin d'un fichier unique qui contiendra à la fois l'ensemble des 500 textes on vous envoyait un ici associé à

00:13:09

auquel on avoir à incorporer les métadonnées en en tête de chaque texte et qui seront repérés par des étoiles c'est pour cela qu'on appellera ses

00:13:21

données les variables étoilé c'est le format alceste c'est un format donc il ya ces standards et que les classiques alors on peut obtenir ça directement à partir de thé xx ème parce que si on a

00:13:34

importé notre fichier auparavant tenté xm on aura la possibilité d'exporter ce fichier xml forme à la teste et on obtiendra ce fichier unique mais on peut aussi le fabriquer le générer à partir

00:13:47

par exemple d'excel j'ai montré dans le bloc du 6e sp comment réaliser sans même programmé mais avec un petit peu d'astuce comment réaliser le fichier unique à partir d'un

00:14:02

fichier excel texte et contenant à la fois le texte et les métadonnées donc je n'assisterai pas dessus on a donc maintenant un fichier unique qui contient les textes et les métadonnées

00:14:15

sous forme de variables hitwise les quatre étoiles ici c'est par font office de séparateurs de texte et on aura le numéro de textes texte ayissi qui est

00:14:26

qu'on voit mieux ici qui corresponde à ce texte voilà concrètement nous on va maintenant passer à quelques illustrations donc voilà quelques exemples de

00:14:41

réalisations avec les logiciels thé xx ème ira mutek d' analyses sur des corpus avec leurs métadonnées une fc pour commencer nos thèmes avec toujours notre

00:14:53

corpus 20 en utilisant la variable région si on nous regarde d'abord les termes mois ils sont très nombreux donc c'est un petit peu difficile à dire ils sont en bleu en rouge on a par contre

00:15:07

les points représentant les régions qui leur sont associés je vais enlever les termes et je vois les régions sur l'afc et on a une belle progression des différentes régions assez géographique

00:15:21

avec l'ira mutek cette fois j'ai utilisé pour le corpus 20 toujours la variable note qui donc c'est ce lot de 1 à 4 ans n'avait cette progression sur l'axé des abscisses qui est assez régulière il ya

00:15:33

ces belles et si je j'affiche les termes qui sont liées à ces présentations des variables note on trouve des termes ici pour la variable 1 qui sont spécifiques

00:15:47

de la mauvaise note déséquilibre est dissocié oxydé alors que bon pour la variable 4 qui était la note le meilleur on a superbe bo harmonieux donc

00:15:59

effectivement on voit bien cette radiation de termes cette différence du type d'usagé de termes là c'est un petit peu caricatural bien sûr en fonction de la notation du vin c'était la méta

00:16:13

données note avec la librairie facto mein herr de r on peut faire sensiblement la même chose la gérer et utiliser la variable région elles étaient classifiées en trois

00:16:24

parties on voit très bien les clonages et la représentation spatiale de région qui dépend en fin de compte uniquement des termes qui ont été choisis ça veut dire que les termes choisis pour décrire

00:16:38

les vins de bordeaux sont beaucoup plus proches des termes choisis pour décrire les vins du rhône que pour décrire les vins du jura par exemple ou de loire qui sont vraiment caractéristique est à part

00:16:49

voilà les termes qui leur sont associés on va regarder maintenant des analyses de spécificités la spécificité c'est une petit calcul qui va essayer de mesurer

00:17:04

la la fréquence d'un terme dans une portion d'un corpus relativement à l'ensemble du corpus donc s'il est très fréquent dans sa partie du dié est très rare dans le

00:17:18

reste du corpus on va le trouver très élevé et très spécifiques inversement si les très rares ou si facile et pas plus fréquents que dans le reste du corpus on va le retrouver aux proches de zéro c'est le cas ici

00:17:32

des termes qui correspondent à la variable note le terme superbe et très spécifique de la note 4 la meilleure est alors qu'inversement il n'est pas

00:17:43

spécifié les mêmes plus rares dans les textes noté 3 alors que le terme jolie et spécifiques de ces textes qui ont été

00:17:54

notés 3 avec qui rameutait que si on a à peu près la même notion le calcul sans doute un peu différent lorsque c'est une notion de fréquence relative j'ai utilisé cette fois le corpus unafam

00:18:10

dont j'ai parlé sur les syndromes prodromes hic de la schizophrénie et là métadonnées intensité de maladies dont j'avais parlé qui est une variable

00:18:22

qualitative ordonnée qui va de va bien gravement malade le terme hospitalisation ou on voit très nettement qu'il suit une fréquence de plus en plus importante en fonction de

00:18:35

la gravité de la maladie de même pour le terme psychiatre quelques exemples de progression de l'accroissement du vocabulaire dont x m c'est une représentation assez

00:18:51

intéressante quand on fait une étude chronologique là j'ai pris parce que j'avais trouvé cet exemple très illustratif le corpus de démo publié par txn qui comprend les

00:19:06

discours de campagne présidentielle de perry de gaulle jusqu'à françois hollande est géré représenter deux termes le terme peuple qui était assez utilisé par de gaulle et mitterrand

00:19:19

il est beaucoup moins après inversement le terme compatriotes très peu utilisé lors deux volets mitterrand et qui devient très fréquent dans la bouche de chirac sarkozy et même hollande

00:19:32

donc on va très nettement la différence d'utilisation du vocabulaire au cours du temps même chose que je me refais le

00:19:45

grave d'un excellent mais c'est une voie à partir des mêmes données dans xm l'accroissement du vocabulaire à partir du corpus évangiles qui a été simplement tronçonné en fonction des variables

00:19:57

chapitre donc la méta données ces chapitres donc ce qui va donner une notion chronologique et on voit très bien les quatre partis de se distinguer la première partie m des 13 premiers chapitres parle de la vie publique et

00:20:10

dix rencontres de jésus et on voit le terme juif qui est très très utilisé lorsqu'on me beaucoup question de relations et de rencontres avec les juifs la deuxième partie qui est plus mystique

00:20:22

et plus poétique qui parle de l'annonce eschatologique à ses proches donc le terme jugent disparaît par contre on a ras le terme glorifier qui est très spécifique de cette partie là

00:20:34

au cours du procès de la mort de jésus et on voit le terme prêtre très très utilisée puisque lui bien sûr il s'agissait de procéder avec les prêtres du sanhédrin ainsi que l'apparition

00:20:47

fréquente de pierre qui devient acteur à ce moment là avec les métadonnées on va pouvoir construire des ce corpus là je montre l'exemple de génération d'un souk

00:21:00

au repêchage d'un thé xx ème avec la variable région j'ai sélectionné trois modalités aux jo les bordeaux et bourgogne dans ira mutek qu'on peut

00:21:12

réaliser la même chose le saut corpus a été réalisée en sélectionnant ici quatre modalités des modalités beaujolais bordeaux bourgogne et loire on va vite

00:21:24

u10a plus en détail dans la partie illustration on va voir maintenant l'utilisation de ces métadonnées en tant que variable illustrative dans les

00:21:37

analyse factorielle de correspondances ne participe pas aux calculs de l'afc mais ils vont donner des éléments d'information supplémentaires je vais donner un exemple avec une

00:21:49

classification hiérarchique descendante sur le sou corpus que l'on a créé le saut corpus vingt trois classes ont été mises en évidence avec les termes

00:22:02

correspondant plus aux rouges les thermes correspondant aux blancs et les conseils donc si je refais une afc sur ces trois classes je voit l'illustration des classes dans

00:22:17

un premier temps ensuite l'afc en représentant les termes les mots qui ont été utilisés pour cette classification je reconnais en rouge les termes correspondant au vin blanc

00:22:32

ici les termes correspondant au vin rouge hélas les conseils et diverses autres notions et si je regarde toutes les

00:22:44

métadonnées associées à ces textes on s'aperçoit qu'il conforte l'analyse en donnant des illustrations des informations plus détaillées supplémentaires par exemple région loire

00:22:59

est bien associé au terme et à la classe des termes associés au blanc cépage sauna muscadet sèvre et maine également inversement pour les bordeaux là qui

00:23:12

sont bleues région bordeaux est bien associé ces termes ainsi que les notions de millésimes ou deux châteaux de l'appellation saint-émilion grand cru par exemple que je vois ici

00:23:30

en conclusion on a vu que les métadonnées permettent de diversifier les parcours du corpus et de l'explorer selon une multitude d'options de contrastes les deux parcours différents

00:23:44

on peut aussi aller vers une production de métadonnées je vais l'illustré avec cet exemple d'une étude qui avait été fait pour une association

00:23:56

socioculturelle qui avait fait écrire agriculteurs de la région loire blues sur leur région en s'identifiant à un élément symbolique de leur région on a eu quelques centaines de lettres la

00:24:09

classification les a regroupés en trois ou quatre familles les poètes des techniciens ce qui était plus tradition et terroir et ceux qui parlaient plus nostalgie famille

00:24:22

eh bien ces quatre groupes là peuvent nous donner 4 classification que l'on peut structurer dans les métadonnées de telle sorte que nous pourrons faire des sauts corpus ou analysés par exemple

00:24:36

uniquement une catégorie ou unes par rapport aux autres on peut utiliser aussi la mesure de la dimension des textes j'en avais parlé et là c'est le nombre de mots comme une méta données

00:24:49

c'est pas inintéressant de vérifier si les textes courts donne des informations différentes des textes longs c'était le cas par exemple dans l'étude unafam où les textes courts étaient plus associé au nom parce qu'il y avait peu de choses

00:25:02

à dire voilà j'ai présenté mon petit topo metodo que j'avais présenté en octobre 2017 csp sur l'utilisation des métadonnées associées au corpus vous

00:25:21

pourrez trouver un lien vers la présentation prési indiqué sur la dernière diapos ou en tapant président textos mais tri et aussi sur le blog du

00:25:33

suspect pour ceux qui ont taxé merci