Waiting..
Auto Scroll
Sync
Top
Bottom
Select text to annotate, Click play in YouTube to begin
00:00:00
donc alors que je me présente peut-être donc ma belle andré salem j'ai été enseignant chercheur à paris iii je suis encore trop fait mérite mais ne vous laissez pas impressionner par lemoigne
00:00:12
hérite strictement limitées ça veut dire qu'on a encore des cours est donc j'ai travaillé toute ma vie dans l'étude statistique du texte peut-être c'est pas inutile de dire que je viens des
00:00:25
mathématiques alors gilles mathieu depuis 140 ans dans l'équipe des textes mais ça explique certaines attitudes peut-être et donc je vais essayer de
00:00:37
vous parler assez rapidement des approches texto métriques donc qu'est ce qu'on peut attendre comment ça se passe l'histoire peut être un peu de la discipline mais vraiment très rapidement
00:00:49
et puis je vous montrerai aussi un logiciel qu'on a développé dans notre équipe mais encore une fois je leur montrerai il y en a d'autres c'est pas du tout une publicité pour
00:01:00
cela tous les logiciels ont des points forts des points faibles l'idée dans cette exposition vous montrer ce qu'on peut faire le sens de ce qu'on peut faire alors bruit d'abord peut-être signalé d
00:01:13
approche un peu différente pour structurer les gens qui s'intéressent au texte il ya des gens pendant très longtemps ça a été la proche on dirait mainstream de tenter de comprendre les
00:01:25
textes en dégageant le sens des phrases qui les composaient un montant là gisait à l'époque c'était la traduction automatique l'idée c'était qu'on comprenait d'abord pour traduire éventuellement ou pour
00:01:37
analyser et moi je me situe dans un autre courant qui avec comme objectif de décrire des corpus de textes en comparant les distributions de différentes unités au sein des partis
00:01:50
d'un corpus donc c'est une orientation à prendre assez rapidement parce que sinon on comprends pas de quoi on parle alors peut-être tout d'abord je parlerai d'applications qui ont été réalisés 1937
00:02:05
c'était pas dans notre labo donc on les a fait des comptages sur lieu les 16 de jim jones et alors il a découvert qu'il y avait sur les 260 me l'occurrence du livre mot
00:02:19
graphique qu' il y avait certaines lois de distribution qui marquait le triomphe des idées ipn c'est à dire que on savait que le premier mot aux premiers mots il
00:02:33
y avait je crois il avait des comptages qui était beaucoup trop magnifique pour être honnête enfin quelque chose comme 2006 en cohérence et puis ensuite plus by m'avait dit foule au fur et à mesure qu'on avançait dans le rang on voyait
00:02:47
que la fréquence augmentée et que ce qu'on appelait à l'époque la relation rang fréquences avec quelque chose de constant alors d'autres applications cette fois ci avec la bio ou et année j'ai froid on avait travaillé sur le
00:03:00
père duchesne de hébert un journal de la rue jean française et on avait je vous parlerai tout à l'heure un peu prendre des exemples dans ce père duchesne c'est un journal de presse révolutionnaire sur
00:03:13
lesquels les historiens discute toujours cette la révolution française sa durée de trois ans et puis se mettre deux siècles que les gens essaient de comprendre ce qui s'est passé avec alors peut-être plus près de ce qui vous
00:03:26
intéresse dans les années 80 au crédoc il ya des gens autour de ludovic le bar qui s'intéresse aux conditions de vie aux aspirations des français
00:03:40
donc ils ont monté une enquête il demande à des gens qu'est ce qui empêche ici le fait que certains transparence en anglais c'est pas du snobisme pour vous informer ni
00:03:52
nil envie de vous impressionner c'est que j'essaie de récupérer des enfants à gauche et à droite pour essayer de construire quelque chose de l'audible alors vous demande quelles sont les raisons qui font hésiter une femme -
00:04:04
couples à avoir un enfant et donc on a interrogé deux mille personnes l'époque ils ont bien sûr mis des balises ou est devant pour dire quelles sont les réponses des personnes et ils ont étudié
00:04:17
ce corpus on reviendra là dessus des études de presse par exemple une étudiante eric mcmurray qui travaille désormais chez google à
00:04:29
los angeles s'occupe de savoir comment la page business unit ortm évolué entre 2001 et 2002 we anim ce corpus pour de
00:04:42
nos idées un autre étudiant étudier les discours de fidel castro et en 2008 fidel castro a décidé d'arrêter son activité politique s'il permet d'avoir un corps plus complètement
00:04:55
exhaustif et il a soutenu une thèse tout de suite après ben on envoie un signal au passage fidel castro ensuite des études web alors très souvent on se il s'est passé
00:05:09
un événement politique ici par exemple la la bagarre entre la république populaire de chine et google est bon les journaux disent des choses des gens sur le web disent des choses il
00:05:22
ya des blogs à ddd mail qui s'échangent et où on a un gros corpus de réaction et on essaie de voir qu'est ce qui se passe qu'est ce qui se dit quelles sont les tendances là je pars de gens qui ont fait des
00:05:36
thèses avec moi et bien entendu c'est des exemples que je prends pour montrer des choses différentes c'est pas dit que l'activité texto medien se résumait à sa vision le coran le coran est composé de
00:05:48
114 sourates il ya des gens qui disent que certaines sourates ont été écrites à médine d'autres à la mecque on peut faire des analyses statistiques qui montrent que d'effectivement il ya des différences entre fils aura t on
00:06:00
peut préciser au tour de cédric ferron au sainte anne où il y a eu des gens qui sont occupés des sms ils ont demandé à énormément gens de leur donner tous les
00:06:14
sms qu'ils avaient envoyé et je sais d'étudier la langue des sms le vocabulaire voir comment ça fonctionne et un gros corpus d'un million trois cent mille occurrence voilà c'est pour vous donner des idées de ce qui se fait
00:06:26
aussi j'ai travaillé sur un corpus dire aux glyphes un poème et robbie fiq 189 versée on essaie de voir s'il y a t-il des répétitions inutiles
00:06:42
parce qu'ils reviennent bon alors pour ça je vous conseille pas quand on met le nez dans les hiéroglyphes moi ça a duré trois semaines du fait que ça du soir au matin à 36 ans en mangeant à peine et en dormant à peine donc je c'est
00:06:54
passionnant faut pas un faux pas initiaux n'était alors donc les analyses informatisé alors ici j'ai essayé deux avaient prévu deux voilà ici j'ai
00:07:07
signifié notre monde réel symbolisée par une femme ce la femme est l'avenir de l'homme disait aragon mais je veux parler de notre monde dans lequel on vit et dans ce monde là on a parfois un
00:07:19
objet d'étude et on fait des analyses donc sur cet objet d'étude et ont produit des commentaires exemple quelqu'un décide d'étudier l'oeuvre de balzac
00:07:31
alors il y je pense à léo spitzer qui disait quand je décide d'étudier une heure je la lis en entier une première fois puis je la relis puis une troisième fois si c'est nécessaire et ensuite je
00:07:45
suis comme le soleil au centre du système solaire et je la décris d'abord c'était les hot wheels r ensuite il donnait des consignes à ses élèves de ne pas suivre ce qui faisait lui même mais on peut se poser d'autres questions
00:07:58
et admettons que après son oeuf sur le balzac qui s'attaque à victor hugo qui pourra nous dire ce qu'il aurait écrit s'il avait commencé par victor hugo et chez s'est ensuite attaqué à balzac voyez l'être humain n'est pas vierge
00:08:12
comme ça au contact des données des connaissances ça ça transforme profondément et donc l'apparition de l'ordinateur pour la génération avec la japan mais pour notre génération c'était
00:08:23
plutôt aussi une garantie d'objectivité de pouvoir de reproductibilité des émotions qu'on pouvait avoir des conclusions vais faire à partir d'un d'une
00:08:36
expérience avec des données bon je vais en public donc on peut produire des commentaires après avec son des commentaires humain alors je voulais dire que ça s'est toujours licite on a toujours le droit de le faire alors
00:08:48
ici un deuxièmement que je les lis mais que j'appelle le monde du 01 s'expliquer à l'intérieur de toutes les machines qui sont là et d'autres c'est un monde dans lequel ne circule pratiquement que des
00:09:01
séquences de 0,1 c'est parfois pénible être pas quand on voit ces beaux dessins qu'on fait mais derrière il ya des séquences de 0,1 qui sont interprétées plus ou moins comme des couleurs des formes mais c'est comme
00:09:13
ça et il ya aussi des traitements là-dessus qui permettent de dire qu'avec certaines séquences de 0,1 nous fabrique d'autres qui elles mêmes peuvent être transformés en d'autres voilà et tout ça
00:09:25
c'est un monde fou ça va très vite mais où il ne se passe que des transformations de séquences 2-0 et 2-1 alors qu'est ce qu'il sait analyse informatisé ce schéma que je dessine
00:09:38
pour les textes d'ailleurs pourrait être un schéma qui s'applique à des tonnes de choses à des tonnes de d'entreprise informatisé c'est qu'au début dans l'objet d'études on distingue des données ces données vont donner lieu à
00:09:52
un codage donc qui vont les faire pénétrer d'une certaine manière codée alain ordinateurs dans sept 7 ordinateurs à des traitements informatisés qui vont
00:10:03
aboutir à des résultats mais des résultats informatisés sort toujours toujours des suites de 0,1 lesquels résultats devront être interprétée pour donner lieu à des commentaires qui seront pas forcément les mêmes que ce
00:10:17
qu'on aurait fait si on n'avait pas de fleurs ces données informatisées bons jeunes et un schéma d'une grande banalité mais faut bien avoir en tête c'est à dire que un moment donné on ne passe que en fréquence de 0,1 et les
00:10:30
résultats ne sont forcément que des séquences de 0,1 alors on peut ce qu'on peut traiter un petit peu plus d'attention au texte lui-même alors si le texte lui même est un texte
00:10:43
hiéroglyphique mais le chaton est très endetté la plupart d'entre nous aussi sauf ceux qui connaissent le système hydrographique et donc ce texte parce
00:10:56
que c'est un texte donne lieu à une translation d'une séquence de 0,1 c'est à dire qu'il a une partie matérielle dans la machine qui est une séquence de faire voir faut savoir encore comment l'interpréter alors si c'est un texte
00:11:10
qui est un texte en anglais déjà donc le chaton est toujours aussi embêté mais les gens qui ne parlent pas l'anglais aussi sont embêtés parce qu'ils n'y comprennent rien mais il ya des gens qui commencent à y voir quelque chose et
00:11:24
même à acheter une interprétation sur ce texte qui est là pour qui ça va évoquer quelque chose à condition bien sûr que ils comprennent l'anglais hélas ici vous avez bon le a majuscule
00:11:36
ou à laisser ici c'est si c'est un codage 65 c'est le codage du hamas skull donc le texte est une double forme qui est très difficile d'un côté c'est une séquence d'une banalité enfin traîtresse comment
00:11:50
dire très très simple qui est reproductible et transmissible qu'on peut l'envoyer africain d'un autre côté dans notre monde à nous il peut être l'objet d'interprétations et
00:12:01
d'analystes hiver alors si dans le monde du 0 1 si l'on s'intéresse d'ici là la la police que j'ai employé n'est pas sur
00:12:14
cet ordinateur alors bien sûr dans le monde du zéro mais on peut lancer des procédures ici qui vont affecter par exemple d'abord on peut découper le texte en
00:12:28
forme graphique ça c'est facile avec des blancs et puis on peut lancer des procédures qui qui vont infecter à chaque à chaque mot par exemple une
00:12:40
catégorie grammaticale d'accord bon c'est ça ça sera avec un certain degré d'approximations peut-être parfois ça sera faux mais c'est des choses qui ne sont pas très compliqué à faire on s'est aperçu donc fur et à mesure compte
00:12:54
s'occuper d'eux des textes avec l'informatique qui avait des choses qu'on n'aurait pensé très très compliqué qui en fait était pas aussi compliqué que ça donne un exemple par exemple corriger les fautes d'orthographe dans
00:13:07
un texte au début bon quand on faisait référence à un dictionnaire on voyait à peu près mais la plupart des fautes d'orthographe c3m au lieu de deux ou trois paix au lieu au lieu d'un et donc
00:13:20
ça c'était assez facile à faire et on s'est aperçu aussi que corriger la syntaxe ce n'était pas aussi difficile que ça mais je passe très vite alors après ma vie à une des catégories there qui avec un certain degré le
00:13:32
d'erreur peuvent arriver à un travail acceptables alors on en vient aux méthodes maintenant alors des méthodes eux à propos des sections je
00:13:46
distinguerai de trois catégories bon la première catégorie c'est la fouille le dénombrement c'est à dire qu'on sait ce qu'on cherche et on va aller chercher dans des ex tu sers ten chose pour les localiser
00:13:58
les analyses en contexte où les où les comptes et donc là c'est les opérations qu'on conçoit à peu près bien et dont on sait maintenant que les ordinateurs font ça beaucoup mieux que eu un être humain
00:14:11
bon il ya les méthodes statistiques sur lesquelles je reviendrai tout à l'heure et aussi des boîtes noires sur lesquelles on va en parler tout de suite par exemple il ya des tas de logiciels
00:14:23
sur le web qui propose de créer des nuages de mots alors ici j'en ai créé un avec le premier chapitre de la genèse peut-être certains d'entre eux ont l'occasion de le lire et donc ça produit
00:14:36
une sortie comme ça on ne sait pas trop comment je ne sais jamais très bien expliqués mais c'est censé être intuitif quoi et alors autour de dieu par exemple
00:14:49
le problème c'est voulez quand vous voyez du texte envoyé des mots et de créer quand je dis vous je veux l'être humain qu'on a tendance à recréer du sens et à recréer des phrases donc là je serais tenté de dire dieu à
00:15:03
madrid c'est une ode à l'ambiance est que ces phrases là n'existe bien sûr pas dans le texte si vous connaissez la jeunesse donc on peut faire des raccourcis qui je
00:15:16
dis pas une interprétation mais des raccourcis s'assemblent intuitif et on peut dire des bêtises c'est à dire dire ah oui ces mots là sont proches parce qu'ils sont employés dans une phrase que je reconstruis mais malheureusement
00:15:27
cette phrase n'existe pas dans le texte le pôle principal défaut de ces méthodes j'émets une boîte noire avec un ruban rouge ici parce que c'est le résultat c'est qu'on ne sait absolument pas comment elle fonctionne ou alors parfois on sait mais on a la flemme parce que
00:15:40
c'est tellement compliqué d'aller voir que finalement c'est pas bon alors bien entendu ce n'est pas de ça que je parle parce que ça peut donner une impression de d'immédiateté mais c'est très très dangereux ces choses là ça si on fait
00:15:53
des analyses de textes c'est pour aller essayer de plus profond d'eux est allé à une compréhension plus profonde du texte pas pour avoir des intuitions fulgurantes comme ça et du déjà vu
00:16:06
alors donc la fouille le dénombrement bon on peut le la première fonction qui est extraordinaire c'est la localisation 1 on vit maintenant tous avec des mémoires des mémoires avec votre smartphone avec
00:16:19
des choses comme ça on n'a plus seulement notre mémoire mais une mémoire dans laquelle on peut aller fouiller assez rapidement alors pour les textes c'est un peu pareil la fonction rechercher par exemple dans un texte est extraordinaire parce
00:16:30
qu'elle vous dis tout de suite si un mot existe ou n'existe pas enfin est attestée ou pas dans un texte par exemple de 20 pages que vous 10g et puis vous pourrez aller regarder toutes les occurrences on sait une
00:16:43
fonction avec laquelle on est habitué à vivre maintenant mais qui est une fonction si on y réfléchit et extraordinairement efficace qui vraiment multiplient notre notre compétence dans la lecture du texte alors je signale au
00:16:56
passage que le référent al islah la petite fille on a vu tout à l'heure on n'en parle pas seulement quand on parle d' alice parce que ici vous voyez site inpai insiste assez l'assisteur alice 1
00:17:10
et puis chirac s'est de nouveau à l'iss [Musique] et de nouveaux parle d' alice sisters de nouveau donc vous voyez si on quand on
00:17:23
va compter des mots qu'il faut pas penser qu'on aura compté toutes les références au personnage d'alice et personnes les références au personnage lui-même sont très très éparpillé assez difficile à trouver dans le texte et ce
00:17:36
qui fait que j'hésite pas une seconde pardon je n'hésite pas une seconde à dire un système c'est ma compétence je veux dire à la fois de notre monde est à la fois un tout petit peu d'anglais parce que je connais la langue
00:17:49
dont je sais qu'il ya des règles qui font qu un pronom réfère à ce qui venait juste avant c'est assez intuitif mais quand on y réfléchit c'est assez compliqué d'expliquer à une machine
00:18:01
comment ces références peuvent renvoyer ou même même la même personne alors localisation toujours ici c'est tous les chapitres d'alice au pays des merveilles
00:18:13
et j'ai coloré en bleu manière plus ou moins foncée quand je dis j'ai c'est plutôt le match il l'a fait pour moi tous les paragraphes dans lequel le nom d'alice est mentionné
00:18:27
c'est une vision très efficace et très pratique du texte même automne vous montrerez ça tout à l'heure alors un outil aussi qui a pas attendu l'ordinateur pour exister c'est la
00:18:39
concordance sauvé la concordance qui est née dans les milieux autour je le pense des études de la bible il y en avait peut-être d'autres avant mais je pense pas ou l'argument d'autorité quand on
00:18:52
disait à un moment donné dans la bible il est dit que ça terminée la conversation sauf si quelqu'un pouvait dire oui mais à un autre endroit il est aussi dit que à propos de ce peut-être même chose donc
00:19:04
c'est les instruments qui vont se répondre se répandre la concordance et ça donne une autre vision du texte et des renards plus seulement un mot mais on a un mot et tous ces emplois avec un
00:19:16
certain monde contexte c'est très précieux bien sûr quand on est étudiant alors la fréquence la fréquence voyez le mot alice ici les occurrences dans les
00:19:29
treize chapitres de de alice au pays des merveilles on a des fréquences 1 que ça peut donner des indications alors peut-être un exemple tout simple
00:19:42
que je trimballe depuis des années dans les années 80 deux avec notre regretté maintenant ristournes et quelques autres on avait publié en fin
00:19:55
il est interviewé par le monde qui avait publié un article où on disait attention le mot travailleurs est emprunt est de moins en moins utilisée par les ce et
00:20:06
les syndicats et il est de plus en plus le mot de travailleurs vient le remplacer nous avons des armes excusez-moi salariés s'aligne donc c'était là et la suite a trouvé que c'était plus que vrai
00:20:20
mais ça l'est devenu même crise voilà alors donc là il s'agit de deux 2 3 4 5 6 congrès de la cfdt un tous les trois ans on avait simplement pris les
00:20:34
résolutions général des congrès c'était un chantier qui était dirigé à saint-cloud par maurice fournier qui s'occupait des syndicats l'idée c'était bien sûr dans des milieux de linguistes
00:20:46
on s'occupait de la langue telle qu'elle existait chez les grands auteurs c'était d'aller vers la langue téké qu'il existait chez les travailleurs chez des gens qui bougeait c'était après 68 tous à l'idée que la manière dont les
00:20:59
gens parlaient était au moins aussi intéressante que la manière dont il aurait dû parler qui était écrit dans les dictionnaires alors donc ça c'est intéressant dont vous voyez on voit que ça change ce qui
00:21:10
est plus intéressant c'est de prendre je vais changer de diapositives je préviens parce que là c'est la cgt vous voyez ça donne exactement la même chose est exactement dans les mêmes années des syndicats qui après tout son
00:21:23
concurrent sont bien sûr de des accointances mais qui se bagarrent d'entre eux aussi ils subissent exactement les mêmes tendances c'est à dire que le mot travailleurs est en
00:21:35
train de 2 est en train de perdre des occurrences au profit de salariés alors pourquoi d'abord c'est facile de comprendre pourquoi un petite parenthèse
00:21:48
mais si vous voulez au début les syndicats de défendre les travailleurs tous les gens qui travaillent avec nous son nom sonne et solidaire et avec la crise ils vont de plus en plus défendre les gens qui sont titulaires d'un
00:22:02
contrat de travail donc salariés c'est quelque chose de beaucoup plus juridique voilà est donc bien sûr tout le compte des contextes vont changer aussi tous les travailleurs maintenant tous les salariés à l'expression des travailleurs
00:22:15
l'expression des salariés permettre au travail en fait reboot aux salariés et ya des fois des remplacements qui se font pas par exemple les travailleurs immigrés qu'ils ne deviennent pas les
00:22:27
salariés immigrés à une époque où le pen traduire le move est désolé monsieur passe pas mieux en anglais pourtant deux millions de 200 emplois ces deux millions d'émigrés entre hauts et bas
00:22:40
les syndicats vont hésiter à dire les travailleurs immigrés parce que ça souligne les salariés une grève parce que ça souligne que c'est des gens qui ont le privilège d'avoir un salaire est peut-être le défaut d'être immigré
00:22:52
oui bon bah c'est intéressant c'est à dire qu'il faut pas penser que les choses sont sous forme de jetons comme ça change il ya des jetons avec du contexte et des impossibilités qui sont au moins aussi intéressante que les
00:23:05
possibilités alors oui au passage on change s'il vous plaît on change de référence parce que autant le travailleur c'était un travailleur autant l'immigré ça peut
00:23:16
être d'un immigré un chômeur famille d'un chômeur la famille d'un travailleur voyez en quelque part les syndicats se laisse imposer un langage tout en combattant les positions
00:23:28
politiques de planètes ou mais il se laisse imposer finalement un langage ou du moins ils n'osent pas affirmer les choses telles que devrait les affirmé dans dans la main en développant la
00:23:41
manière dont ils réfléchissent alors depuis bien sûr c'est passé des tas de choses il ya en particulier google lab kaka en
00:23:52
deux secondes dans un corpus par contre ici j'ai sélectionné français le jeu le français alors je suis bien incapable de dire encore ça puisse se trouve et quel est le corpus exact je donc google dispose
00:24:06
ça c'est toujours assez difficile mais bon c'était libretto et donc sur les années on voit bien que ce phénomène alors nous on a observé les choses
00:24:16
voyez entre 68 comme ça et 80 20 ce phénomène on le voit mais on voit ce qu'on voit comment depuis 1800 jusqu'à 2000 à l'époque on voit comment les choses évoluent et ça ça se fait
00:24:29
maintenant en un clic de souris alors spécialement pour vous vous allez me dire ce que vous pensez de ce transparent j'ai réalisé un top 5 texto métriques des plus mauvaises idées reçues qui circulent chez les gens qui
00:24:44
étudient les textes ligne on a habilement d'expérience de 2,5 donc elles sont pas classés par par degré d'apps d'absurde obscénité mais est quand même alors la première c'est celle
00:24:57
qu'on a entendu depuis le tout début des études texto métriques les analyses texto métriques ne sont que confirmer ce qu une lecture attentive nous aurait permis de découvrir donc ça c'est une ânerie
00:25:08
absolument je dire il suffit c'est totalement maîtres ce que la statistique permet parfois de découvrir des choses auxquelles on s'attendait absolument pas c'est même là que c'est intéressant vous connaissez la sphère des couches culottes dans les supermarchés je suis
00:25:23
comme ça conclut raconté acquiert alors un moment donné si vous les supermarchés étaient parmi les gens les plus rétifs à la statistique pourquoi parce qu'ils avaient un stock un inventaire ils savaient tous il y
00:25:35
avait un comptage exhaustif de tout ce que les gens achètent donc il considérait qu'il n'avait pas besoin de statistiques dessus et finalement des gens les ont convaincus de regarder un peu les tickets comment ça se passait et
00:25:47
il s'en aperçut d'un truc bizarre c'est que quand il y avait des tickets assez souvent donc chez des hommes parce qu il avant de noter qu'il acheté et que quand
00:25:59
il y avait des couches culottes il y avait un pack de bières côté et est donc on comprend vos et le le gars qui est n'y fait les courses parce que c'est
00:26:12
un homme moderne tout il doit acheter des couches culottes et il se défoule et prend le pack de bière à côté et ça a permis au supermarché de coller les packs de bière pas trop loin d'ailleurs des couches culottes mais je prends ça comme l'exemple d'une
00:26:24
chose à laquelle on n'aurait absolument pas pensé si on n'avait pas eu cette démarche empirique voyez on peut confirmer parfois des idées reçues on peut en infirmer d'autres mais il ya des idées auxquelles on pense absolument pas
00:26:37
et donc je crois que c'est ce qui est plus intéressant dans les états statistiques alors la deuxième idée qui a la vie dure en fait je me suis pas rendu compte que les et classés par ordre d'ancienneté
00:26:49
donc c'est celle que l'on ne rencontrait donc depuis 40 ans ils étaient les autres nommés après c'est qu'il faut impérativement soumettre les textes à des traitements avant d'effectuer des
00:27:03
comptages statistiques alors parce que je sue l'insee impérativement je ne dis pas qu il ya des gens qui aiment soumettre par exemple et matiz est catégorisé projeter des catégories
00:27:16
grammaticales tout ça je ne dis absolument pas que c'est pas bien j'ai rien contre mais l'idée que si on ne fait pas ces opérations ce qu'on fait n'a aucune valeur est une idée fausse parce que souvent et les statistiques qu
00:27:29
utilisent des méthodes des comptages des réorganisations du texte qui sont d'une brutalité absolument effrayante si on prend le temps d'y réfléchir passe par dessus le fait que le texte n'est pas les matiz est ou n'est pas
00:27:41
catégorisé on en reparlera tout de suite à un troisième c'est que les outils statistiques élémentaire pourcentage moyenne et c'est qu'on a appris au cours élémentaire au cours moyen
00:27:54
je suis fils dans toutes les situations il ça c'est pas vrai et souvent si vous voulez mais les gens ont du mal à comprendre par exemple souvent comme les pourcentages c'est bien mais ça ne sert
00:28:05
pas à tous l'exemple plus simple je dire quatre fois une pièce il tombe trois piles 1 face donc jeudi trois contre un qu'est ce que j'ai à dire à peu près rien je vais m'arrêter parce que c'est
00:28:19
des choses qui arrivent tous les jours maintenant je tire quatre mille fois à pile ou face et je tombe sur 3000 milles et 1000 face alors
00:28:31
là c'est pas le même problème et proportions sont les mêmes les pourcentages sont les mêmes mais la deuxième situation est tout à fait exceptionnel parce que je sais que ça n'aurait pas dû arriver comme ça quand
00:28:43
on fait un tirage au hasard c'est quelque chose qui arrive très rarement oui c'est un exemple où le pourcentage qui peut servir dans la vie qui peut servir pour l'augmentation de la baguette et des choses comme ça ne
00:28:54
sert absolument à rien dans certains domaines il faut savoir manipuler ses jeux ses outils le sens des mots se trouve dans le dictionnaire jour est une illustration après c'est vrai que dans le dictionnaire en août clip le sens des
00:29:07
mots mais ça nous il n'est pas vrai que dans les dictionnaires il ya tous les sens de tous les mois toutes les époques et tout le temps les dictionnaires sont fait à une époque est très souvent les choses intéressantes que le chercheur
00:29:20
essaie de cerner parfois il ne se trouve pas dans les dictionnaires il ya des sens qui sont justement pas dans les dictionnaires usuels et c'est cela qui sont les plus intéressants souvent enfin une idée certains mots véhicule du
00:29:33
sens et d'autres non c'est à dire qu'il ya des mots qui sont bien sûr constitution on voit bien que c'est plus compliqué que là l'article mais ça ne veut pas dire forcément que l'on peut pas attaché du
00:29:46
sens à l'emploi d'indéfini contraint indéfinie j'en parlais tout à l'heure alors question encore comment quelqu'un
00:29:58
quelque l unité utilisée pour la segmentation alors je me suis offert un bon moment à rome par exemple jamais montré ce sauvetage qui est un texte de cicéron
00:30:11
connu qui cerne qui sert à faire que les imprimeurs ce qu'on appelle du loret leur indique les latins écrit mais comme ça en a plein on écrivait comme ça et ce
00:30:23
n'est que vers l'an 2000 que des moines sympathique irlandais se sont dit qu'après tout on pouvait mettre des blancs entre les les mots pour pour aider le lecteur à lord encore quand je
00:30:36
m'entraînais deçà des étudiants roumains il leur est demandé croyez moi explique espace qui avait pas beaucoup de place la pierre était cher alors ont passé les mots non c'est pas ce qu'on écrivait comme ça parce que le blanc a été
00:30:47
inventé mille ans plus tard alors je vais les peut-être un peu vite là dessus donc qu'elle le dise comment peut-on segmenter un thème ça dépend de ce qu'on
00:31:01
veut faire souvent 1 admettons je pense par exemple à j'ai un ami max gilbert klein qui a fait le lui sert elle sait ce qu'ils travaillaient
00:31:12
sur des poèmes de 10-12 ligne alors il s'occupait par exemple de racine oui bien sûr il ya des gens qui travaillent sur les n g j'ai oublié
00:31:25
admettant les les entreprises policiers en a qui essaient de déterminer quelle est la langue d'un texte il suffit de compter les groupes de trois lettres vous allez tout de suite savoir de quelle langue il s'agit mais bon ça donne plus
00:31:37
alors ensuite dans un poème par exemple on peut avoir envie de rapprocher liberté libre libéré cette info quand on étudie le discours politique il ya quelque chose à savoir dans les
00:31:50
textes des années 60 70 80 90 je crois maintenant c'est que dans les textes de gauche on parle souvent des libertés alors que dans les textes de droite on parle de la liberté alors quand il ya des gens qui disent il
00:32:04
est absolument impératif de ramener toutes les formes halle au masculin singulier et touba c'est s'asseoir sur la principale différence qui entre les textes droite et nous voulons pas forcément utile ce qui veut pas dire que quand on s'intéresse aux mots liberté
00:32:17
il fallait pas aussi essayer de s'intéresser au pluriel bien évidemment mais ce n'est pas évident que c'est la même chose que le c'est le même mot curiel la marque du pluriel assez souvent montre certaines
00:32:29
difficultés une difficulté avoir des difficultés c'est pas c'est pas pareil alors il ya la forme graphique qui a eu un grand succès pendant assez longtemps parce que c'était parce que c'était
00:32:42
facile c'était plus facile et puis on s'est aperçu aussi qu'avec des segments par exemple comme liberté de la presse voire des concurrences qui pouvaient être indexé séparément à la liberté de la presse c'est pas tout à
00:32:55
fait la même chose qu'un degré de liberté où que etc alors je passe rapidement au fait que ça dépend aussi des langues alors quand on fait de la recherche sur
00:33:06
les textes il ya une sale habitude dans notre monde qui est de se couper du français de l'anglais point final c'est un peu dommage parce que les autres existent aussi bon en russe par exemple il ya des
00:33:18
déclinaisons très fortes qui vont très fortement pour b vont changer la forme graphique du texte je veux vite en allemand il existe des mots composés cette notion de
00:33:32
mots composés dont celui là me fait rigoler y compris les allemands si on n'a pas autant que ça en fait mais l'idée par exemple qu'on pourrait à partir de ces mots composés recréer des
00:33:45
des unités des composés est absolument folle parce que morphologie ça passe encore mais mais là la noblesse d'âme ça
00:34:00
se découpe pas en morceaux c'est le moins comme ça donc les gens écrit comme ça bon en arabe il ya des pronoms en critique signale aussi que en italien par exemple ou en espagnol donne le mois
00:34:14
s'écrit en un seul mot alors que dans une langue très très proches il s'est créé en deux trois mots et que dans une langue pas trop lointaine non plus et s'écrit en quatre mois donc tout
00:34:26
ça c'est pas aussi solide qu'on croit et c'est vrai que les grammairiens existe depuis longtemps qui disque depuis longtemps mais c'est pas forcément des savoirs aussi solide je parle de segmentation sommes bons en chinois
00:34:40
jeunesse évite aussi en chinois les lecteurs chinois donc là alias kim une structure continue à c'est à dire que les caractères sont incrits semblant et le lecteur chinois disent prendre grade tout à fait facilement la chine d'un
00:34:54
film noir du peuple chinois ou au japon avec d'un caractère et c'est le lecteur qui segmente rats sans aucune difficulté ce qu'un étranger aura plus de mal monter les bons je ne m'appesantis pas
00:35:08
là dessus alors les segments répéter donc ça c'était une entreprise on s'est aperçu que dans les textes syndicaux en tout cas il y avait des unités qui circulait quand je veux dire qu'elle circule et c'est qu'elle était répétée à
00:35:22
d'autres endroits du texte et qui était très longue 1 par exemple la défense des intérêts matériels et moraux le retour aux 40 heures sans diminution de salaire c'est quelque chose que vous risquez d'entendre dans les périodes qui
00:35:35
viennent ça sera plus la rente safra 39 mais bon contre le progrès mais la propriété sociale des moyens de production et des changes ça c'est un segment qui vient du pardon
00:35:47
qui vient du manifeste du parti communiste de marx et m gagne 5,18 semant la séparation et l'équilibré des pouvoirs issus du suffrage universel c'est plutôt plus tard dit voilà c'est des choses comme ça qui circulent elles
00:36:00
sont tellement répété qu' on a envie de voir si si elles n'existent pas par elle-même alors une autre illustration comme ceux d'eads et du sens des mots
00:36:13
ici un texte toujours la cgt en 78 et vous savez quand un syndicat reprend trois ans plus tard dans un texte de résolution de congrès il reprend le
00:36:27
préambule surtout si c'est un syndicat sérieux et qu'il a déjà dit de trois ans avant à peu près la même chose de sa situation n'a pas évolué et des textes qui ont été soumis à des amendements discutés
00:36:39
donc on évite de trop les bousculer et quand on a on veut dire la même chose la même chose c'est à dire qu ici j'ai mis en gras ce qui a changé par rapport aux documents de 75 c'est à dire le
00:36:52
document de trois ans a comparu comme si j'aime bien ouvrage je veux dire à l'aide de procédure informatisée alors on voit que le titre a changé dans ce document si vous faites un document de trois ans plus tard c'est à peu près
00:37:05
le même que celui d'avant autant changer le titre parce que sinon les gens vont s'apercevoir que c'est le même mais ensuite donc je passe vite il ya quelques corrections il ya un paragraphe ici qui a été un terreau calais mais je voulais
00:37:18
attirer votre attention sur le dernier paragraphe alors le dernier paragraphe 10 les réflexions qu'on me pose est exposé dans ce document constitue une base commune aux organisations de la cgt pour
00:37:32
la poursuite de la réflexion et la discussion avec les travailleurs etc le document précédent disait constitue la base commune alors voyez donc dans un texte de 52 familles à une seule forme
00:37:47
qui a changé alors on va dit bien sûr mais moi je prétends que ce texte cela veut dire exactement le contraire de ce que disait le précédent c'est dans un cas les gens disent si ça constitue la presse commune c'est à dire c'est sur ce
00:38:00
texte on discute si ça constitue une base commune dire on discute sur ce texte mais on peut aussi discuter d'autre chose et donc c'est une illustration a mûri de la manière dont en politique on peut dire exactement le
00:38:13
contraire avec les mêmes mots et ça passe par un petit article qui a changé vous voyez faut être très méfiant et c'est très intéressant mais on peut pas dire une fois pour toutes que les articles que certains mots qui n'ont
00:38:27
aucun sens je crois que c'est pas vrai voilà alors donc encore un exemple de choses que peuvent faire les machines un peu rapidement ici la déclaration des droits de l'homme
00:38:49
ces pratiques géo trouve tout ce que c'est eux et il ya un logiciel qui s'appelait cordiale qui donne une analyse de ce texte il dit zanatta les
00:39:03
taux fixes demos project investec ce bon comme on doit aller rapidement nonobstant le fait qu'ils aient une caméra l'excédent enregistré lorsque une bêtise quoi cesse c'est une ânerie
00:39:15
le tec vous êtes d'accord que la déclaration des droits ne s'attarde pas d'anatomie pourquoi il a il est arrivé à cette conclusion c'est parce qu'il a trouvé hommes corruption naturel membres du corps
00:39:28
moment du corps social et qu' il a tilté sur l'anatomie vous voyez donc la langue l'expresso c'est un effet que de ça images de deux termes qui sont repris quand je dis les membres du corps social il ya assez peu
00:39:41
de gens trop qu'imagine une jambe ou un bras mais dont formellement du point de vue textuel membres du corps dans un texte politique membre du corps social ça ne fait pas référence à d'anatomie et
00:39:53
on en est nous tellement consciente ça ne peut pas faire référence à l'anatomie que ça nous échappe mais si on regarde ça formellement une machine risque de se planter alors dernière illustration de ce qu'on
00:40:06
ne faut pas faire les pourcentages j'ai donné un exemple tout à l'heure en voici un autre ceci est une courbe d'accroissement du vocabulaire ici sur le texte du discours l'ex président des états unis mais peu importe
00:40:19
donc il ya un texte vous voyez de 1500000 l'occurrence on appelle ça des fois cette variable n le nombre des mots est ici le nombre de vos cas de rencontre et donc chaque fois qu'on rencontre nous
00:40:32
vocable en grade et ses courbes la des cours d'impression du vocabulaire ont toujours à peu près cette poche alors vous voyez que si vous aider comme ça vous dit bon bah qu'est ce que c'est
00:40:44
que la richesse d'un texte grosso modo je vais diviser le vote le nombre de formes différentes par le nombre de formes au total alors voyez quel embêtant c'est que si vous faites ça pour un petit texte ici vous allez
00:40:58
tomber sur un rapport assez élevé et si vous prenez le même texte mais plus long vous tomberez sur un rapport plus faibles etc etc ça veut dire quoi ça veut dire que v sur rennes c'est pas du tout une revue de
00:41:10
noyen de calculer la richesse du vocabulaire de textes si tenté que cette notion est une science d'accord donc voilà c'est des pièges que je voulais vous signaler qu'ils sont des pièces dans lesquelles les gens tombent assez
00:41:24
rapidement alors donc ce qu'on fait plus tôt c'est d'avoir des tableaux lexicaux c'est à dire des comptages vous voyez dans lesquelles chaque forme génère une ligne du tableau et ici il s'agit de
00:41:40
huit partis dit si ça doit être le père du jeune en france un texte et on va essayer de comparer chacune des parties par le vocabulaire cas l'emploi d'accord alors tout ça c'est vite dit c'est bien dit mais il faut savoir que ce tableau
00:41:53
là pour un texte comme le père duchesne qui fait environ 140 me l'occurrence ça va être un tableau comme ça de 11000 ligne donc inutile de venir c'est assez rébarbative c'est ingérable
00:42:06
donc il va falloir avoir des méthodes pour répondre à des questions qu'on va se poser sur quels sont les partis qui se ressemblent plus comment les mots évoluent dans cette partie pour décrire
00:42:19
en gros les tableaux lexicaux alors comme on va traiter j'accélère un peu encore je vais vous parler de deux méthodes et surtout comment les articuler on verra tout à l'heure une méthode qui est une approche
00:42:31
locale c'est à dire qu'on va se demander si on ne veut pas projeter un diagnostic sur chacune des cases du tableau ici qu'est ce que je peux leur dire c'est beaucoup c'est pas beaucoup c'est ya rien à redire et c'est tout ça donc en
00:42:45
référence à la longueur de la partie 6 ans colum et à la fréquence de la forme ici en ligne et au total du texte mais bien entendu comme vous expliquer tout à l'heure c'est certainement pas à peu
00:42:58
pourcentage qu'il faut y aller parce qu'il ya des femmes qui sont très très très fréquentes et d'autres qui sont 43 4 occurrence dans le texte on ne peut pas comparer comme ça des pourcentages l'autre méthode ça sera l'analyse
00:43:10
factorielle des correspondances ici par exemple pour rien nous permettre de faire d'avoir une approche globale dans le sens que elle pourra dire va finalement tel parti est un parti se ressemblent pas mal et par contre tel
00:43:23
autre monde deux parties se ressemblent vous voyez c'est faire une typologie aussi sur les formes peut faire des typologies alors avec les spécificités on arriverait si vous voulez a
00:43:35
transformé ce tableau de nombre en un tableau de diagnostic où on dirait bon 89 là sur le total c'est très très gros alors que 99 à côté c'est très très peu que etc
00:43:49
et puis les cases blanches strictement rien à en dire voilà donc ça sera déjà à bosse c'est une procédure extraordinairement brutale vous
00:44:00
connaissez la d iliad et des déblais qui sont tellement classique que les gens ont pu les faire alors quand ils ont mon âge défend s'aperçoit que les plus je ne connais pas vous connaissez la mais vous certainement connaissez l'histoire du réverbère de l'ivrogne robert baird
00:44:15
nasreddin hodja voilà les gens comme tout le monde donc ça m'évite de la raconter alors l'idée c'est que on en croit une procédure extraordinairement bretagne mais on était heureux c'est il
00:44:28
va signaler qu'il est parmi les plus jeunes alors lee l'idée c'est que l'emploi des plus des procédures extraordinairement bretagne pour je vais en parler tout à l'heure pour dire un
00:44:40
peu beaucoup et tous les sens d'une rusticité absolument effrayante et la réponse est trouvé mieux là et rien d'autre à faire si on ne doit pas des méthodes de calcul d'une brutalité effrayante eh ben on ne peut pas calculer et on n'a
00:44:54
rien à dire par contre si on les emplois sur tout les colloques du tableau et ici on a de l'ordre de 100 mille colonnes et bien on peut avoir une approximation de ce qu'ont cherché c'est à dire beaucoup
00:45:04
très peu ont rien à dire on la méthode ici brutale dont je parle ça consiste à prendre le texte pour chaque mot occurrences du mot à l'isf mais une boule rouge pour chaque
00:45:18
occurrence de tout autre mot je mets une boule bleue et je me dis si j'appliquais au hasard dans cette urne un échantillon de la longueur du premier chapitre à quoi est-ce que je devrais m'attendre
00:45:31
ici concernant alice qu'est ce que je pourrais espérer alors ça la question est posée mathématiquement il ya une réponse on y va dans 0,001 les gars vous aurez une
00:45:46
occurrence de alice dans temps 2% dont on aurait deux puis trois puis quatre puis cinq comme s'il était d'accord ça s'appelle une distribution de probabilités d'accord donc ça c'est
00:45:58
cette distribution est calculé on est d'accord uniquement avec les trois paramètres la taille totale du corpus la taille de chacune des parties et la fréquence de chacune des formes hop j'ai calculé cette forme
00:46:11
alors maintenant il se trouve que dans la case du tableau en question il ya un effectif on en a effectivement rencontré qualifie alors là il ya trois situations première situation le ce
00:46:24
qu'on a rencontrés c'était dans l'ordre de ce qu'on pouvait prévoir donc on dit et c'est très important c'est trop rare on dit je n'ai rien à dire et je la boucle banal il ya strictement rien à
00:46:36
dire c'est ce que le hasard ne laissait prévoir alors c'est vrai que c'est pas courant que les gens qui n'ont rien à dire ce test des boues la cité alors
00:46:46
sinon autre situation le cas ici qu'on a rencontré l'effectif était quelque chose d'assez bas c'est peu probable et dans le sens que la somme des probabilités à partir de ce qu'on a
00:47:00
rencontrés jusqu'à plus est très petit on dira alors ce qu'on a rencontrés c'est un sac c'est le signal que là il y en a beaucoup on va dire que c'est beaucoup on a
00:47:12
rencontré plus tôt plus que l'on pouvait espérer et inversement si on se trompe dans l'autre bout de la distribution c'est à dire si on a rencontré un effectif qui est plus petit que ce qu'on pouvait
00:47:24
espérer en gagner beaucoup plus petits en uranium à peu à l'envoyer encore une fois tout ceci pour arriver à transformer ce tableau là en un tableau comme ça c'est à dire beaucoup peut
00:47:37
énormément pas beaucoup et ça permet de ensuite de faire des calculs comme ça c'est à dire on peut par exemple pour un chapitre donné on peut pour échapper
00:47:50
trop donné faire la liste des formes qui sont surutilisés dans ce chapitre là on utilise beaucoup ici c'était vrai calcul s'élèverait fréquence des formes la vraie fréquences dans le chapitre et le
00:48:03
degré de spécificités j'ai pas le temps de m'étendre là dessus par contre on vit cette par exemple dans ce chapitre au 1 est très peu utilisé après on verra le site par exemple alice
00:48:16
elle est très contemplative je parle d' alice au pays des merveilles je vous donne une explication peut trouver elle est très contemplative elle n'est pas beaucoup de choses dans les premiers chapitres i am se met à prendre
00:48:28
l'ascendant sur les autres dans le dernier chapitre elle se révolte un peu je rappelle pas bon autre exploitation de ce même tableau pour un mot donné jeudi
00:48:41
dans ce chapitre là il y a rien à dire là là là il y en a beaucoup dans le chapitre 7 dans le chapitre 9 et dans et par cointrin pas beaucoup dans le chapitre 11 oui c'est la même exploitation du
00:48:54
tableau je regarde pour un chapitre données quelles sont les réformes qui sont très abondantes ou au contraire très rare sur les lignes donné je regarde quels sont les chapitres qui envoie beaucoup cette forme et ceux qui
00:49:07
ne l'ont pas je crois que je vais passer à huy cette excuse moi de ces drummond pas freaks alors je vais peut-être passer à une
00:49:21
démonstration de ces mêmes choses alors oui j'ai préparé deux corpus l'un le corpus du père duchesne sur lequel depuis 40 50 cent je je je je prends mes
00:49:53
exemples je pouvais bien et puis l'autre le corpus de paix en moulin sur les infirmières sur lequel on n'a pas encore travaillé autant que ça alors je commence donc ici un interface qui vous permet de choisir en quel nom vous
00:50:04
voulez vous voulez travailler par le fait ça en français donc je prends un texte art et je vais ici le segmenter
00:50:20
alors voilà donc segmenté ça veut dire que je vais calculé ici vous voyez la souris que j'ai ou pas donc segmenté ça veut dire que j'ai des des limiteurs de
00:50:34
formes et toutes les autres sont considérés comme des formes graphiques et puis j'ai un caractère particulier ici que je voyais que j'aime ici qui me permet de signaler des paragraphes alors voilà donc on a segmenté un texte
00:50:51
de 140000 occurrence environ ce pas énorme et je vais pouvoir passer ce que tu es tout à l'heure c'est à dire ça je
00:51:03
vais le visitent élevé naviguer comme on dit maintenant je vais visiter s'il prend un mot comme nous par exemple je peux essayer de voir où est ce qu'il apparaît ici l'écart est foncée veut dire qu'il y
00:51:17
appliquer vraiment très utilisé alors je vais et c'est bon là je voulais te voilà effectivement là il est très utilisé et puis l'année car elle
00:51:29
la cdca ses éclats ou le monde à paraître pas ou alors apparaît de manière normale bon je vous avais parlé des concordances tout à l'heure on peut aussi faire des concordances trier le contexte à droite
00:51:42
à gauche et c'est donc on peut aussi alors on peut avoir des faire des recherches sur des choses par exemple je
00:51:56
vais anticiper un tout petit peu jeudi le motif je cherche autour de la patrie et tout ça alors je dis par exemple pâtre et le début de ce que je recherche alors j'ai tombe elle souhaite patriotes
00:52:09
patriotique mais aussi art à tron patronne pas trahi stade je n'avais pas pensé et c'est pas ça ne veut penser patriarche non plus d'accord donc ça je supprime voilà et j'ai une espèce de
00:52:22
leurs racines comme ça donc j'aimerais bien savoir comment est-ce qu'on porte dans les textes donc ici j'ai un garde-manger là qui va me permettre de le stocker alors bien sûr on peut aussi
00:52:33
faire des excuses et moi on peut aussi faire des graphiques antil à sion sur une partition par
00:52:47
exemple moi je vais un petit peu vite j'en ai conscience et voilà faire faire des graphiques comme ça pour voir comment la forme se comportent et est demandé aux six cela
00:53:01
il s'agit de fréquence relative je peux aussi les voir en fréquence absolue ce qui donne à peu près la même chose parce que ici les chapes pipelet les périodes sont de même longueur et je peux aussi les voir un spécificité ce qui est le
00:53:15
seul bon calcul c'est à dire qu'il tient compte à la fois de la longueur des textes et de la longueur des formes et qui permet aussi de comparer des formes variées oxygène
00:53:24
où je peux regarder vous donc ça fait ça fait jeudi une quarantaine d'années que je vais aborder ce corpus et comme je fais des démonstrations je le remarque que je n'hésite pas à faire des choses dont je connais pas le résultat voilà
00:53:39
nous et vous voyez c'est par contre on trouvera des interprétations à ces choses mal pourquoi ya des numéros qui sont très en vous et d'autres qui sont très en nous je peux expliquer bien
00:53:54
alors ça devient plus intéressant quand on s'occupe d'eux par deux parties alors si je il s'agit ici d'un corpus je vais pas dit qui comporte 96 livraison du père duchesne
00:54:07
j'ai pas non plus le temps de raconter perdu c'est un journal révolutionnaire certainement qui a à voir quelque chose comme le canard enchaîné dont les historiens se demandent encore pour qui
00:54:19
l'auteur jacques rené d'albert rouler si ce n'était pas un agent monarchie saucisses étaient pas au contraire jacobins extrême gauche ce qui est formidable avec la révolution française c'est quand
00:54:32
on discute de siècle plus tard on n'avance pas toujours alors ici donc si je fais une partition par exemple je peux partitionner par numéro oui
00:54:46
donc il ya 96 numéro et je peux essayer de faire une typologie sur ces numéros voyez donc je vais trouver une opposition ici entre des numéros chez nous dans la droite comme je connais le corpus vous le dis
00:55:00
on va se demander qu'est ce qui caractérise les numéros ici de droite donc je fais des spécificités de ces numéros l'un d'eux gicquel et de vocabulaire qui est fréquent dans ses numéros et c'est je me maquille comme
00:55:14
moi etc les jeudis et de ce côté là quel est le jeu peut articuler les deux méthodes que je vous ai présenté là je dire de ce côté là qu'est ce qui est fréquent à
00:55:25
quoi s'opposent ben ça se pose à nouveau et c'est en allant plus loin on s'aperçoit que bon comme tout le monde le japonais est belle elle a fait ses études chez les jésuites il ya il est
00:55:38
capable de fois de faire une rhétorique qui ressemble à un sermon par exemple se base pas ce que je peux vous montrer le texte des bus ça peut parler de ma rad assassin mais sur la rhétorique du
00:55:49
sermon et parfois ça ressemble au théâtre de foire comme ici comme vous soyez des comédiens qui jouent sur sur une estrade pour donner envie aux gens d'aller voir la pièce qu'on va qu'on va
00:56:02
jouer ben voilà il a ces deux styles alors c'est intéressant pour les gens qui s'occupent de stylistique on peut essayer de tenter une autre partition du texte
00:56:13
voir les choses autrement est partitionné en moi et demander aussi ici une analyse factorielle sur les mois là j'ai rassemblé tout ce qui est paru en
00:56:26
un seul mois et je vais tomber sur quelque chose de bizarre je n'ose pas dire inattendue puisque je me dis je connais score plus depuis une quarantaine d'années mais c'est que les nîmes les mois qui sont
00:56:38
proches dans le temps voyez 1 2 3 4 5 6 7 8 se situent les uns près des autres ça veut dire qu'il ya une évolution dans le vocabulaire et hier ça nous fournit un schéma temporal ici et même une
00:56:51
exception le moins numéro 7 qui ne se trouvent pas ici comme on pourrait s'y attendre mais qui retournent vers vous bien entendu avec l'aide des historiens et un regard d'un petit peu la période
00:57:04
on comprend assez bien ce qui s'est passé il ya une évolution dans le temps tissu bien paroxysme ici on va essayer de savoir quels sont les mots les plus fréquents ici les plus minces et
00:57:15
patriote accusé conspirateurs divisée donc ici on peut dire on peut avancer l'hypothèse enragé avancé l'hypothèse d'une quarantaine d'années mais ça sert
00:57:29
été confirmé qu' il s'agissait d'un vocabulaire offensif vous trouverez divisé brouillé contre conspirateurs et c'est le problème se mettre dans cette
00:57:40
liste de se demander pourquoi il ya certains mots qui s'y trouvent alors with the way de nouvelles par exemple et je me dis tiens nouvelle qu'est ce que ça fait dans le vocabulaire offensif alors pour ça je fais une concordance de
00:57:53
nouvelles je vais groupe et par moi et je vais aller regarder dans le moins numéro 6 pourquoi il considère que nouvelle enfin il me signale que nouvelle et pendant que nouvelle est un
00:58:08
mot tournée we dont j'ai dit groupe et ce qu'ils veulent moi par mois je vais voir nouvelle ici voilà parti
00:58:20
numéro 6 et je peut trier dernière alors vous voyez ici on va faire comme ça pour
00:58:34
laisser ce que sa peine ici derrière voilà ici vous voyez il c'est le mot nouvelle dont je prends conscience en regardant sac nouvelle en fait à 200 ce qui m'avait échappé nouvelle ça peut vouloir dire deux
00:58:47
choses différentes ça veut dire quelque chose qui est nouveau complètement et ça peut vouloir dire à nouveau alors si c'est à nouveau ça veut dire que ça a déjà été et ça devient or dans
00:58:59
ce chef dans ce mois numéro 6 que j'appelle offensif on s'aperçoit que il parle d'une nouvelle vendée la révolte de vendée a été écrasé il y attention une nouvelle vendait qui est en train de se former
00:59:11
ça veut dire à nouveau une nouvelle clique d'aristocrates en principe les aristocrates on a réglé leur compte il ya une nouvelle clique d'aristocrates nouvelle intrigue nouvelle farce nouvelle majesté gorges nantes nouvelle manie de tout ce
00:59:23
mot nouvelle est employé ici pour dire attention on croyait avoir gagné ça mais ya à nouveau des gens qui s'attaquent à la révolution voiliers et donc ça si une
00:59:35
nouvelle de ce point de vue là dans le vocabulaire offensif alors que les dictionnaires n'aurait pas forcément de considérer que nouveau en soi est un mot offensif voiliers et donc jeu j'essaie
00:59:48
de montrer comment on va vers une espèce de ses marques locales l'important c'est parce que les mots veulent dire d'un dictionnaire c'est ce qu'ils veulent dire dans le contexte alors bien entendu c'est des méthodes texto métriques bien entendu les ordinateurs ne savent
01:00:00
pas lire comme les humains et ne savent pas projeté du sang sur cette phrase aussi précisément que les humains mais ils peuvent envoyer des signaux qui peuvent être interprétées et dans la récurrence après ne peut que conforter
01:00:14
ce qu'on était y voyez c'est on va tomber sur des listes alors ça sera la même chose les conspirateurs ses rangs soit un mot qui sans l'agressivité qui sent le disant la polémique
01:00:25
aristocrate bien sûr et tout diviser tout ça et oui mais il ya des mots comme nouvelle on trouvera aussi intrigant à meyer prend un autre exemple les meilleurs ont d ailleurs la non meilleur ça doit être l'exception
01:00:38
parce que comment meilleur peut être un mot agressif et ben il faut aller au contexte et on va trouver ici que meilleur si vous voulez si l'on regarde le contexte c'est toujours qu'il ya des
01:00:52
gens qui accuse qui traite ou qui astique code qui déchire qui égorgent et où les meilleurs républicain voilà pourquoi c'est un mot agressif c'est à dire nous les meilleurs républicain que nous sommes agressées par des gens
01:01:05
quittent alors ce mot là qui ennuie n'est pas en soi même n'est pas en lui-même pardon il n'est pas un mot polémique n'est pas mon agressif mais dans le contexte il sert à une
01:01:19
construction qui est toujours dumas mort c'est à dire il égorge les meilleurs républicains eux alors il ya pas mal de fonctionnalités de j'essaie de vous parler de textos
01:01:31
mettrais plutôt de logiciels vous voyez on peut varier les jeux veut peut-être que se termine sur les infirmières de pire au moulin vous comprenez ce que je veux dès lors il faut montrer comment
01:01:46
oui alors j'ai pas parlé de données dans quel peut-être avant alors au début avant les enquêtes se faisait les gens savaient ce qu'ils cherchaient alors il demandait aux gens
01:01:57
par exemple est-ce que la réponse et blancs noirs ou verts et les gens répondaient sur les cases prédéfinies après on a eu l'idée qu'il pouvait avoir des réponses ouvertes comme l'anc est
01:02:11
par exemple que j'ai montré tout à l'heure et les gens seraient aperçus que c'était beaucoup plus rentable de demander aux gens ensuite même d'avoir des entretiens dans l'ordre d'entretien d'essayer de s'exprimer librement ce qu'il pensait 1
01:02:24
on a vu des surprises dans ces gens appellent à cette époque en dépouillant des questionnaires il y avait il y avait des gens à l'époque on côté les questionnaires il y avait des gens qui connaît alors passe quand on regarde et
01:02:37
une réponse on ait de quoi il se plaint sous la main il se plaint qu'il est parce qu'il n'a pas assez d'argent alors on notait un deux trois quatre cinq on côté les questions ouvertes on est fermé a posteriori on s'était aperçu
01:02:50
après qu'il y avait par exemple des gens concours qui disait nous avons des ressources financières insuffisantes et puis avec des gens qui disaient manque d'argent manque d'argent mon argent et les gens qui disaient manque
01:03:03
d'argent c'était manque de logements manquent d'argent c'était plutôt les jantes peu diplômés jeunes quartiers défavorisés et c'est alors que les ressources financières insuffisantes c'était peut-être pas exactement même
01:03:14
problème voyez alors à coder comme une même chose bien sûr les deux se plaignent pas avoir d'argent mais c'était peut-être pas exactement la même chose et on a on a de plus en plus valoriser les réponses natif des gens comment il le formule s
01:03:28
il ne formule pas différemment c'est pas forcément qu'ils parlent pas qu'il n'emploie pas les mêmes termes pour dire là chose c'est que peut-être les situations sont différentes alors donc de ce point de vue là les entretiens comme ça comme
01:03:41
ce que pierre a fait sur les infirmières c'est ça peut être passionnant si on prend alors on regarde le corpus donc il a codé sous son contrôle le lieu la localité de leurs locuteurs dans ses
01:03:55
locuteurs ensuite la région le sec je crois savoir la jeu malheureusement aussi l'avis de scène notre côté il ya toute une série de balises qui permet de coder des variables différentes à propos
01:04:08
de chaque entretien est donc ici donc toutes ces partitions on peut en activer qu'une seule à la fois on veut bien sûr en fabriquer une à partir de deux clés c'est possible on active une seule à la
01:04:24
fois et on peut je crois que j'avais regardé ici l'âge où on peut regarder par exemple les hommes et les femmes
01:04:37
pour aller vite alors qu'est ce que les hommes disent plutôt et 10 peu et il parle de sexualité peut remarquer et lé
01:04:51
sexuelle sexualité tout tout ça on peut faire un graphique ici par exemple on peut venir le sexuel sexualité 7,9
01:05:03
sexuelle la bombe ou alors on pourrait faire un groupe dire le patin soutiennent par l'anglais parce que je savais redémarrer tout ce qui est sexe
01:05:16
est contenue dans ce que je recherche voilà alors je trouve tout ça et je vais amener tout ça ici même faire des graphiques pour
01:05:28
vous voyez donc que les hommes donc apparemment je peux passer une spécificité apparemment les hommes en parle beaucoup plus moi ça je n'avais pas lui savait mais bon là on confirme quelque chose
01:05:41
qui serait peut-être pas seul mais bon c'était évidemment peur on peut faire ça sur des localités sur des et donc sur l'âge par exemple j'avais trouvé au chien un truc rapidement et puis je vais
01:05:55
me taire pourront aussi des questions j'ai fait n'importe où alors je fais une partition donc sur l'agff cette fois ci alors il ya quatre catégories d'âge et
01:06:12
610 m et donc on fait une analyse on s'aperçoit que les jeunes sont assez à part pourquoi on va se demander
01:06:24
qu'est-ce que pourquoi elles sont assez à part et ben parce que j'ai pas il ya des mots comme sa quête d'emploi que nos jours n'a pas encore regardé ces choses
01:06:36
là alors aussi à les segments répétées dont j'avais parlé donc je prends des segments je prends tout ce qui est segment répéter ici c'est à dire je recherche tout laissait
01:06:47
tous les segments répéter donc c'est des choses intéressantes parce que quand je mangeais crise programme donc c'était en 94 sais pas je mettais le réveil je le lancer vers une heure du matin puis je
01:07:02
m'étais le réveil à 5h pour voir si ça tournait toujours et puis vers 6-7 heures c'était fini sur des corpus de cette envergure là actuellement je prends le risque de le faire pendant la 2 66 vous allez voir ça
01:07:14
va aller assez vite me là j'ai peut-être en fait c'était on manie quand même d'aider des séquences assez voilà c'est fait et donc je regarde les séquences
01:07:26
les plus longues par exemple pardon alors voilà il ya des gens il y a des gens qui vont pas être bien il ya des
01:07:37
filles voilà on peut aussi illustré les catégories par des segments qu'ils emploient je pense qu'il faut que je m'arrête parce que sinon je parlais trop longtemps et je suis bien entendu
01:07:51
disposé à répondre à toutes vos questions si vous en avez marre merci beaucoup
End of transcript