Video: Maël PEGNY, Does the social scientist need to understand the computation? (DocDrop)

00:00:07

donc qu'est-ce que je vais vous expliquer essayer de vous expliquer aujourd'hui avec ce titre sibylin alors une introduction qui est en même temps en réalité une un plan parce qu'il n'y a

00:00:19

pas grand chose d'autre à dire ça part d'un travail que j'ai fait qui est en réalité mon premier projet de grande envergure en tant que data scientist que j'ai fini une formation dans le domaine cette année

00:00:32

qui consiste à faire de ce qu'on appelle donc le top avec de la modélisation de thème avec des méthodes de machine learning et un peu les leçons épistémiques que j'essaye d'en tirer sur des sujets analogues à celui qui

00:00:45

aujourd'hui donc je vais d'abord partir de je vais aller du général aux particuliers donc avant d'arriver à ce que j'ai fait en dernière partie je vais partir de certaines de certaines problèmes génériques dans la relation

00:00:59

entre l'emploi du calcul et les sciences humaines et sociales pas tous les problèmes génériques mais disons ceux qui me semblent à la fois suffisamment vastes et suffisamment relié à ce que je vais évoquer en fin de d'exploser donc

00:01:11

c'est purement à des fins de de service de la dernière partie si vous voulez et ensuite je vais montrer comment ces problèmes généraux prennent une forme particulière mais contrairement à ce qu'on pourrait supposer en premier dans

00:01:24

un premier temps sont toujours pertinents pour l'apprentissage automatique et après je passerai donc à mes différentes aventures et mes aventures en tant que programmeur alors pour les

00:01:37

problèmes on peut qualifiés de générique alors le premier problème quand on dit est-ce que un quelqu'un qui vient des sciences sociales et des humanités qui se met à employer un calcul donc les

00:01:49

outils des programmes des algorithmes peuvent se mettre à utiliser des outils formels et qu'on se pose donc la question est-ce qu'elle ou il a besoin de comprendre le calcul qu'il emploie

00:02:03

la première question pour moi évidente c'est de quoi est-ce qu'on parle quand on parle de calcul notamment est-ce qu'on parle de l'aspect ou est-ce qu'on parle de l'implémentation en sachant que pour moi j'ai comprends pas vraiment spec et implémentation

00:02:16

comme des dichotomie spécifications spécifications désolé je commence à devenir un peu métier là dans ma façon de parler mais donc la spécification c'est-à-dire la description de ce que le programme fait

00:02:29

et l'implémentation de comment le programme le fait en sachant je comprends pas ces questions comme une dichotomie qui séparait deux choses complètement exclusive l'une de l'autre vu que ce qui

00:02:42

est la spécification d'une chose peut devenir un autre niveau l'implémentation de quelque chose de plus abstrait donc c'est plutôt une question de niveau d'abstraction qu'une dichotomie entre deux choses deux

00:02:54

entités complètement exclusives l'une de l'autre donc à quel niveau de d'abstraction est-ce qu'on regarde en fait notre calcul quand on se pose ce genre de question et je prends un exemple volontairement complètement stupide mais volontairement

00:03:07

complètement stupide qui est je suis démographe et j'additionne la population de la région a et de la région B pour obtenir la population globale quand je fais ça est-ce que j'ai besoin

00:03:19

de savoir l'algorithme exacte avec lequel je calcule l'addition en sachant que évidemment je peux la faire à la main avec une représentation décimale et le bon vieille algorithme qu'on nous a appris à l'école ou mais si

00:03:32

je le fais sur un ordinateur en réalité c'est fait en binaire hautement parallélisé avec un usage très très optimisé de mes processeurs et donc ce n'est pas du tout la même bête que l'addition qu'on m'a appris à l'école c'est quelque chose de beaucoup beaucoup

00:03:45

plus sophistiqué très différente nature mais la question pour le point de vue du démographe imaginaire qu'est-ce qui s'en fiche en fait qu'est-ce que ça va faire avec ce qui ce

00:03:58

dont il a besoin ce qu'il lui faut c'est que savoir que que c'est une addition savoir que c'est les bonnes entrées et savoir que le calcul est correct et à partir du moment il a le droit de prendre l'addition de

00:04:10

la population a et p comme la population totale qui l'intéresse et c'est tout ce qui l'intéresse priori le détail de l'implémentation de l'addition dans son ordinateur c'est complètement sans pertinence donc

00:04:22

les il faut rappeler que le calcul il y a aucune raison de penser que le calcul dans tous ces détails sont intéressants en soi ça rien d'une évidence donc la vraie question une fois qu'on sort des exemples volontairement

00:04:36

simplifiés pour juste pour faire illustrer un point théorique c'est quel niveau de quel niveau d'abstraction est nécessaire pour quel problème

00:04:46

et alors pour continuer sur ce thème je reviens alors ce que je vais appeler faute de mieux parce que c'est vraiment un terme complètement foutraque

00:04:59

l'intuition on va dire dirait presque les intuitions métiers si on se parlait comme dans l'industrie c'est-à-dire en réalité les intuitions de la personne qui vient des sciences sociales et

00:05:11

humaines avec les méthodes formelles alors je vous présente disons quelque chose qui est un chemin de relation disons bien connu entre les sciences sociales et SSH et

00:05:24

les méthodes de computationnel je dis pas que c'est le seul mais c'est un qui est bien inconnu et que j'ai eu le privilège de rencontrer de multiples reprises dans mes études de philosophie des sciences et que je rencontre maintenant façon très concrète dans ce

00:05:38

que je fais donc l'idée c'est qu'on part d'un problème qui est posé de façon intuitive de manière intuitive c'est à dire en fait en langue naturelle

00:05:49

sans mathématiques et sans calcul alors évidemment ça peut se discuter si c'est toujours le cas en sciences sociales il y a des sciences sociales qui sont nativement mathématiques on pourrait dire notamment

00:06:01

parlé de la théorie du choix social ou évidemment certains principes de l'économie ont été d'emblées mathématisés donc on peut dire qu'à certaines sciences sociales qui sont qui parlent pas d'un problème en langue naturelle mais qui parle en fait d'emblée de quelque chose qui

00:06:14

mathématisé mais même dans ce cas là ça peut se discuter parce qu'on peut dire qu'il se réfère quand même implicitement à des intuitions sur le monde social qui reste un peu sous-jacente mais qui sont là tout de même donc c'est pas c'est pas totalement évident mais disons que c'est

00:06:28

assez fréquemment on parle d'une science sociale donc on va parler de problèmes qui d'abord se sont posés en langue naturelle avant d'être l'objet de méthode de former donc ce qu'il faut faire c'est traduire un problème qui a été posé en langue naturelle en un problème qui soit formel donc il y a un

00:06:40

étape importante de traduction des problèmes et c'est ça qui est censé nous donner une spécification et ensuite et bien on doit exécuter une méthode computationnelle qui satisface cette spécification formelle

00:06:53

l'enjeu étant de savoir quand on a passé toutes ces étapes je vais prendre un exemple bientôt parce que là c'est très abstrait mais l'enjeu est évidemment quand j'arrive à avoir la sortie de mon calcul est-ce que j'ai le droit de voir la sortie de mon

00:07:06

calcul comme une solution à mon problème initial c'est-à-dire mon problème intuitif ou pas en sachant que dans le cas de l'addition la réponse était évidemment oui je me fiche des détails mais en même temps

00:07:18

c'est évident que c'est pertinent parce que je fais tandis que dans d'autres cas ça va être beaucoup plus compliqué donc et alors là c'est une petite remarque mettez de logique dont je me

00:07:30

suis rendu compte que pleinement que en préparant ces transparent pour vous ce qui est assez amusant c'est que c'est des problèmes à la réalité assez classique dont je vous parle ils sont très très bien connues dans l'histoire des sciences sociales et dans l'histoire

00:07:42

de la philosophie des sciences aussi et en même temps d'un point de vue méthodologique il n'y a pas de méthode systématique pour ça c'est des problèmes qu'on a rencontré je ne sais combien de dizaines de fois et pourtant on n'a pas

00:07:55

d'approche standard pour ces choses là c'est des choses qu'on fait au cas par cas toujours c'est assez fascinant il n'y a pas de méthode systématique pour savoir si votre calcul correspond à votre intuition de départ derrière il y

00:08:07

en a pas il y a plein d'approches il y a plein de tentatives il y a plein de travaux qui ont été faits mais il y a pas de méthode systématique et vous voyez que vous pourriez par avoir par exemple avoir toute la connaissance mathématiques du monde et être complètement Grosjean comme

00:08:21

devant quand votre collègue sociologue va vous dire oui mais en quoi est-ce que ça répond vraiment mon problème de départ il y a une vraie difficulté méthodologique là-dedans très très profonde et je vais essayer de revenir et je me demande d'ailleurs si la

00:08:34

philosophie des sciences a vraiment rendu tout le respect qu'elle devait à ce genre de problème récurrent c'est aussi un petit problème qui m'habite un peu en ce moment donc qu'est-ce qui

00:08:47

arrive si par exemple il y a un deuxième problème qui est problème après le problème de la traduction des problèmes intuitifs un problème formel problème de la validation des résultats de données par vos méthodes format c'est à dire très simplement on va voir qu'il y a des

00:08:59

moments où ça vous arrive pour de vrai ça m'est arrivé beaucoup qu'est-ce qui arrive si le résultat de votre méthode computationnelle et contre intuitif ne vous semble pas évidemment valide du

00:09:12

point de vue intuitif de départ qu'est-ce que vous en faites de ce résultat alors quand je vous parlais de modélisation de thème quand on vous avez un résultat en modélisation de thème c'est en fait c'est pas un thème comme

00:09:25

un mot ou une phrase c'est un sac de mots qu'on identifie avec ces termes les plus fréquents dedans donc en gros vous avez trois quatre cinq six mots les plus fréquents et à partir de là vous essayez de deviner le thème que ça représente la dernière étape de mettre ça avec dans

00:09:38

une expression synthétique c'est vous qui l'a faites en lisant les résultats d'accord c'est pas l'ordinateur qui vous la donne et le problème c'est qu'il y a des moments où vous retrouvez avec des résultats moi je me suis retrouvé avec des résultats comme celui-là vous voyez je vois plateforme ouvert

00:09:51

usage en ligne publique ça parle de quoi ça je sais pas en fait je sais pas qu'est-ce que de cette peut-être que ça parle de quelque chose d'intéressant mais je sais pas en fait de quoi c'est le thème sous-jacent ici c'est quoi je

00:10:08

sais pas et je sais même pas quel est mon problème en fait est-ce que ça c'est un bug parce que je dois considérer que le calcul à un moment ne correspondait plus à ce que je voulais qu'il fasse est-ce que c'est un résultat contre-intictif c'est ce qui serait très intéressant ça veut dire qu'on

00:10:21

arriverait à obtenir des résultats avec ces méthodes qu'on n'arrive pas à la main donc ce serait très intéressant ou est-ce qu'on est obligé de revenir à la compréhension initiale de notre question ça m'est arrivé aussi de nombreuses reprises pour

00:10:34

voir si une manière d'ajuster la question ne pas la considérer initiale j'entends la question intuitive et ne pas la considérer comme sacro-sainte donc il y a cette question méthodologique encore une fois très

00:10:46

générique qui est est-ce que j'ai un outil pour valider les résultats indépendamment de l'examen des étapes du calcul

00:10:58

ce rapport de validation non pas par un terme par examen du calcul mais externe par confrontation à l'intuition sur les résultats et qu'est-ce que ça change dans les rapports méthodologiques entre les disciplines quand on a ça ou quand

00:11:11

on l'a pas et enfin troisième problème générique c'est le dernier pour finir cette première partie qu'est-ce que faire de la pluralité des formalisations c'est à dire quand on fait une

00:11:25

formalisation d'un problème intuitif on n'a pas toujours un résultat unique en fait il arrive souvent qu'on en est plusieurs il y a plusieurs traditions alors qu'est-ce qu'on fait cette pluralité et comment est-ce qu'on interprète

00:11:36

est-ce que c'est parce qu'on a produit une analyse conceptuelle d'un concept vague ou deux concepts vagues ou de questions qui étaient vagues et que et que donc c'est explosion de ma question initiale en plusieurs sous questions est

00:11:50

en fait le fruit d'une clarification conceptuelle est-ce que c'est un échec en réalité on est obligé d'avoir plein d'approches tout simplement parce qu'on n'a pas la bonne et qu'on est obligé de

00:12:01

se livrer à des grosses approximations ou qu'on a fait des erreurs et que donc on n'est pas réussi à trouver un résultat qui soit stable ou alors est-ce que c'est est-ce qu'on peut le voir comme par exemple plusieurs

00:12:13

prix dans le pragmatique sur un problème conceptuel notamment quand vous vous confrontez à des questions de calcul il y a des choses assez triviales comme il faut que je le calcul fini s'il faut

00:12:26

pas qu'on ordinateur s'effondre il faut que j'arrive à avoir les données qui tiennent dans ma mémoire etc enfin vous avez plein de problèmes concrets et donc vous pouvez prendre plein de décisions pragmatiques pour arriver au bout qui se

00:12:39

justifie vu que c'est ce qui vous permet d'avoir un résultat mais qui peuvent avoir un peu un impact évidemment en termes de la façon dont vous abordez votre problème initial je me rappelle d'une conversation très très amusante avec un directeur d'un d'un laboratoire

00:12:50

de machines learning à Tübingen le collab Alvaro qui est quelqu'un qui fait une machine learning mais pour les autres laboratoire de l'université de timingen donc c'est quelqu'un qui est en charge justement de l'interface entre

00:13:02

informatique et autres sciences et il me dit ce qu'il faut que tu fasses c'est que tu fasses un programme dégueulasse très vite pour te rendre compte de ce que c'est que d'écrire un programme parce que vous les gens qui sont

00:13:15

sociales et la philo vous avez des superbes idées vous avez des super concepts et puis après vous allez devoir découvrir dans la douleur ce que c'est que de devoir prendre 50 décisions contingentes pour faire marcher l'ignoble machin que vous êtes en train d'écrire voilà il faut il faut se

00:13:28

frotter à la contingence de la technique et le fait qu'on est obligé de prendre plein de décisions pragmatiques pour que le bouzin fonctionne voilà et mais ça fait partie de la pratique c'est comme ça et le problème se pose aussi dans les

00:13:41

pratiques expérimentales dans la mesure etc mais voilà peut-être dans quel cas je suis parmi ces trois options et alors vous allez voir il y a quelque chose de très particulier avec l'idée des thèmes

00:13:52

de thèmes de recherche ça c'est ma fasciné vraiment c'est que c'est quand on parle de comparaison entre l'intuition et la formalisation on suppose en général qu'on peut au moins verbaliser le concept de départ on peut

00:14:05

en donner des définitions ou des ou une forme d'analyse si ce n'est une définition là dans le cas des thèmes si je vous demande donnez-moi une définition non triviale de ce que c'est qu'un thème un thème de le thème d'un

00:14:18

texte ou le thème d'un chercheur ou le thème d'une communauté de recherche donnez-moi une définition non triviale de ça j'en connais pas et j'ai pas réussi à trouver une c'était quelque chose qu'en fait on

00:14:30

pratique intuitivement identifier les thèmes d'un texte d'un auteur d'un domaine d'une discipline mais on n'a pas de méthode systématique et on a à peine en réalité de

00:14:41

transparence sur le sur le mécanisme par lequel on fait ça donc c'est un concept opaque en fait le concept de thème et la façon dont on le fait intuitivement est au parc aussi et c'est très intéressant parce qu'en

00:14:54

réalité ce genre de concept opaque qu'on emploie très facilement mais qu'on sait pas s'expliquer à nous-mêmes c'est un thème classique de lire en réalité on va y revenir mais sauf qu'en général quand on pense à ces concepts opaque on pense

00:15:07

évidemment à des choses comme on va y revenir comme une chose plutôt perceptive bon qu'est-ce qu'un châle c'est pas définir que c'est ce que c'est un charme je sais en reconnaître quand j'en vois un je veux une machine qui reconnaît les chats quand il envoie

00:15:20

on pense pas à quelque chose qui fait partie de leur méthodologie commune de la recherche dans toutes les disciplines c'est vraiment quels sont les thèmes de mon domaine et pourtant c'est exactement la même chose c'est un concept intuitif et au paquet

00:15:33

et alors pour finir je vais passer très vite là-dessus mais j'ai peur de prendre trop de temps donc là c'est un petit peu mon slide pour vous dire que je me demande si

00:15:46

si la philosophie des sciences a bien rendu peut justice à toutes ces à toutes ces difficultés méthodologiques qui sont pourtant bien connues alors évidemment on peut se demander voilà

00:15:57

est-ce que est-ce qu'on parle de comprendre un calcul ou de comprendre en fait un modèle sous-jacent au phénomène que l'on calcule donc est-ce qu'on doit comprendre les algorithmes comme des modèles ça vous avez des travaux notamment de Bernard Chazel là-dessus

00:16:10

vous dit que dans la science récente on finit par s'éloigner une science ou l'objet fondamental c'est l'équation notamment l'équation différentielle pour devenir en fait de prendre l'algorithme lui-même comme

00:16:23

modèle non pas comme moyen d'exécution d'un modèle qui serait donc une équative par exemple mais c'est l'algorithme lui-même qui est le modèle est-ce qu'on peut dire qu'un algorithme c'est un modèle est-ce qu'on doit dire que le calcul est la formalisation des

00:16:35

problèmes et c'est une forme de reconstruction rationnelle ou d'explications carnapiennes d'un concept de phénomènes donc pas du phénomène lui-même et des concepts qui portent sur eux ce qui est encore autre chose peut-être plusieurs traductions

00:16:49

auxquelles vous pouvez penser très spontanément mais vous voyez que ces traditions là c'est des traditions qui ont été beaucoup beaucoup dominé par les sciences de la nature d'accord quand vous lisez carnab vous avez beaucoup de questions sur les

00:17:00

fondements vous avez des exemples qui ont de la physique vous avez pas énormément de questions sur les sciences sociales même si je sais très bien je avant que monsieur Wagner je sais très bien qu'il y avait

00:17:12

des économistes dans le Cercle de Vienne et qu'il y avait des gens qui s'intéressaient à tout ça et puis c'était aussi des grands marxistes pour beaucoup d'entre eux donc je sais très bien qu'il y avait un vrai intérêt pour ces questions chez eux mais ce qui en a retenu la tradition de la philosophie des sciences c'est pas ça et donc on a

00:17:25

une tradition qui est très dominée par les philosophies de la nature qu'en réalité c'est des problèmes là qui nous sont classiques en en sciences sociales alors juste pour vous prendre un exemple très très simple et très d'actualité

00:17:36

l'inflation si vous voyez j'avais lu un joli texte de présentation des des difficultés de la mesure de l'inflation par Valérie chalord Charolles dans se libérer de la domination des chiffres

00:17:49

en réalité ce que vous voyez quand vous devez mesurer l'inflation dont vous partez d'un concept intuitif qui est oh la vie devient plus cher ma bonne dame et vous êtes obligé d'essayer d'en faire une mesure à l'échelle d'une société

00:18:01

entière d'une population entière et pour ça en 7 vous êtes obligé de prendre plein de décisions très difficiles notamment vous êtes obligé de créer un panier de consommation représentatif qui est aussi réaliste évidemment que le

00:18:13

français moyen qui n'existe pas mais qui est une entité statistique en sachant que ça pose des problèmes de difficulté très très très complexe le résultat final et les la raison des décisions que

00:18:25

vous prenez vous êtes aussi obligé de prendre des décisions subtiles sur la classification des des biens parce que vous êtes obligé de faire ensuite une analyse d'un panier suppose une des différents types de biens de faire de la

00:18:39

classification des biens qui sont sur votre marché ce qui est pas évident non plus et vous êtes même obligé de faire des décisions très subtiles sur la nature de la valeur en fait des objets que vous mesurez quand vous dites quand

00:18:50

on dit par exemple le prix par exemple de la première gamme de produits en informatique est stable on va dire le top of le top du panier Apple ça reste à peu près la même chose vous voyez en terme

00:19:03

de prix oui mais en même temps les fonctionnalités le logicielles n'arrête pas de changer alors qu'est-ce que je dis est-ce que je dis que le produit a un produit et un prix stable en informatique ou est-ce

00:19:15

que je dis qu'au contraire c'est le prix des fonctionnalités de logicielles qui décroissent bah ça dépend qu'est-ce que vous choisissez comme entité et ça dépend quelle théorie de la valeur vous avez en fait

00:19:28

est-ce que le prix est fait pour mesurer les fonctionnalités logicielles ou pas c'est pas évident en fait comme question donc on dit en général c'est des produits qui sont stables alors qu'en réalité c'est le produit qui évolue en permanence

00:19:41

donc vous voyez qu'il y a des décisions subtiles sur la nature de la valeur mesure de qu'est-ce que vous mesurez par votre valeur donc ça c'est un problème très très classique d'accord en économétrie par exemple c'est perte alors à l'un des

00:19:54

Rosières le célèbre directeur de l'INSEE et sociologue historien a beaucoup parlé de ça dans ces écrits du rôle massifs des conventions dans la construction des outils statistiques notamment au service des politiques publiques

00:20:06

en général ce qui rend tout vu disons spéculaire représentationnel de ce genre de choses assez douteuse il faut bien dire mais comment est-ce qu'on les comprend exactement cette décision on dit des conventions mais c'est pas je

00:20:19

pense pas que ça élimine absolument tout il sera lente ou trivial c'est à dire que c'est des conventions donc question pour la bonne bouche est-ce que la philosophie des sciences a vraiment rendu justice complètement à

00:20:31

cette tradition mythologique et pourtant est très vivante en sciences sociales et donc on a identifié trois trois issues générés trois problèmes génériques d'accord ici quel niveau d'abstraction donc spectre

00:20:43

implémentation quel rapport de l'intuition à la validation finale des résultats produit par la méthode formelle donc est-ce que l'intuition est un contrôleur de la méthode formelle ou l'inverse un peu la

00:20:57

question aussi des rapports entre les choses et la pluralité des formations et ça signification et on va voir comment ces problèmes là se réactive pour le

00:21:08

machine learning alors le machine learning justement parfois on peut le décrire il a été décrit notamment dans certains articles de chercheurs comme de la calcul sans spec

00:21:20

du calcul sans spécification c'est à dire on fait du machine learning notamment les méthodes de pack modernes quand on s'affronte à un problème pour lequel on n'a pas de formalisation propre donc encore une fois il y a pas de

00:21:32

formalisation propre de quelqu'un chat ou plutôt Qu'est-ce qu'une image de chat il n'y a pas de formalisation de notre propre de quels sont les films favoris de d'Alberto Naibo par exemple c'est pas facile de formaliser ça donc on va

00:21:45

employer des méthodes statistiques qui vont être assez bonnes à produire un résultat qui semble pertinent par rapport à cette question originelle mais sans jamais produire une formalisation

00:21:55

de la question initiale alors c'est très difficile à nouveau de caractériser qu'est-ce qu'on fait ou qu'est-ce qu'on fait pas quand on fait ça il y a certains gens qui disent c'est du calcul sans spécifications certaines personnes refusent ce genre de choses là parce

00:22:10

qu'en réalité il y a il y a une spécification d'un point de vue mathématique c'est du calcul matriciel essentiellement enfin c'est la multiplication d'un vecteur par une matrice finalement tout ça donc d'un point de vue mathématique ça a une spécification le problème c'est que

00:22:23

c'est spécifications me dit rien sur mon problème intuitif initial donc il y a des gens qui préfèrent dire que c'est un absence de modèle formel plutôt qu'une absence de spécification mais ça fait partie de sécurité d'interprétation dont je vous parlais

00:22:35

dans la première partie donc je peux pas rentrer dans le détail plus là dessus mais j'ai même vu des chercheurs qui passaient d'une formulation à l'autre visiblement et c'était fait il s'était fait engueuler en disant spécification donc il disait modélisation après et voilà il y a un certain flottement sur

00:22:48

quel terminologie adopter là-dessus et en plus rien le deuxième couche de difficulté en plus de l'absence de spécifications formelle qui est que le machine learning c'est de la métaprogrammation c'est à dire vous

00:23:01

programmez un algorithme d'apprentissage qui vous donne comme sortie un programme et c'est ce programme là ou modèle instancier ce programme là que vous allez exécuter sur vos données qui va vous donner vos résultats pertinents

00:23:12

vous rajoutez une deuxième couche et un premier calcul qui vous crache un programme et c'est ce programme là que vous exécutez pour avoir les résultats qui vous intéressent donc non seulement quand on se dit est-ce que le scientifique des SS a besoin de

00:23:25

connaître le calcul alors non seulement il y a le calcul du programme mais il y a le calcul du programme qui a créé ce programme c'est-à-dire le calcul d'apprentissage d'ailleurs en général en machine learning quand on dit algorithme en fait

00:23:38

on parle de l'algorithme d'apprentissage et le produit de ça on l'appelle pas l'algorithme on appelle le modèle voyez donc je vais pas moi je vais pas me lancer là dedans vous voyez que ça sera vraiment trop compliqué mais vous

00:23:51

voyez que vous rajoutez une deuxième couche en fait dans le machine learning mais alors qu'est-ce que tout ce que je vous ai raconté et sans pertinence est-ce que je vous ai embêté avec la première partie pour rien parce que je viens de vous dire qu'il y a pas de

00:24:02

spécifications et tout toute ma première partie tournait autour des difficultés de traduction de formalisation d'un problème en tant que dans sa spécification la première intuitif traduit en la

00:24:14

spécification d'un problème formel et bien non en réalité c'est tradition est que cette façon de réfléchir et continue d'être pertinente à mon sens parce qu'en fait vous avez une formalisation implicitée partielle mais dans le choix des métriques de

00:24:26

performance donc les métriques de performance c'est la quantité que vous choisissez définir pour guider votre apprentissage donc c'est ce que votre apprentissage doit optimiser pour être

00:24:37

un bon apprentissage et en fait je vais vous montrer que ça ça nous fait revenir à des problématiques d'interprétation des statistiques aussi et que ça constitue en fait une forme de formalisation partielle de vos intuitions de départ

00:24:50

alors sachant que donc cette histoire de métrique revenons donc à la question d'intuition est validation mais sur les métriques cette fois-ci une grande difficulté à définir les métriques est un problème bien connu du traitement automatique de la langue

00:25:04

qu'est-ce que c'est qu'un texte pertinent pour une question par exemple ou qu'est-ce que c'est qu'un texte écrit dans le même style qu'un autre texte et comment vous reconnaissez que vous faites ça bien ou mieux qu'avant

00:25:16

c'est pas évident évidemment on est sur des outils très sur des choses très complexes en traitement automatique de la langue et ça a créé une difficulté particulière de définition des métriques de performance qui n'est pas une tille unique au traitement automatique de la

00:25:29

langue mais qui est très bien son titre très bien identifié dans cette semaine là alors c'est très bien connu et très bien identifié en même temps on en fait pas grand chose parce qu'on sait pas quoi faire mais ça fait partie de ces problèmes que dans tout le monde a

00:25:41

conscience mais auquel personne ne touche parce qu'on sait pas quoi faire mais ce problème est très présent en traitement automatique de la langue et mon exemple c'est un exemple de traitement automatique de la langue en plus si vous voulez là on est

00:25:53

vraiment dans des approches très statistiques donc [Musique] quand vous regardez les métriques vous c'est pas évident qu'on les présenterait

00:26:05

toujours c'est moi qui interprète là c'est pas forcément la terminologie des auteurs mais c'est pas évident que tous les métriques sont pensés d'emblée comme des définitions ou comme des modèles d'un concept de définition d'un concept

00:26:17

comme des modèles d'un phénomène mais parfois on peut dire que c'est juste en fait à une mesure brutée du phénomène d'intérêt c'est à dire que en gros je cherche pas à définir ce que je voulais dire les les choses par exemple

00:26:30

qu'est-ce qu'un thème je cherche à trouver une quantité qui varie dans le même sens que l'identification des thèmes donc c'est juste je cherche un phénomène fortement corrélé à mon phénomène initial comme ça j'ai pas besoin de le définir j'ai juste

00:26:42

besoin de quelque chose qui varie dans le même sens c'est tout donc quand par exemple je change de thème dans le texte je veux trouver une quantité qui change de sens d'évolution vous voyez

00:26:53

afin que ça me permet de suivre de guider l'apprentissage d'une manière qui sera fortement corrélée à notre intuition de ce que c'est qu'un thème même si je définis jamais qu'est-ce que c'est qu'un thème donc c'est une mesure bruité en fait par une quantité corrélée

00:27:06

le problème on s'est rendu compte c'est que même avec cette approche très modeste conceptuellement donc vraiment une approche pragmatique de je vais trouver un phénomène fortement corrélé à mon phénomène initial même si je suis

00:27:18

pas capable de le définir même avec cette approche très pragmatique et bien des fois on se plante et on se plante de manière désagréable c'est-à-dire que non seulement on se plante ne s'en rend pas compte tout de suite et il faut faire des travaux assez

00:27:31

poussés pour se rendre compte qu'on a mal défini à la maîtrise ça c'est le plus embêtant évidemment parce que quand on peut s'en rendre compte au bout de 5 minutes ça va mais quand il faut faire des articles de recherche entier pour son compte que ça marche pas c'est plus embêtant donc par exemple il y avait une métrique qui a été proposée qui était ce

00:27:43

qu'on appelle la perplexité du modèle c'est à dire à quel point la phrase que est en train de lire votre modèle et peu probable à ses yeux

00:27:56

c'est à dire que quand votre modèle regarde un nouveau passage du texte est-ce que ça correspond à une phrase qu'il aurait pu travailler qu'il aurait pu prédire avec une très forte probabilité donc une phrase attendue en quelque sorte par votre modèle ou est-ce

00:28:09

qu'au contraire c'était une phrase qui avait une très faible probabilité pour votre modèle et ça ce serait l'indication qui est une rupture de continuité dans votre texte par exemple vous êtes en train de changer de sujet et donc c'est pour ça

00:28:20

que votre modèle est surpris vous voyez ça c'était la mesure dite de perplexité qui avait été essayé et puis malheureusement les travaux qui ont été faits là-dessus on ne tient vraiment de comparer très systématiquement

00:28:33

l'intuition des gens sur ce que c'était qu'un thème et un changement de thème et la musique de perplexité et non seulement c'était pas corrélé en fait mais même c'est plus grave que ça apparemment c'était Antigone donc ça varié dans le mauvais sens

00:28:46

donc vous voyez que même quand vous êtes modeste conceptuellement vous pouvez avoir des ennuis et alors on a essayé de remplacer par des métrique je vais pas vous définir ça dans le détail parce que c'est compliqué j'ai pas fini le travail

00:28:58

là dessus d'ailleurs mais on a remplacé ça parfois par des métriques de cohérence sont donc censés vous dire que d'augmenter si votre les thèmes que vous identifiez deviennent cohérents

00:29:11

[Musique] quelle est la mesure de la similarité entre des vecteurs représentants des éléments linguistiques etc mais il y a des moments où c'est même pas les mêmes méta paramètres c'est-à-dire que ça répond même pas la même question

00:30:16

vous voyez des mesures de confirmation dans certains cas quand la mesure de la connaissance de certaines scènes qui n'existe pas dans d'autres vous avez plein de différentes façons de de concevoir la fenêtre d'attention de

00:30:28

votre modèle enfin bref c'est une pluralité chaotique alors juste avant de passer donc pour finir et je vais essayer de me presser parce que

00:30:40

je sois trop long pour finir cette deuxième partie donc où je défends l'idée quand elle était l'interprétation des métriques du machine learning reproduit à sa façon des problèmes plus classiques qui sont

00:30:52

ceux de la traduction de problèmes intuitif en chrome par une spécification formelle d'un calcul je tiens à assister avant de finir là-dessus que ce problème du rapport entre les sciences sociales et le calcul

00:31:04

je le conçois pas ici ce dont je parle c'est pas un problème de dialogue entre des expertises limitées c'est un problème de dialogue entre des problèmes et des méthodes d'accord donc en gros ce que je suis en train de vous

00:31:17

dire c'est que les choses que je regarde là vous les aurez aussi si vous êtes un génie presque cosmoplamen des terres qui est à la fois un grand vous êtes à la fois en médaille field et vous connaissez tout

00:31:33

pour Dieu par coeur depuis que vous avez 12 ans vous aurez quand même ce problème c'est à dire que c'est un problème de communication entre ces deux savoirs que vous avez c'est pas un problème de limitation de votre savoir

00:31:44

alors évidemment la limitation de nos savoirs qu'elle nous devons tous vivre va rajouter plusieurs couches de merveilleux et d'amusement à ce problème mais peu importe en règle ce problème se

00:31:57

passe dans votre tête géniale qui connaît tout ou par la communication entre différents spécialistes de différentes disciplines qui sont limitées qui sont chacun limités évidemment dans ce qu'ils peuvent savoir et maîtriser

00:32:09

c'est pas un problème de limitation d'expertise c'est pas un problème de communication interdisciplinaire c'est un problème de dialogue entre différents problèmes et différents méthodes et donc il continue

00:32:20

à se poser même quand il n'y a pas de limitation d'expertise donc quel que soit la façon dont vous concevez les relations entre sens social et méthodes computationnelles est-ce que le sociologue doit apprendre des méthodes

00:32:34

computationnelles est-ce que l'informaticien doit apprendre de la socio ou de l'histoire ou est-ce qu'au contraire on doit avoir une équipe bidisciplinaire on se passe les tâches l'un à l'autre et puis on se renvoie la balle sans savoir exactement ce que fait

00:32:47

l'autre mais en ayant une surface de communication entre les deux peu importe en fait peu importe le problème va demeurer et vous allez toujours vous demander

00:32:59

qu'est-ce que qu'est-ce que vous méthodes consultationnelles ajoutent notamment par rapport aux méthodes de qualitatif qui peuvent déjà exister dans votre domaine et vous avez aussi vous demander non seulement qu'est-ce que le

00:33:13

spécialiste des sciences sociales doit comprendre au calcul mais aussi même chose parce que c'est une surface de contact ça marche dans les deux sens d'accord le touchant est toujours touché comme disait je ne sais plus quel phénomène

00:33:25

le touchant est toujours touché donc non seulement le sociologue doit comprendre de poser des questions sur ce qui va comprendre l'informatique mais l'informaticien doit aussi se poser la question qu'on verse qu'est-ce qui doit comprendre le sens social pour être capable de livrer des outils qui ont un

00:33:38

sens pour ses collègues ou pour l'autre partie du cerveau dans le cas où c'était le génie cosmoplanitaire que je vous écrivez voilà qu'est-ce que la partie droite de mon cerveau a besoin pour satisfaire la partie gauche voilà

00:33:49

donc ça c'est encore une fois c'est pas une question de limitation d'expertise même si ça sent évidemment passionnant d'en parler si vraiment une question encore une fois méthodologique de dialogue entre problèmes et méthodes que l'on

00:34:02

connaît mais pour lequel on n'a pas en réalité d'affranchissement encore une fois alors ma question de départ moi c'était alors je vais insérer donc

00:34:14

une minute de d'auto promotion dépourvue de toute honte donc ça fait partie d'un projet que j'ai mené donc pour l'université de Tubingen et pendant trois mois qui était

00:34:28

en fait de faire d'abord une base de données contenant les noms des chercheurs dans ce que j'appelle l'éthique numérique donc c'est tout le secteur si vous voulez éthique de

00:34:39

l'informatique éthique de l'IA éthique de la transformation numérique etc tous ces choses là je vais regroupe là dedans j'essaie de faire une base de données de chercheurs sachant qu'ils sont où ils sont leur

00:34:56

formation quelles sont leurs stèmes de recherche sur quel projet il travaille avec qui collaborent etc etc pour l'instant j'ai fait un travail assez bien développé pour la France et

00:35:07

l'Allemagne donc c'est la première publication sur la France et l'Allemagne j'ai déjà pas mal de données sur la Belgique l'Autriche la Suisse et puis on va continuer et puis on va conquérir le monde mais doucement parce que ça prend du temps

00:35:19

mais donc ça on a déjà pas loin du millier de chercheurs dont la France et l'Allemagne dans les 900 je pense plutôt donc il y a ça qui peut servir évidemment à tous vos collègues dans le domaine pour chercher des intervenants

00:35:32

faire de la biblio etc faire du recrutement même la première usage de ma base de données c'était pour un recrutement m'a demandé il y aurait-il un gars dans ta base de données qui va être à regarder c'est fait pour ça

00:35:46

et je vais essayer de faire une carte aussi à partir de ces données là j'ai plein de choses qu'on peut représenter de façon assez joli jolie carte et j'arrête mon slide publicitaire ce dont je vous parle aujourd'hui c'est la dernière

00:36:00

partie c'est-à-dire le fait de faire du développement machine learning sur les données que j'ai que j'ai péniblement en trêve péniblement recueilli et d'essayer de voir notamment quelles sont les

00:36:12

tendances dans ce domaine parce que c'est intéressant en soi et aussi parce qu'en fait ça peut faire commencer la conversation qui est notre conversation logique et celle du dialogue entre les méthodes informatiques et les méthodes sciences sociales les gens en général les

00:36:25

chercheurs ont des opinions très fortes comme on dit ils ont beaucoup d'expertises domaines on dirait dans l'industrie sur c'est quoi les thèmes de leur chef de recherche de leur domaine donc c'est quelque chose sur lequel ils ont mis des fortes donc si vous leur crachez un résultat de machine learning

00:36:37

là-dessus vont très probablement avoir une opinion et donc c'est ça c'est bien parce que ça fait réagir et ça commence ce dialogue entre est-ce que ces méthodes de machine learning et nous apprennent vraiment quelque chose que ce sont utile etc etc

00:36:50

sur quelque chose sur lequel les gens auxquels vous parlez ont une expertise domaine très très puissante voilà donc c'est pour faire causer tout simplement pour faire causer alors donc je rappelle donc ce que je

00:37:04

vous ai dit j'avais pris avant j'en passe là-dessus parce que je il me reste combien de temps Alberto je suis pas trop long je laisse du temps pour les questions 20 minutes encore bon je vais finir vite fait ça ira du temps pour les questions

00:37:21

il n'y a pas de souci on est bon donc le processus par lequel on détermine ce que c'est qu'un thème un thème encore une fois ça peut un thème ça peut être le thème d'un texte ou

00:37:34

d'une autre unité de discours ça s'appelle le thème d'un individu le les thèmes ça peut être le thème d'une certaine communauté ici on parle d'une communauté entière même si pour l'instant évidemment elle est réduite de par les difficultés de la collecte de

00:37:47

données à grande échelle à la France et l'Allemagne mais le but c'est de d'embrasser la communauté dans toute sa diversité mondiale à la fin donc quand vous faites ça quand vous répondez à la question Quels sont les si vous pose la question quelles sont les thèmes de

00:37:59

votre domaine de recherche c'est quelque chose qui est intuitif il n'y a pas de il y a pas d'emploi d'une méthode systématique les gens vont juste se mettre à fouiller dans leur mémoire et puis vous allez vous sortir les choses très spontanément

00:38:12

encore une fois si je vous demande comment est-ce que vous avez fait même un postériori vous aurez beaucoup de mal à m'expliquer je pose la question et puis les thèmes apparaissent dans votre esprit et vous me les donnez quoi c'est à peu près le domaine de la

00:38:25

méthode il n'y a pas de il y a même pas de d'explicitations d'une méthode même à posteriori et pourtant c'est assez robuste c'est à dire que si je demande à deux chercheurs

00:38:37

d'un domaine quels sont les thèmes de leur de leur domaine et je pense que leur réponse vont très très négativement se recouvrir ça me choquerait pas du tout qui est plus de 80% de l'accord il y aura des petites

00:38:50

engueulasses ah oui mais tu oublies ce thème tu oublies mon dernier papier etc enfin il y aura des petites disputes mais ça peut se résoudre assez vite et je pense que c'est si vous prenez des gens qui sont vraiment dans la même

00:39:03

communauté vous aurez un en fait un accord très très fort c'est quoi les thèmes de recherche donc ce qui complexifie encore notre problème c'est à dire que si je compare ce que me crache une méthode de machine

00:39:15

learning en modélisation de thème et la réponse d'un chercheur auquel du domaine auquel je pousse la question non seulement enfin je peux comparer les résultats même si c'est difficile comme on l'a vu déjà plusieurs reprises

00:39:27

exposées mais je peux pas comparer les méthodes parce qu'il y a un des cas où j'y ai pas accès et en fait le la chose la plus opaque ici c'est pas le c'est pas lié à opaque c'est le cerveau humain

00:39:40

qui est ultra opaque en fait savoir qu'est-ce qu'un thème de recherche c'est quelque chose d'aussi opaque qu'est-ce qu'un chat en fait c'est vraiment le même genre de concept intuitif je trouvais ça très rigolo de voir qu'on a ce genre de pratique

00:39:53

intuitive aussi en recherche en fait pas uniquement quand on cherche à caresser un chat ce qui pose des questions donc assez

00:40:04

perturbantes sur le rôle du savoir si en fait et intuitive dans les pratiques scientifiques donc si vous comparez par exemple à la façon dont ça se passe alors là pour

00:40:17

vous dire celles qu'on la méthode qu'on comprend mieux j'en ai utilisé plusieurs je vais revenir là-dessus mais celle qui est le facile à présenter c'est la méthode dit LDA latin de Richter location donc allocation l'attente de dirigeley

00:40:29

qui est la méthode canonique en modélisation de thème c'est la plus la plus connue la plus utilisée c'est la méthode canonique en fait vous verrez que c'est une

00:40:42

représentation qui est très rigolote parce qu'elle a fait beaucoup d'hypothèses très étranges notamment quand vous faites de la modélisation de à la dérive vous dites en fait que les thèmes d'un texte ou d'un document on dit plutôt dans un terminologie experte

00:40:55

un document préexiste en fait un système à ce document et en fait le document est vu comme étant généré par les thèmes donc en gros les thèmes ce sont des grands sacs de mots

00:41:07

et à chaque fois que vous pour générer le texte alors vous faites un premier échantillonnage aléatoire vous choisissez dans des des thèmes en fonction de à quel point ils sont dominants et après vous faites un

00:41:19

échantillonnage au sein du sac de mots en fonction d'une distribution de probabilité qui est propre à ce sac de Maurice ça vous crache le mot suivant de votre texte c'est très étrange voyez parce que c'est on dirait presque une forme de platonisme du thème alors que nous on

00:41:32

prend ça plutôt pour cette année le thème comme une abstraction sur le texte qui est l'objet premier et en fait faut voir que c'est un aspect algorithmique très ému très amusant comme beaucoup souvent mathématiques en réalité on traverse plein de domaines et là ça

00:41:45

vient de la génétique des populations au départ en fait c'est la location de richesses la population de la génétique des populations ou on regarde une population d'individus qui existent on a accès on a une connaissance des gènes de

00:41:58

leurs ancêtres et enfin de et donc on essaie de deviner leurs ancêtres à partir de leur patrimoine génétique mais évidemment anthologiquement on pense que les ancêtres existent avant leur descendant

00:42:11

donc c'est normal d'avoir ce point de vue génératif quand vous parlez de la parler de la génétique des populations évidemment mais c'est beaucoup plus étrange quand vous passez

00:42:23

quand vous passez évidemment quelque chose comme des la modélisation de thème mais c'est le même algorithme c'est pour ça que vous avez des espèces de de d'hypothèse platonicienne un peu étrange

00:42:35

et après ça vous crée donc des choses qui sont des sacs de mots qu'on identifie donc avec le sommet du panier c'est les mots les plus fréquents nous sommes la distribution de probabilité qui est spécifique à votre sac de mots et il y a plein de questions

00:42:48

et après je dis qu'il y a cette espèce de petite couche d'intuition qui se rappelle qui se rajoute tout à la fin et qui est très perturbante je choisis combien de combien de mots pour identifier le thème 3 4 5 6 7 plus

00:42:59

fréquent ça change un peu long mais il y a pas de règle d'or pour ça et après quand est-ce que je résume ces quelques termes sous un mot ou une phrase qui se décrirait vraiment le thème de ce sac de mots

00:43:13

et comment je fais ça d'une façon non arbitraire là aussi grosse obscurité et comme je l'ai dit bon il y a des fois c'est complètement évident vous allez voir dans certains cas c'est complètement évident dans d'autres ça ne l'est pas du tout et

00:43:28

donc c'est assez problématique pour la validation des résultats donc quelques mises aventures donc pour revenir pour vous dire encore une fois que cette idée de revenir à la question intuitive initiale elle se trouve aussi

00:43:40

dans cette confrontation en métrique du machine learning et c'est trouver dans cette recherche que j'ai faite pour vous donner un peu plus de détails là-dessus comment ça se retrouve dans ce cas particulier [Musique]

00:43:55

donc mon ce que j'utilise là c'est des descriptions des chercheurs par eux-mêmes d'accord je vais sur la page web en gros c'est ça institutionnel ou personnel il y a toujours le petit texte ou le chercheur la chercheuse se présente Didou elle vient ce qu'elle

00:44:09

fait et donc c'est ça que j'aspire et après j'essaie de voir les thèmes de recherche du domaine à partir de ces descriptions là c'est ça mes sources c'est de l'auto description alors vous

00:44:21

voyez déjà qu'un problème que j'ai mis sous le tapis ici un problème de choix de base de données ici notamment je suis convaincu j'ai pas encore fait tourner le programme dessus mais j'ai collecté les données déjà je suis convaincu que

00:44:33

si vous prenez les publications des gens plutôt que leur autodescription vous aurez pas du tout les mêmes résultats vous serez ébloui du voir du nombre de chercheurs qui décrivent leur thème de recherche et dans leur thème de recherche il y a pas le thème de leur

00:44:45

dernière article j'ai vu ça je ne sais pas combien de fois c'est très très frappant en réalité si vous posez la question à quelqu'un comment décrivez-vous dites moi quelles sont vos thèmes de recherche et regarder la liste de leur dernier publication ça

00:44:58

colle pas pour plein de gens non mais vraiment ça ne colle pas du tout genre vraiment le thème du dernier article il y est pas il y a des gens qui ont fait un dernier article sur la vie privée et les algorithmes et le thème vie privée n'apparaît pas dans le retour

00:45:11

description donc là il y a un choix de base de données qui est vraiment très très significatif très très significatif je vais comparer les résultats donc bientôt ça y est j'ai donné je finisse de les nettoyer je vais réexécuter l'analyse là

00:45:24

dessus et je suis sûr que ça sera significativement différent les résultats finaux donc mais je passe là dessus c'est un autre problème encore du machine learning qui est le choix de la base et alors qu'est-ce qui se passe au début

00:45:35

en fait si vous avez des résultats qui sont formellement correct mais aberrant par rapport à ce que vous cherchez la question Quels sont les thèmes les plus fréquents au début ben en fait les thèmes les plus fréquents c'est les thèmes qui décrivent le domaine en général

00:45:47

donc les premières fois que j'ai fait tourner le programme qu'est-ce que j'avais comme réponse bah j'avais digitalisation éthique politique société informatique ah bah c'est intéressant merci sauf que c'est quand même un intérêt en

00:46:00

fait donc vous avez ce terme de stop words en NLP les stockwords c'est les mots qui ne décrivent pas les thèmes parce que c'est les mots qu'on a tout le temps donc le la du 2 etc les c'est des mots qu'on élimine quand on fait l'analyse parce que c'est des mots qui

00:46:13

ne disent rien sur le thème d'un texte particulier parce qu'ils sont là tout le temps et en fait quand vous faites ça qu'en fait de l'analyse de thème vous êtes obligé d'allonger votre liste de stop words pour inclure les termes génériques du domaine parce que les

00:46:26

termes génériques du domaine ne décrivent pas les c'est la frontière externe du domaine alors si vous intéresse c'est les frontières internes donc vous êtes obligé de les ajouter mais vous obligez vous ajoutez à la main vous obligez de faire tourner votre

00:46:39

programme d'échouer lamentablement d'ajouter tous les termes que vous ont fait échouer et de relancer sinon ça marche pas sinon vous trouvez que avec des termes génériques et puis après il y a des choses qui sont pas génériques mais qui

00:46:51

ne décrivent pas des termes de recherche qui décrivent autre chose donc moi au début je me suis retrouvé avec parmi mes résultats les plus importants quand même à la fin d'ailleurs finalement dans certaines méthodes je retrouve encore ça et ben j'ai des résultats comme davegui

00:47:04

en Allemagne en fait donc thème de recherche la NR non évidemment quelqu'un qui vous dit qu'il fait un projet à nerf mais c'est pas un tender cherche ou alors j'ai des idées parce que c'est un des plus grands dans ces du

00:47:17

soldatorcie donc c'est un des plus grands instituts du domaine et donc son nom apparaît dans les thèmes les plus fréquents si vous faisiez aller de façon naïve et le mais le problème c'est qu'à la fin vous pouvez pas tout rajouter dans les la liste des tops top Word à

00:47:29

l'infini c'est toujours pas avoir des résultats un peu aberrant comme ça qui ne sont si vous vouliez au départ donc vous voyez bien c'est tout juste de revenir à des choses qui pour vous étaient évidentes et qui était si évident que vous avez spontanément exclu mais malheureusement il va falloir le

00:47:41

dire et le dire à la main à votre programme parce que pour lui c'est c'est un thème du document c'est juste ce qu'il appelle thème du document c'est pas ce que vous vous sélectionnez spontanément donc même un concept

00:47:53

intuitif très simple peut être objet de mes interprétations graves qui pourraient complètement vous résultats si vous faites pas les ajustements nécessaires oui alors une autre chose donc il faut que je vous mentionne pour finir c'est alors

00:48:06

donc toujours là c'était l'aspect disons revenir à la question valider les résultats disons par rapport à nos problèmes initiaux là je vais vous parler du problème pluralité on avait

00:48:18

identifié au départ donc pour ça il faut que je fasse un petit d'une tribune introduction donc ce qu'on fait normalement dans en machine learning quand on aborde un nouveau problème une nouvelle donnée en fait ce qu'on appelle du base lining enfin du base line morose on fait

00:48:31

volontairement modèle très simple of the show donc un petit modèle tout prêt on va pas chercher des modèles compliqués on va pas faire du fine tuning de paramètres on fait un petit modèle naïf tout simple pour voir ce que

00:48:44

ça donne et après on va chercher à améliorer les paramètres on va chercher des méthodes plus sophistiquées pour voir si ça nous apporte vraiment quelque chose en plus donc pour comprendre un petit peu quelle

00:48:56

est la valeur ajoutée si vous voulez des méthodes plus compliquées ce que c'est que vous regardez il y a le question de combattre contre la sur optimisation réduire les coûts de calcul interpréter capable d'interpréter les résultats etc mais vous vous donnez un

00:49:12

petit résultat de base et après on va essayer de voir ce que la complexité vous rajoute d'accord [Musique] et on voit si vous mites de performance évidemment et c'est le va mettre de

00:49:25

performance qui vous permet de faire cette comparaison d'accord c'est elle qui vous dit que ah si je passe un modèle beaucoup plus compliqué oui je gagne 10% c'est super il faut absolument que je fasse à ou alors ou là j'ai moitié massacré la forêt amazonienne

00:49:37

rien que pour faire tourner ce calcul tellement j'ai fait tourner de GPU et en réalité j'ai gagné 04% et il y a aussi cette question toujours très très structurée on a les statistiques vous cherchez à séparer le

00:49:50

signal du traitement enfin le signal du du bruit le problème c'est qu'il faut toujours rappeler que vous avez vos torturer vos données et peuvent pas vous dire que ça se passe pas donc par moment

00:50:02

l'ajout de méthodes plus complexe ne vous dit rien de plus tout simplement parce que rien de plus à dire pour donner n'ont rien à cracher ils ont rien à cracher vous pouvez les torturer autant que vous voulez elle ne crache rien parce que vous êtes arrivé au maximum du signal qui a dans les données

00:50:14

et parfois ce signal il est faible tout simplement il y a rien à y faire donc c'est aussi pour vous rendre compte de ça que vous faites tout ça alors quel rapport entre ça et la question le pluralité des formalisations

00:50:25

alors donc ce que j'ai fait si vous voulez les modèles que j'ai fait pour faire comparaison des lining disons alors d'abord j'ai fait un modèle volontairement stupide qui est même pas

00:50:38

un modèle de modélisation topique c'est juste faire une analyse des termes des fréquences de termes donc ça c'est même pas considéré comme du topping modeling au sens propre d'accord c'est juste vraiment le nuage de mots vous voyez dans les émissions télé où ils font des

00:50:50

nuages de mots c'est ça vraiment la chose la plus bête qu'on puisse imaginer après j'ai fait donc la méthode canonique la méthode LDA évidemment parce que les canonique puis après j'ai fait

00:51:01

donc qui est quelque chose qui est basé sur un grand modèle de langage donc qui est de l'IAO pack basé sur des réseaux de neurones d'accord donc de plus en plus des modèles de plus en plus sophistiqués qui sont d'ailleurs basés sur une modélisation de plus en plus

00:51:15

sophistiquée de la sémantique et puis là-dessus j'ai fait des implémentations naïves donc direct du package sans sans essayer de raffiné et puis après des choses avec du

00:51:28

fine tuning de paramètres d'accord donc c'est comme ça que je fais mon buzlining j'essaie d'avoir des choses plus sophistiquées alors qu'est-ce que ça donne sur notre question de la pluralité des résultats alors quand vous faites de l'analyse de fréquence

00:51:41

alors la liste de fréquence va c'est très simple c'est juste votre votre programme il livre aux mots et d'identifier les mots comme des chaînes de caractères il y a aucune sémantique en réalité c'est

00:51:53

purement syntaxique comme approche et puis il fait des calculs de fréquence il ressent les termes les plus courants donc à partir du moment où vous avez une bonne liste de stop Worlds qui vous élimine les mots qui n'arront pas d'apporthématiques normalement ça

00:52:04

devrait vous dire quelque chose sur les mots les plus fréquents du texte bon sauf que donc s'il y a pas de possibilité de la méthode d'accord vous voyez là tout le monde peut comprendre ça même quelqu'un qui a aucun bagage en programmation en statistique en maths

00:52:18

très bien comprendre ça le problème c'est que c'est justement plus c'est simple plus c'est dur à comprendre c'est à dire que le résultat est opaque précisément parce que la méthode est simple c'est-à-dire par exemple quand je vois

00:52:32

les mots le mot travail qui sort qu'est-ce que ça veut dire est-ce que c'est travail comme la transformation du travail paria auquel cas ça fait partie de métal de recherche ou est-ce que c'est parce qu'il y a quelqu'un qui a

00:52:44

écrit le professeur docteur Schmitt le travail du professeur se concentre sur auquel cas c'est une description générique du travail de la personne c'est pas un thème alors lequel c'est machin c'est rien et

00:52:56

je peux pas le savoir avec de l'analyse de fréquence comme ça parce qu'il y a pas de sémantique il y a plein de choses qui sont très ambiguïtes en résultat quand vous employez ça par exemple je vois des mots qui apparaissent comme

00:53:08

réseau processus système mais est-ce que c'est dans le sens informatique ou c'est dans un sens plus générique pas nouveau j'en sais rien et je peux pas le savoir et je peux pas le savoir donc là ce qui se passe et puis

00:53:22

il y a des absences très bizarres pourquoi j'ai le des choses sur la vie privée qui apparaissent dans les autres méthodes et qui apparaissent pas en analyse de fréquence pure pourquoi j'en sais rien donc en fait là

00:53:34

ce qui se passe c'est que plus la méthode est simple plus les résultats sont opaques alors j'emploie pas le terme d'interprétabilité qui est très à la mode d'explicabilité qui est très à la mode en machine learning parce que parce que c'est une terminologie qui

00:53:45

atroce je finisse donc je ne suis pas pourquoi mais c'est atroce comme terminologie en fait c'est ça crée des mots peut-être pas possible mais si je le disais dans cette analogie là on parle parfois en non seulement d'interprétabilité en parlant évidemment

00:53:57

général d'interprété la méthode ou du programme mais on parle aussi parfois d'interprétabilité des données et d'intervoitabilité des résultats et là ce que vous voyez très clairement sur un objet sémantique comme un thème c'est que l'interprétabilité de la méthode et

00:54:11

non seulement décorrélée mais anticoreller avec l'interprétabilité des résultats c'est-à-dire que plus ma méthode est simple plus mon résultat est incompréhensible donc ces deux choses en fait qui sont complètement découvrir les skis

00:54:24

évidemment important pour la question est-ce que j'ai besoin de comprendre le calcul vous voyez alors je finis donc en LDA c'est beaucoup boire c'est déjà plus

00:54:35

raffiné si vous voulez parce qu'il y a cette distributions de probabilités qui sont internes au sac de mots qui représente au topic mais là aussi vous savez que vous faites des hypothèses qui sont fausses en toute généralité

00:54:46

il y a toujours cette idée que si vous avez le même thème entre deux documents alors vous devez trouver les mêmes mots mais c'est complètement faux en toute général des vous le savez là je vous ai fait des exemples à la

00:55:01

main ces deux textes là parlent de plage la nuit d'accord sauf que dans le deuxième le terme plage et nuit n'apparaît pas

00:55:15

donc c'est l'empêche pas de parler du thème de la plage de la nuit donc vous voyez très bien que c'est vous avez fait d'une hypothèse là qui est fausse donc si déjà mieux parce que vous avez un peu de sémantique qui apparaît avec ces méthodes là mais vous savez très bien que vous faites des approximations grossières quand même

00:55:27

et en et alors quand j'ai utilisé bertopic je vous passe tous les détails mais là c'est là normalement on a la représentation à la fois la plus raffinée de la sémantique il y a une vraie tentative dans les modèles de langage opaque d'avoir quelque chose

00:55:40

comme une sémantique contextuel notamment avec donc l'analyse des matrices de co-occurrence et des ce qu'on appelle les mécanismes d'attention donc c'est des mécanismes qui essaient de savoir quel terme je dois regarder pour comprendre un autre terme

00:55:53

je vous passe les détails donc là il y a un vrai effort pour faire vraiment de la sémantique si vous voulez et c'est mes saucisses qu'il y a de plus opaque et ça me donne toujours des résultats bizarres j'ai pas le genre d'aberration que j'ai en faisant de l'analyse de fréquence de mots mais j'ai des choses

00:56:06

bizarres j'ai beaucoup d'overs là c'est à dire j'ai des thèmes qui ont tellement de thèmes communs que intuitivement en fait on les regroupés dans le même sac à la main mais visiblement l'ordinateur ne le sait pas et je ne sais pas pourquoi et

00:56:18

je sais pas si c'est pertinent ou non vous voyez il y a des différences très nettes avec l'analyse de fréquence notamment selon la méthode que vous regardez j'ai mes données françaises me parle de

00:56:31

problèmes économiques ou pas selon la méthode donc on a vraiment un thème qui apparaît ou disparaît son la méthode employée et puis mais et puis en plus il y a très clairement des bugs dans bertopic il y a un moment il me

00:56:43

signale multi et modal comme deux thèmes de recherche je pense qu'en fait il a séparé les multimodales qui étaient en un mot il en a fait une mauvaise qualité souvent et en fait deux thèmes de recherche c'est ridicule c'est

00:56:55

évidemment un bug et ça va contre une chose qu'on dit souvent c'est à l'apprentissage profond on n'a pas besoin de faire de prix processing du texte on dirait bien que oui parce que là vraiment la totalisation a échoué donc en approche naïve en tout cas ça marche pas vous êtes obligé de faire un peu

00:57:07

plus de nettoyage que ça mais alors je vous le dis je vous donne pas le détail si on serait trop long mais j'ai quand même des choses qui sont assez robustes d'entre mes trois méthodes j'ai des choses qui sont partagées d'accord et je

00:57:20

finis je conclus oui je vais finir là-dessus je vais pas vous faire le peut-être donc je finis là dessus j'ai des choses qui sont partagées très nettement mais est-ce que c'est est-ce que c'est parce que

00:57:36

c'est vraiment les vrais thèmes ou est-ce que c'est parce que j'ai finalement mes trois méthodes si différentes qu'elles soient partage des mêmes hypothèses c'est pas évident à répondre à cette question non plus et pour conclure donc pour laisser un petit

00:57:48

peu ton réaction après donc j'ai fait donc non seulement ça j'ai fait ces trois méthodes et puis après j'ai essayé de faire au moins un LDA avec fine tuning de paramètres

00:58:01

et donc ça me fait un saut en métrique de cohérence c'est celle que j'utilise c'est beaucoup mieux sauf qu'en fait c'est pas mieux c'est à dire que qualitativement c'est pas mieux et c'est peut-être même moins bien parce que je suis obligé de prendre

00:58:14

trois thèmes pas 5 comme je faisais avant parce que c'est 67 plus optimal et ça fait que je perde des termes en fait des choses qui disparaissent et puis en fait les résultats autrement

00:58:26

c'est pratiquement les mêmes donc je me suis j'ai brûlé la moitié de la forêt amazonienne pourquoi qualitativement j'ai pratiquement rien gagné donc vous voyez que le problème de faire du bealis Lanning qui est est-ce

00:58:40

que j'arrive à faire encore progresser ma métrique de performance il se redoude d'un deuxième problème qui est que est-ce que faire progresser maux de performance ça me fait encore progresser mes résultats d'un point de vue qualitatif c'est pas évident et mais ça

00:58:52

veut pas dire non plus votre métrique est complètement faux c'est sans pertinence vous voyez pas plus que le fait qu'à un moment votre progrès de performance s'arrête ne voulait dire que votre modèle est complètement débile c'est pas ça que ça veut dire mais ça veut dire qu'à un moment ça s'arrête de

00:59:04

marcher pourquoi on ne sait pas trop et je vous mets juste le petit slide de conclusion de récapitulation là-dessus et je serais ravi d'écouter vos

00:59:16

questions merci beaucoup [Applaudissements] [Musique] les connaissances mathématiques et puis des connaissances de sciences sociales

00:59:33

un certain moment est-ce que ça recoupe la distinction entre approche intuitive ou approche formelle ou est-ce que ces deux distinctions ne se recoupe pas j'ai pas compris ce

00:59:48

point alors non la distinction ben en fait il y a pas de distinction sciences sociales et méthodes complicationnelle en droit un peu de façon encore une fois il y a une partie des sciences sociales qui sont nés mathématisées de façon de poussée que ce

01:00:10

soit en théorie du choix social en stage économétrique en économie théorique donc il y a pas d'opposition je suis pas en train de vous dire que les méthodes de

01:00:23

sciences sociales sont qualitatives ou intuitives en langue naturelle par défaut c'est très bien historiquement que c'est faux il y a des mathématiques pour les sciences sociales depuis le début des sciences sociales et même

01:00:35

peut-être même avant en fait social au 19e siècle les sciences sociales il y a déjà des résultats pas comme ceux de Condorcet qu'on a qui du 18e et certains outils statistiques qui commencent à apparaître aussi au 18e début 19e avant

01:00:49

même qu'on est des sciences sociales comme discipline donc il y a des choses qui sont mathématiquement natives on va dire non je vais pas opposer surtout pas opposé méthode des sciences sociales et

01:01:01

méthodes formelles comme si c'était deux choses étrangères par nature pas du tout mais pour poser disons la question initiale du jour de façon intéressante et disons qu'ils sont un

01:01:14

peu difficile je m'intéresse au cas on parle de problème qui sont posés en termes entre guillemets intuitif parce qu'ils peuvent déjà très très sophistiqués tellement mais en langue naturelle avec des concepts des sciences

01:01:25

sociales qui sont naturelles et où ensuite on passe un peu plus tard à des méthodes plus formelles en sachant que même dans les cas où je pense il y a des choses qui sont

01:01:38

nés sous forme mathématiques dans les sciences sociales il y en a beaucoup il y avait quand même souvent en général des intuitions politiques sociologiques historiques qui étaient présentes derrière la formalisation elle-même donc c'est pas sûr qu'on se soit complètement débarrassé de l'intuition parce qu'on a

01:01:51

d'emblée écrit quelque chose en terme mathématique penser à ce que c'est clair orientation des intérêts par la microéconomie orthodoxes par exemple dans quelle mesure que ça regroupe la notion

01:02:03

intuitive d'intérêt c'est pas du tout forcément une question à exclure d'emblée donc non je vais surtout pas vous dire exclure les deux choses comme des deux ensembles dichotomiques c'est pas mon

01:02:16

objet je m'intéresse au cas où très clairement on doit faire communiquer du qualitatif et du quantitatif parce que tout simplement parce que c'est dur et donc c'est plus intéressant de faire exploser dessus et je pense que c'est de toute façon extrêmement fréquent c'est

01:02:29

une science sociale même dans celles qui sont fortement en mathématisées mais c'est surtout pas dire que rejeter le tout ce qui est sciences sociales donc qualitat dans le d'emblée dans le qualitatif qui tellement évidemment faux

01:02:41

d'un point de vue historique ça n'a aucun sens en fait est-ce que tu t'es pas demandé si c'est question et pistémologiques que tu te poses ce sont des questions qui ont très aux algorithmes ou est-ce que ce n'est pas plutôt enfin c'est une

01:02:55

question que je me pose moi-même plutôt à l'épistémologie des statistiques tout simplement et est-ce que tu as regardé un peu les littérature sur qu'est-ce qu'on dit sur la possibilité ou non de tirer des statistiques pertinentes parce

01:03:06

que finalement là les ordinateurs ils sont juste là pour faire du calcul mais fondamentalement on parle de statistiques alors ça c'est une question très très difficile d'interprétation des enjeux philosophiques de l'apprentissage

01:03:24

automatique qu'on ne peut beaucoup de gens se posent en réalité mais qui n'est pas vraiment coagulé comme un vrai thème de recherche dans la communauté à ma connaissance oui dans quelle mesure en réalité

01:03:38

l'apprentissage automatique pose des problèmes philosophiques et notamment épistémique nouveau par rapport au stade c'est évident que ça reprend énormément de choses de la tradition des traditions et des problèmes statistiques antérieurs

01:03:51

c'est assez évident comme disait bon mon ami le professeur babouleme son qui fait le fondement d'une machine learning à Tübingen lui il avait été ravi de découvrir Alain des Rosières par exemple partie de la

01:04:03

découverte parce qu'il trouvait que c'était magnifique pour pour comprendre ce qui faisait en machine learning alors qu'évidemment Alain des Rosières est mort malheureusement nous a quitté bien avant que le machine learning moderne n'apparaisse donc c'est vrai on voit une

01:04:16

pertinence immédiate de la tradition de la pensée statistique pour le machine learning mais je pense qu'il est quand même il faut quand même pas tendre le bâton dans le sens de ne pas aller contre la présomption de nouveautés de la littérature en disant que rien n'est

01:04:29

neuf sous le soleil parce qu'il y a des raisons assez évidentes pour lequel il y a des choses neuves en fait notamment tu te souviendras peut-être Henri qu'en réalité le succès des réseaux neurones a

01:04:41

choqué beaucoup de théoriciens des statistiques notamment parce qu'il y avait quand même cette approche par défaut qui disait que si votre modèle a plein de paramètres tout ce qu'il va faire c'est de l'overfit et donc ça peut pas marcher il y avait

01:04:53

des gens qui pensaient vraiment que ça pouvait pas marcher ce genre de méthode et le fait qu'on ait réussi à des choses qui fassent autre chose que la sur optimisation sur la donnée qui arrive à généraliser de façon assez puissante même si avec plein de bien sûr

01:05:07

ça a été une énorme surprise pour certains statistiques un classique et maintenant il y a des gens en théorie des statistiques qui essaient de refaire les fondements du de l'apprentissage profond pour élargir la théorie des statistiques notamment les ce qu'on

01:05:19

appelle les c'est un peu comme les mathématiciens qui courent après les physiciens on essaie de mettre en place quelque chose de théorique qui permet de comprendre pourquoi ça marche l'apprentissage profond donc ça c'était quand même il faut se rappeler que ça a été un choc en

01:05:36

fait le succès de ces méthodes pour les statisticiens eux-même d'accord et puis après il y a des bah moi je pense justement aussi à penser il y a beaucoup de choses à dire pour répondre à ce que tu viens de dire là mais plus j'ai tendance à penser que dès

01:05:49

qu'on fait de passer du calcul à l'échelle il y a des choses nouvelles qui paraissent les selles du calcul il y a toujours des sous qualitatives qui se produisent et là on a eu évidemment aussi des uns

01:06:00

qualitatif en termes de la masse des données de la masse des calculs traités qui fait que forcément pour moi y avoir quelque chose de nouveau on fait pas augmenter un calcul de taille sans devoir augmenter quelque chose sans avoir changé quelque chose derrière il y a pas de passage à l'échelle gratuit et

01:06:13

il y a plein d'autres choses à dire là-dessus donc oui continuité et changement à la fois et c'est ça qui rend ça très très dur de répondre sur le front à ta question dans la foulée de la question des est-ce que peut-être aussi parce que toi

01:06:38

à un moment tu parles beaucoup de cet aspect de la formalisation et je vois aussi que par exemple si je comprends bien la question de la spécification de la pose à ces moments-là pas avant peut-être avant tout perdre des

01:06:50

problèmes question mais pas spécification donc je me demande qu'est-ce que tu entends vraiment par formalisation parce que c'est peut-être au-delà juste des méthodes de mathématiques éventuellement en applicable un statistique tu as

01:07:04

probablement celle-là la dimension aussi informatique qui est rentré en jeu dans la notion de formalisation et donc il fait aussi peut-être la différence vis-à-vis des duels bon mais finalement

01:07:15

c'est juste de la philosophie des statistiques ou des méthodes de statistiques il y a quelque chose d'autre certains niveaux aussi des formalisation des problèmes qui viennent de l'informatique et des questions mais

01:07:28

je sais pas c'est une piste la terminologie était horrible parce que elle distinguée pas je pour aller vite j'ai pas distinguer beaucoup d'enjeux subtils qui mériteraient d'être distinguées notamment des formalisation

01:07:46

en gros dès qu'on parlait de mathématiques c'est évidemment n'est pas la façon dont on dit des choses qu'on te fait de la logique et de l'informatique théorique il y a de la science plus fort dans l'informatique de la formalisation qui est ce qu'on emploie souvent quand

01:07:58

on fait de l'informatique théorique quand on parle de spectre notamment une méthode rigoureuse dont j'ai pas évoqué l'apport propre ici j'ai tout j'ai tout mis ça dans un vrai grossièreté dans le sac des maths mais alors qu'on sait bien

01:08:09

que c'est un niveau de difficulté qui est supplémentaire mais ça c'est juste assez un problème de à la fois de bombes taille de la présentation et de gestion de montant

01:08:21

qui est déjà été assez difficile manifestement mais aussi c'est un problème si tu veux que cette tradition là en machine learning et ben elle est peu représenter en fait la tradition de logique et après son méthode formelle

01:08:33

rigoureuse elle est pas complètement absente mais elle est peu représentés à cause justement de ce problème de difficulté de la modélisation formelle de ton problème donc j'ai tendance à la

01:08:45

mettre un peu à faire un peu passer sous boisseau dans la mesure où justement le machine learning a tendance à prendre ses ailes quand elle est pas là cette tradition là

01:08:57

mais ça veut pas dire évidemment que ça va rester comme ça tout le temps et que ça n'a pas de pertinence sur le long terme quand parce que des gens qui essayent de d'importer des méthodes plus rigoureuses pour la validation de ta machine learning bien sûr qu'il y en a donc ça

01:09:09

va se rajouter encore plus