00:00:05:07 - 00:00:43:00 Pascal Brassier Bonjour à tous et à toutes pour ce nouveau webinaire sur l'utilisation des IA au service des enseignants-chercheurs, webinaire AUNEGe, FNEGE et IAE FRANCE opéré par AUNEGe. Vous savez, c'est comme les vols opérés par...Ici, vous êtes dans une très bonne compagnie. Nous sommes aujourd'hui effectivement à nouveau en compagnie d'un fidèle, Jean Moscarola, notre collègue, et qui nous a déjà servi plusieurs webinaires dans cette série qui nous amène réellement des pratiques tout à fait intéressantes. Et des pratiques “pratiques”, si vous me permettez le terme. 00:00:43:00 - 00:01:11:02 Pascal Brassier Car effectivement, on peut les mettre en œuvre immédiatement. C'est très accessible et on se rend compte de la capacité de ces outils. Aujourd'hui, Jean va nous parler de l'usage des IA, notamment dans des usages qualitatifs et il nous propose de dépasser ce très classique clivage qualitatif quantitatif à l'aide des IA. Donc bien Jean, je te laisse la parole immédiatement et nous sommes toute ouïe et les yeux bien ouverts. 00:01:11:04 - 00:01:46:08 Jean Moscarola Bonjour tout le monde ! Donc je vais reprendre la présentation sur le diaporama de la dernière journée qui était consacrée à l'IA et les études qualitatives, qui correspond à la partie ici gauche du graphique : l’IA. On attaquait directement un corpus. C'était l'exemple des contributions au grand débat national, c'est à dire un grand texte. On aurait pu l'appliquer à... 00:01:46:10 - 00:02:19:09 Jean Moscarola ...des retranscriptions d'entretiens ou quelque texte que ce soit. Mais on ne se servait que de l'IA, et uniquement de l'IA, pour analyser ces textes. Et nous avions vu que c'était extrêmement pratique et que ça permettait un peu de faire travailler un assistant qui, à partir des textes analysés, produit très simplement les textes interprétatifs analytiques, commentant le texte duquel on est parti. 00:02:19:11 - 00:03:19:05 Jean Moscarola Donc finalement, l'IA fait du quali comme on le fait à l'ancienne, c'est à dire en lisant et réécrivant. On avait conclu en pointant un certain nombre de limites sur lesquelles je vais revenir. Et le but de ce qu'on va faire aujourd'hui, c'est de montrer qu'on peut dépasser ces limites et amener vraiment une dimension de preuve à la seule capacité de conviction par adhésion ou croyance, que nous proposent les IA, en utilisant l'analyse de données textuelles qui, elle, repose sur des procédés de dénombrement, de comptage, donc et de mesure, donc qui ressort vraiment de l'approche scientifique en appliquant au texte des méthodes qu'on applique habituellement à des données quantitatives. 00:03:19:07 - 00:03:50:16 Jean Moscarola Et c'est ainsi qu'on va coupler l'analyse qualitative classique qui est finalement présentée par l'IA, avec une analyse beaucoup plus ancrée sur les phénomènes, en utilisant l'analyse des données textuelles. Et pour ça, j'utiliserai le logiciel Sphinx, mais ça pourrait être d'autres logiciels. Pourquoi je choisis Sphinx et pas SPSS ? Parce que SPSS n'est pas capable d'ouvrir directement des textes tandis que Sphinx, lui, est capable. 00:03:50:18 - 00:04:30:18 Jean Moscarola Alors on reviendra peut-être sur cette image à la fin, en conclusion, que finalement, en couplant Quali et Quanti, on couple mesure et idée sémantique et statistique, idée et phénomène. Avant de revenir sur la description des méthodes de l'analyse de données textuelles, voyons d'abord rappelons les limites de l'usage direct de l'IA. Donc l'usage direct de l'IA, c'est qu’on a un corpus et qu’on “upload” dans chatGPT, dans “Le chat”, comme fichier attaché. 00:04:30:19 - 00:05:14:05 Jean Moscarola Et ensuite on prompt pour obtenir des réponses. Mais, même les applications pro comportent des limites de volume. D'abord les très gros corpus, on va devoir les scinder, les fractionner. On n'a pas l'impression que que ce soit une gêne, mais en fait, quand on analyse un peu plus profond, on s'aperçoit que l'IA ne traite que les cinq, dix premiers entretiens ou les 50 premières pages, du fait des limitations de volume qui n'apparaissent jamais franchement. 00:05:14:07 - 00:05:36:17 Jean Moscarola Et ça, c'est une des grandes caractéristiques. On sait jamais vraiment ce qui se passe quand on utilise une IA. Donc premier point, lorsqu'on a de très gros corpus, eh bien c'est un peu plus compliqué de bien se servir et d'une manière complète. Ca ne veut pas dire qu'on sera rejeté, mais on croira avoir tout analysé, alors qu'on ne sait pas exactement ce qui a été analysé. 00:05:36:19 - 00:06:26:13 Jean Moscarola Néanmoins, on pourra être convaincu par la pertinence de ce qui ressort. Deuxième problème les risques relatifs à la protection des données. Quand “j'upload” mes transcriptions d'entretiens ou mes documents privés d'entreprise que j'ai utilisés, ceux-ci vont sur un serveur protégé par la RGPD, dans le cas de “Le chat”, ou sur un serveur américain. Mais en tout cas, on peut avoir l'impression d'être dépossédé et de courir le risque d'une perte de données, ce qui personnellement, en tout cas quand on utilise les versions pro, est un risque qui contractuellement 00:06:26:16 - 00:07:10:14 Jean Moscarola n'existe pas. Puisque les prestataires, les services en question garantissent qu'ils ne font aucun usage, y compris pour enrichir, pour entraîner les IA. Mais néanmoins, ce risque peut pousser à se dire ben non, je ne vais pas directement utiliser l'IA, je ne vais pas directement communiquer à l'IA mes données. Le plus important, c'est quand même que l'IA est très convaincante, dit des choses très très intéressantes, mais elle n'apporte aucune preuve et ne repose que sur la confiance qu'on lui fait et finalement sur le sens et le crédit qu'on gagne à la lecture de ce qu'elle nous dit. 00:07:10:16 - 00:07:32:09 Jean Moscarola Elle peut se tromper et nous tromper. Donc ça c'est quelque chose qu'on a en tête et qui est très, très problématique. Et quelle est la limite principale ? Quelle est la limite à ces usages ? Mais si vous voulez ça, c'est un peu exactement comme pour les méthodes traditionnelles, que ce soit des problèmes de volume... 00:07:32:09 - 00:08:08:01 Jean Moscarola Alors pas les problèmes de protection de données, mais bon, tout repose sur la confiance de l'analyse, même quand on a fait du double codage. Et puis il n’y a pas de véritable preuve scientifique pour les méthodes quali traditionnelles. Alors, l'analyse de données textuelles, c'est une méthode qui consiste à comprendre un texte comme un ensemble de mots dont on va dénombrer les fréquences et analyser statistiquement les structures et les caractéristiques. 00:08:08:03 - 00:08:31:00 Jean Moscarola On ne peut faire de l'analyse de données textuelles qu'en utilisant des logiciels. Ou sinon des corpus, si on fait tout ça à la main, ça ne présente aucun intérêt. Autant lire les preuves, on les a sous sous les yeux. Donc là, je cite un certain nombre de logiciels : Alsceste, Iramuteq, Sphinx et DataViv. Jje cite uniquement que le français et par ordre d'ancienneté. 00:08:31:02 - 00:09:08:10 Jean Moscarola Les “plus” de l'analyse de données textuelles, c'est la question du quantitatif, c'est qu'elle amène de l'objectif. L'objectivité de la mesure : fréquence, structure lexicale. Elle permet grâce à ces mesures de faire des approximations, de nous approcher du texte, de réduire le volume en extrayant les mots les plus fréquents ou en mettant en évidence des typologies résultant des fréquences d'association des termes les uns par rapport aux autres, au sein des unités de signification. 00:09:08:12 - 00:09:39:09 Jean Moscarola Et ainsi on a des preuves scientifiques au double sens. Les résultats ne sont pas produits par un sujet qui interprète. Et d'autre part, elle repose sur des mesures. Enfin, et ceci c'est beaucoup plus spécifique à Sphinx et DataViv, ces outils apportent l'avantage aussi de la visualisation, de la représentation graphique et de la fouille de texte. 00:09:39:09 - 00:09:59:01 Jean Moscarola Je vous en donnerai un exemple dans un moment, ce qui est une manière de revenir très très rapidement au texte. Ce qu'on ne peut pas faire avec l'usage des IA ou qu'on le fait d'une manière que très très limitée, en lui demandant de produire des citations. Mais on n'est jamais sûr qu'elles sont réelles ou qu'elles viennent vraiment du corpus. 00:09:59:03 - 00:10:28:04 Jean Moscarola Les “moins”. C'est que ça nécessite une structuration rigoureuse des corpus. Alors qu'il suffit de “d'uploader” une des transcriptions sans se préoccuper de la manière dont elle a été faite, il n'y a pas de règles strictes à respecter quand on utilise une IA générative. C'est pas le cas lorsqu'on utilise l’ADT. Mais cette rigueur qui va poser des contraintes de la transcription va permettre ensuite de bien mieux maîtriser ce qu'on va faire. 00:10:28:06 - 00:11:02:12 Jean Moscarola Ça repose sur une mise en œuvre plus technique. Les logiciels sont beaucoup plus complexes que les interfaces des IA, ça nécessite un minimum de connaissances en statistiques. Et enfin, ou par conséquent l'interprétation des résultats est plus difficile. C'est beaucoup plus difficile de lire les résultats provenant d'une analyse textuelle que de lire les textes produits par une IA. Mais le couplage de l'IA avec l’ADT va rendre tout ceci beaucoup plus accessible. 00:11:02:14 - 00:11:36:16 Jean Moscarola C'est à dire qu'on va pouvoir utiliser l'IA non pas pour lire les textes bruts et les données, les corpus qu'on a intégrés, mais pour lire les résultats de l’ADT. Donc l'IA va venir ajouter une couche sémantique qui rend l'intelligibilité plus facile, plus claire, sur la base de résultats produits objectivement et d'une manière contrôlable. 00:11:36:18 - 00:12:07:12 Jean Moscarola La diapo suivante. Donc maintenant, pour coupler l'IA et l’ADT, coupler sémantique et statistique, je vais prendre un exemple de 20 entretiens sur les réactions des parties prenantes concernées par les algues vertes sur les bassins versants. suivants. Ces 20 entretiensl font plus de plus de 200 pages. C'est un projet de thèse de doctorat d’Alan Dombrie. Et vous voyez, la structuration du corpus elle est indiquée ici. 00:12:07:18 - 00:12:41:05 Jean Moscarola Au début, on va devoir, en indiquant des balises, définir qui parle. C'est avec ces caractéristiques de contexte ou sociodémographiques. Puis ensuite on va devoir signaler exactement le texte des questions, le texte des réponses, et on va faire ceci pour l'ensemble des 20 entretiens qui ont été ici transcrits. Donc, ça, ça représente un travail, une contrainte que l'on n'a pas à mettre en œuvre d'une manière aussi rigoureuse... 00:12:41:06 - 00:13:10:11 Jean Moscarola lorsqu'on utilise une IA. Ceci étant fait, ça va nous permettre de transformer le texte en une base de données dont on connaît parfaitement les propriétés, du fait des balises, et qu'on va pouvoir analyser de manière objective. Alors première analyse, c'est de regarder qui sont les gens qui parlent... 00:13:10:13 - 00:13:35:22 Jean Moscarola Je lance... Ca, c'est une vue qui vient de Sphynx, où l'on voit que, au total, il y a 110000 mots. Que est le nombre de mots des réponses est six fois plus important que celui des questions. Ça veut dire que les gens sont assez prolixes. On n'est pas obligé de leur tirer les vers du nez. Mais parfois c'est bien meilleur. 00:13:35:22 - 00:13:56:21 Jean Moscarola On peut avoir des ratios et ça renvoie à l'autonomie de celui qui répond. Bien meilleur jusqu'à dix, douze, quinze. Et à ce moment là, ça veut dire que l'intrviewer est arrivé à se dissimuler. Et puis on a là les différentes personnes qui ont été interrogées, les collectivités locales, les élus, les décideurs, les journalistes, les représentants du monde agricole, les représentants du monde associatif, etc. 00:13:56:23 - 00:14:23:08 Jean Moscarola Et on voit que ces gens là contribuent d'une manière différente, avec une mesure de tout ce qu'ils ont dit, et avec des autonomies. Par exemple, les professionnels de l'agro-alimentaire sont ceux qui parlent le plus d'une manière autonome, alors que les représentants du monde associatif et militant, eux, sont un peu plus dépendants de la personne qui interroge. 00:14:23:10 - 00:14:56:23 Jean Moscarola Donc je reviens sur mon Powerpoint. Ensuite, deuxième chose : qui parle ? Alors, je ne vous ai pas montré la statistique du nombre de chacune des catégories des répondants. Maintenant, allons voir la manière dont les échanges s'opèrent entre les questions et les réponses. Là, je vais avoir l'ensemble des questions, des mots provenant des questions et les mots résultant dans les réponses qui sont apportées. 00:14:57:03 - 00:15:27:22 Jean Moscarola Par exemple, si l'intervieweur parle souvent de “baguette magique”, il en parle 35 fois. Qu'est-ce que ça donne pour la baguette magique, c'est : “chose”, “local”. Les gens répètent “baguette magique”mais ils savent pas très bien à quoi ça correspond. Peut-être “territoire”, ils parlent le territoire. Je clique sur “territoire” et je vais voir toutes les textes, toutes les réponses ou tous les verbatim provoqués par l'idée de “baguette magique” et comportant le mot “territoire”. 00:15:27:24 - 00:16:01:06 Jean Moscarola Je peux faire ça de la même manière sur les expressions. et là les expressions. c'est des mots tout faits. Donc l'enquêteur, le chercheur est très concerné par l'efficacité politique, alors que les gens qui répondent parlent de bassin versant, d'algues vertes, de Saint-Brieuc, etc. Donc tout ceci, il faut le lire et c'est riche, c'est objectif, mais c'est difficile à comprendre. Et pour mieux le comprendre, je vais créer un prompt, un programme dans lequel je vais lui dire : 00:16:01:08 - 00:16:30:00 Jean Moscarola “J'analyse des entretiens, des parties prenantes concernées par les algues vertes. Voici ci-dessous le lexique des questions et celui des réponses. Les nombres donnent la fréquence des mots”. Je le fais pour les questions, les réponses et les expressions. Et j'obtiens alors, en réponse, l'interprétation qui apparaît ici. Si vous avez le diaporama, vous allez cliquer là pour avoir 00:16:30:12 - 00:16:50:24 Jean Moscarola le dialogue, tout ce que nous dit chat, parce qu’ici j'ai utilisé chatGPT, en l'occurrence. Vous voyez dans le prompt au début il y a liste de tous les mots qui apparait ici. Donc on va avoir une conclusion générale qui montre un décalage entre le cadrage du chercheur et les préoccupations des répondants. 00:16:51:01 - 00:17:22:09 Jean Moscarola Et en fait, on peut dire, on pourrait dire que les répondants ont répondu à côté pour mieux répondre à leur manière, avec leurs mots, leurs préoccupations et leur propre vision de la légitimité à parler du sujet. Et en plus, chatGPT nous donne une table dans laquelle on voit pour différents thèmes, ici algues vertes, expériences vécues, comment ça apparaît dans les questions, dans les réponses et les écarts : les cas de convergences, de divergence des écarts de confiance, etc. 00:17:22:11 - 00:18:06:18 Jean Moscarola Donc on a déjà une interprétation beaucoup plus riche qui va pouvoir guider. Ce n’est pas celle forcément qu'il va falloir reproduire et elle n'a pas de crédibilité particulière. Mais elle nous met sur la piste de ce qu'on recherche. Donc les échanges Questions-Réponses. Troisièmement, le Contenu des réponses. Si je clique sur ce lien ici, cette fois c’est uniquement pour les réponses : les noms, les adjectifs, les verbes, les expressions. Et je peux, à partir de là...Tout ceci étant caractérisé par la fréquence. 00:18:07:10 - 00:18:14:05 Jean Moscarola je peux voir exactement, par exemple, 00:18:14:07 - 00:18:40:18 Jean Moscarola quand je clique et je trouve, je peux remettre les mots dans leur contexte et comprendre à peu près ce qu'ils signifient. Je peux aussi construire comme ça du verbatim. Et puis, si je veux en faire quelque chose, je vais aller demander dans un prompt : “J'analyse les entretiens des parties prenantes”, je communique la vue, le contenu intégral de la vue et je lui dis : “Maintenant, tu vas me commenter ce que je peux tirer de tout ça”. 00:18:40:20 - 00:19:10:21 Jean Moscarola Ce qu'il faut retenir de l'approximation lexicale : trois pôles lexicaux structurants, environnemental, socio professionnel, politique et institutionnel. Forte problématisation. Verbes d'action. Et il justifie en reprenant les éléments qui ont été produits par l’ADT. Donc là, à nouveau, j'ai un début d'interprétation qui va me permettre de comprendre, d'aller plus facilement, exploiter le bénéfice de l'objectivité de l'analyse de données textuelles. 00:19:10:23 - 00:19:35:17 Jean Moscarola Enfin, dernier point, l'Analyse thématique et l'influence des contextes. Alors c'est un grand classique de l'analyse des données textuelles. C'est à dire qu'on va reprendre, on va découper le corpus en phrases et on va recouper les phrases en classes qui se ressemblent parce qu'elles utilisent des mots qui sont utilisés la même manière. 00:19:35:17 - 00:20:11:14 Jean Moscarola Et ces mots sont les mots caractéristiques de chacune des classes. Alors ça, c'est compliqué à lire, il faut savoir le faire. Avant que l'IA existe on le faisait, mais ça prend beaucoup de temps. Et on a maintenant la possibilité directement de “pompter” : “J'analyse des entretiens”, donc le contexte.. On recopie les mots spécifiques de chaque classe et l'IA va nous donner les caractéristiques thématiques de chaque classe : gestion environnementale, politique et gouvernance, politique agricole, dialogue social, etc. 00:20:11:16 - 00:20:40:18 Jean Moscarola Et ceci, ça va me permettre, en plus de voir le poids à proportion du nombre de phrases qui représentent ces idées là et de les croiser in fine avec les répondants que j'ai interrogés. Et ce qui va me permettre de faire un croisement entre les thèmes qui sont ici représentés en orange et les acteurs qui sont ici représentés en violet. 00:20:40:23 - 00:21:21:02 Jean Moscarola Donc je ne vais pas vous faire le commentaire de ceci parce que le temps passe, mais on a là aussi un gain considérable de capacité à interpréter les résultats d'analyse de données textuelles. Alors, la grande nouveauté qui date de deux mois maintenant, c'est ce que depuis deux ans je fais en fabriquant moi même mes prompts, comme les prompts que j'ai utilisés ici pour certains, eh bien maintenant, ceci est intégré dans Sphinx. 00:21:21:04 - 00:21:49:21 Jean Moscarola Donc vous cliquez : “L’IA dans les solutions Sphinx, augmentez en productivité”. Je vous montre. Alors, vous avez une une vidéo, vous irez la regarder vous même. Alors qu'est ce que ça va permettre ? Ça va permettre d'intégrer...Sur toutes les analyses dans Sphinx, vous avez ce symbole là qui dit là, tu peux utiliser des prompts automatiques. 00:21:49:23 - 00:22:13:12 Jean Moscarola Donc en intégrant ADT et IA, je vais gagner du temps dans l'élaboration de prompts experts, parce qu'en plus ces prompts là, ils vont être bien foutus, bien écrits. Ça va me permettre après de communiquer en associant mesures, visualisation et textes interprétatifs, comme je l'ai fait dans les exemples sur les algues vertes où je vous montre d'abord les nuages de mots et ensuite l'interprétation de chatGPT. 00:22:13:14 - 00:22:50:16 Jean Moscarola Ce qui va permettre de partager l'expérience de la découverte. Alors je pourrais aller vous montrer ça en allant dans Sphinx. Là, je suis dans l'environnement de Sphinx. Par exemple ici, je suis sur l'approximation lexicale et vous voyez qu'ici j’ai un nuage de mots. Là, j'ai un petit symbole qui me dit il y a interprétation automatique. Je clique là-dessus et j'ai un dialogue dans lequel il va falloir que je définisse le contexte, algues vertes, etc. 00:22:50:18 - 00:23:16:12 Jean Moscarola Une fois que c'est fait, je lui dis Ok, tu interprètes et ensuite je lis l'interprétation. Eventuellement je la corrige et je la colle dans la vue que j'ai préparée. Donc voilà, je laisse du temps, je laisse dix minutes pour la discussion. 00:23:16:14 - 00:24:02:11 Jean Moscarola Voilà le gain qu'on va pouvoir avoir par ce couplage entre deux méthodes. Des méthodes très quantitatives d'analyse des données textuelles et des méthodes d'une nature très différente qui sont cette capacité à écrire des IA génératives, en donnant du sens à des réalités objectives parfois difficiles à comprendre. Voilà, j'arrête là. À vous de jouer en vous essayant, en vous initiant à ces choses-là. 00:24:02:13 - 00:24:10:00 Jean Moscarola Mais je vous donne la parole maintenant. Eventuellement je reviendrai sur certaines choses en vous écoutant. 00:24:10:02 - 00:24:34:05 Pascal Brassier Merci beaucoup, Jean. C'était très éclairant je trouve. Alors bien sûr, on rappelle à tous nos collègues que l'utilisation de ces outils, on le fait avec une éthique bien propre. C'est un assistant, comme le rappelait Jean. C'est un assistant. Il nous aide à gagner du temps. et l'important, c'est nous qui définissons le cadre de façon fine. Et puis après la relecture, la vérification, etc. 00:24:34:05 - 00:24:52:16 Pascal Brassier C'est bien sûr le travail du chercheur ou de la chercheuse. C'est très important de s'assurer que on est d'accord avec la catégorisation, avec les classifications, avec l'interprétation. C'est comme si vous confiiez ça à un assistant très véloce et très dédié et ça vous permet effectivement de faire un gain de temps admirable. 00:24:52:18 - 00:24:55:18 Jean Moscarola J’avais sauté la conclusion, mais vous seul avez le dernier mot. 00:24:55:18 - 00:25:30:18 Pascal Brassier Voilà, c’est ce que je disais effectivement. alors les questions, bien sûr, n'hésitez pas. J'en aurais une immédiatement si vous voulez, pour lancer. C’est toujours la première question la plus dure. Jean, j'imagine qu'on pourrait même prévoir derrière, une fois qu'on a des classifications bien faites, bien cadrées, peut-être même un travail, tu ne l'as pas évoqué, mais un peu plus statistique dans un coup suivant ? C'est à dire peut être chercher un peu par une ANOVA, mettons, ou d'autres formes de catégorisation, de voir quels liens forts on a avec telle partie du corpus, telle classe par exemple ? 00:25:30:24 - 00:25:55:02 Jean Moscarola Mais bien sûr ! Alors j'ai pas utilisé le mot triangulation, mais c'est ça l'avantage considérable. Là, j'ai utilisé l'analyse thématique. Je l'ai fait à partir d'une classification, mais ça je peux aussi le faire par des méthodes de thésaurus ou de dictionnaire qui sont l'automatisation des méthodes classiques de codage. 00:25:55:04 - 00:26:18:05 Jean Moscarola Donc je peux multiplier les points de vue et aller très rapidement obtenir des résultats quantitatifs et les croiser les uns avec les autres pour en vérifier la consistance. Et là, on est vraiment dans une approche qui est une approche rigoureuse, objective bien sûr, mais c'est ça l'intérêt. 00:26:18:06 - 00:26:29:05 Pascal Brassier Ce que tu as rappelé souvent, c'est la rigueur dès le début de tout le processus, notamment de l'organisation de son corpus. Ce qui est vrai dans les méthodes à la main. Mais là, ça l'est d'autant plus, ça donnera du sens. 00:26:29:11 - 00:26:41:00 Jean Moscarola C'est d'une part le corpus qui est organisé et deuxièmement l'outil, et en particulier Sphinx, qui dispose de toutes les fonctionnalités d'analyse statistiques classiques. 00:26:41:02 - 00:26:55:16 Pascal Brassier Des questions ? Je ne vois pas de question écrites pour l'instant, mais on a peut être des questions à l'oral en direct, donc n'hésitez pas. 00:26:55:18 - 00:27:41:16 Jean Moscarola Alors ça peut sembler effrayant tout ça par la nouveauté d'une part, par le côté un peu sidérant de la rapidité, par les risques que ça comporte. Et donc on peut se dire bon, on n'ose pas y aller. Alors ce qui est important, c'est de se former, mais beaucoup plus utilement, c'est d'être accompagné et d'être coaché. Et au sein du Business Institute dans lequel je travaille, on a installé, on appelle ça un lab, dans lequel les chercheurs, et Alan Dumbrie fait partie de cet exemple là, se trouvent accompagnés dans leur recherche. 00:27:41:18 - 00:27:52:13 Jean Moscarola C'est eux qui rassemblent le corpus et toute la partie analytique ADT, IA, etc, elle est faite en partie pour lui. 00:27:52:15 - 00:27:54:03 Pascal Brassier Voilà, c'est ça, ça nous permet de. 00:27:54:03 - 00:28:06:05 Jean Moscarola standards sur ses indications et ensuite c'est lui qui a la responsabilité d'écrire sa thèse, etc. Et c'est la meilleure manière de s'initier à ces méthodes-là. 00:28:06:07 - 00:28:16:08 Pascal Brassier Alors Yves nous pose justement une question qui n'est pas déconnectée de celle-ci. Quel risque de mauvaise interprétation de l'IA peut-on avoir et aurais-tu un ou deux exemples ? 00:28:16:10 - 00:28:50:20 Jean Moscarola Il n'y a pas plus de risque de mauvaise interprétation par les IA que de risque de mauvaise interprétation par des chercheurs, y compris très qualifiés. L'analyse qualitative est par définition le lieu du débat. À la différence de l'analyse quantitative. Quand on fait une typologie dans laquella il y a cinq classes, le fait qu'on obtienne cinq classes n'est pas discutable d'un point de vue statistique. Ce qui est discutable, c'est la manière dont on nomme les classes, c'est l'interprétation des classes. 00:28:50:22 - 00:29:01:14 Jean Moscarola Et en matière de sémantique, de sens, de récit, de discours. Il n'y a pas 00:29:01:16 - 00:29:23:14 Jean Moscarola ce caractère de vérité qu'on peut trouver dans les méthodes quantitatives. C'est ça qui fait la grande différence entre la preuve et le récit, si vous voulez, entre la preuve et l'argumentation, entre la preuve et la conviction. Mais, voilà. Donc je ne peux pas répondre autrement qu’ainsi. 00:29:23:16 - 00:29:44:04 Pascal Brassier Oui. On a deux autres questions. Un autre Yves, de Poitiers : “Le risque de fuite de données sensibles vers l'IA, est ce qu'il perdure ?” Et une autre question posée par Laurence : “Est-ce que Sphinx IA, en l'occurrence, est une fonction qu'on peut rajouter à Sphinx si on a déjà un abonnement ou doit on reprendre un abonnement spécifique” ? J'imagine qu'il faut l’évoluer ? Donc risque de flux de données d'un côté... 00:29:44:04 - 00:30:11:15 Jean Moscarola Reprise de fuite de données. Alors si vous voulez, dans tout ce que j'ai fait là, on a jamais communiqué les transcriptions. Ceci n'a jamais été communiqué à l'IA. Ce qui a été communiqué à l’IA ce sont des listes de mots uniquement. C'est à partir des listes de mots et des contextes, des listes de mots qui ont été 00:30:11:17 - 00:30:31:20 Jean Moscarola travaillées par l’IA. Si vous voulez, on communique à l'IA ces listes de mots, les mots spécifiques qui sont ici en disant il y a la classe là la classe B, la cassé, la classe D. Mais en voyant uniquement ces listes de mots, on ne peut pas reconstituer le sens précis de ce qui est contenu dans le texte. 00:30:31:24 - 00:30:41:16 Jean Moscarola Ce n'est pas du texte. Donc le risque de fuite il existe, mais c'est une fuite sur des choses insignifiantes. 00:30:41:18 - 00:30:58:14 Pascal Brassier Et puis on peut rappeler peut être deux précautions toujours à prendre. L’ une simple c'est que, en préparant son corpus et toutes les données qu'on peut fournir dans une IA, il est bon de les anonymiser, de les travailler de façon à ce qu'effectivement ce ne soit finalement plus que des mots ou des nombres parmi d'autres. Il n'y a pas un sens particulier. 00:30:58:14 - 00:31:17:11 Pascal Brassier Je pense notamment à l'anonymisation, notamment, là par exemple, des interviewés. Et la deuxième chose, c'est que on peut faire tourner, mais à ce moment là c'est plus ni chatGPt, ni Claude ou autres, on peut faire tourner une IA en circuit fermé, une IA en résidentiel. Et à ce moment là, en effet, on a travaillé que sur son corpus à soi, déconnecté de connexion internet. 00:31:17:13 - 00:31:20:07 Pascal Brassier Ça, c'est une possibilité aussi. C'est un autre travail. 00:31:20:07 - 00:31:22:12 Jean Moscarola Mais ça nécessite des capacités d'investissement importantes. 00:31:22:14 - 00:31:32:07 Pascal Brassier Voilà. Et comme le reprécise Yves Livian, de toute façon le chercheur interprète le résultat. On a toujours la main. 00:31:32:09 - 00:31:40:19 Jean Moscarola L’ADT amène la preuve et l’IA apporte le sens, mais elle apporte le sens sur quelque chose qui a été filtré scientifiquement. 00:31:40:21 - 00:31:47:23 Pascal Brassier Voilà. Donc oui, la question de Laurence : Sphinx IA, c'est une fonctionnalité qui... 00:31:48:03 - 00:32:09:17 Jean Moscarola Alors oui, vous pouvez rajouter. Ca fonctionne par un système de points de crédit. Vous l’avez, dans toutes les versions actuelles, les mises à jour, tout ce qui est en ligne, tous les gens qui ont Sphinx Online. Et pour Sphinx Windows, ça va apparaître à l'automne. 00:32:09:19 - 00:32:24:22 Jean Moscarola Mais vous avez toute toute façon 10 000 crédits, donc vous pouvez tout de suite vous en servir. Tous les utilisateurs de Sphinx ont maintenant le petit symbole que je vous ai montré tout à l'heure. 00:32:24:24 - 00:32:26:13 Pascal Brassier Et vous pourrez voir effectivement [...] 00:32:26:15 - 00:32:27:14 Jean Moscarola Ils peuvent voir ce que ça donne. 00:32:27:15 - 00:32:29:00 Pascal Brassier C'est un train qui est en train d'arriver. 00:32:29:04 - 00:32:32:04 Jean Moscarola Et puis s'ils ont envie de s'en servir, ils vont acheter plus de crédits. 00:32:32:06 - 00:32:56:05 Pascal Brassier Voilà ! Il est 9 h 01, donc on va pouvoir clôturer ce très bon webinaire. Encore un, en espérant bien sûr qu'il vous ait servi et qu’il vous a montré que tout cela est possible. Moi je dis fréquemment c'est comme lorsque le moteur de recherche est arrivé, puis lorsque Excel est arrivé dans nos activités. C'était un grand changement. Là c’en est un. 00:32:56:05 - 00:33:02:02 Pascal Brassier Mais vous voyez que petit à petit on arrive à l'adopter. Faut être bien guidés, bien coachés. Donc merci beaucoup. 00:33:02:04 - 00:33:09:11 Jean Moscarola N'hésitez pas à me contacter, moi je suis disponible. 00:33:09:13 - 00:33:15:16 Jean Moscarola Ma curiosité et ma recherche, c'est celle-ci : comment se servir de ces outils ? 00:33:15:18 - 00:33:27:06 Pascal Brassier Et c'est un passionné. C'est ça dont on a besoin pour lancer. Voilà. Merci à tous et à toutes et merci à Jean, encore une fois. Et bon vent pour vos recherches et vos pratiques pédagogiques.