Programme en ligne

Programme de restitution des sessions en distanciel

Mercredi 10 mars 2021 de 10h à 12h30 - Conférence

La constitution d'un corpus spécialisé à partir des ressources ISTEX
Sabine Barreaux (INIST, CNRS) et Camille De Salabert (INIST, CNRS)

La plateforme ISTEX constitue un réservoir riche de plus de 23 millions de publications scientifiques accessibles à la communauté française de l'enseignement supérieur et de la recherche. Par sa mise à disposition des documents en texte intégral, cette vaste ressource textuelle représente un matériau de choix pour réaliser des travaux de fouille de textes à des fins de recherche scientifique.

En outre, elle est associée à toute une gamme de services conçus autour de l'API ISTEX afin de simplifier et de développer son exploitation, notamment par le téléchargement de corpus volumineux (ISTEX-DL) et par l'exploration des corpus extraits permettant leur exposition sur le web (LODEX).

Cet atelier se propose de présenter la méthode de constitution d'un corpus spécialisé sur un sujet universel en utilisant les différents services associés à ISTEX afin d'obtenir à un corpus de qualité qui pourra ensuite être utilisé par des outils de fouille de texte.

-> Fiche de la conférence
-> Support de présentation

 

Jeudi 11 mars 2021 de 14h-16h30 - Conférence

L'introduction à la "fouille de texte et de données" et positionnement de l'offre logicielle
Patrice Bellot (LIS, CNRS)

La fouille de données textuelles informatisée met en jeu un certain nombre de disciplines scientifiques parmi lesquelles la linguistique et les statistiques sont centrales. Au fil des années et selon certains choix guidés par la nature des données manipulées (langues, textes et documents) et des tâches à réaliser mais aussi par des impératifs ergonomiques ou économiques, l'équilibre entre ces disciplines a évolué pour donner lieu à une offre logicielle vaste et variée, plus ou moins interactive ou dépendante de ressources humaines et de données volumineuses. Ce sont ces différents aspects qui seront présentés et qui permettront d'introduire les ateliers en les mettant en perspective avec les enjeux actuels.

-> Fiche de la conférence
->
Support de présentation
-> Vidéo de l'intervention



Mardi 16 mars 2021 de 14h à 15h30 - Atelier

L'apprentissage automatique pour la classification textuelle
Patrice Bellot (LIS, CNRS)

L'objectif de l'atelier est de présenter, sous forme de démonstrations et de notebooks partagés, deux environnements logiciels permettant la classification automatisée de données textuelles selon des approches d'apprentissage automatique incluant les réseaux neuronaux. Cela permettra aux auditeurs de comprendre la nature et les objectifs des traitements mis en œuvre et d'estimer l'effort nécessaire pour expérimenter les approches les plus actuelles sur ses propres données.

-> Fiche de l'atelier
-> Support de présentation
-> Vidéo de l'intervention

 

Mercredi 17 mars 2021 de 14h à 15h30 - Conférence

La cartographie documentaire
Bruno Gaume (CLLE, CNRS)

La cartographie d'un corpus de documents est une représentation géométrique d'un ensemble d'objets construits à partir de ce corpus. Selon les besoins de l'utilisateur, on peut extraire différents objets du corpus étudié que l'on peut relier et rapprocher ou éloigner dans une carte selon différentes méthodes. Pour lire cette carte l'utilisateur devra ensuite interpréter ce que représentent, selon les méthodes utilisées, les liens et les distances entre les objets affichés dans cette carte. Dans cet exposé je présenterais les différents procédés d'extraction d'objets dans un corpus documentaire et les différentes méthodes pour les relier et les rapprocher ou les éloigner selon ce que l'on veut visualiser d'un corpus pour pouvoir interpréter les structures qui en émergent.

-> Fiche de la conférence
->
Support de présentation
-> Vidéo de l'intervention

 

Jeudi 18 mars 2021 de 14h à 16h - Atelier

L'extraction d'information et exploration documentaire basées sur des ontologies
Robert Bossy (MaIAGE, INRAE) et Claire Nédellec (MaIAGE, INRAE)

L'atelier "Extraction d'information à partir de texte" initie aux principes de l'extraction d'information à partir de documents pour leur réutilisation et leur partage grâce à des référentiels de type thesaurus, ontologie. L'initiation sera basée sur la démonstration de deux outils simples, un moteur de recherche sémantique (AlvisIR) de la plateforme Alvis et une base connaissance (Florilege). Aucun pré-requis n'est nécessaire.

-> Fiche de l'atelier
->
Support de présentation
-> Vidéo de l'intervention

 

Vendredi 19 mars 2021 de 14h à 16h - Atelier

La visualisation et l'exploration cartographique d'un corpus textuel
Alexandre Delanoë (ISC-PIF, CNRS)

GarganText est une plateforme web collaborative d'exploration de documents textuels non structurés. Intégralement développée par l'Institut des systèmes complexes de Paris IDF (ISC-PIF), GarganText combine des outils de traitement du langage naturel, de text-mining, de machine learning, d'analyse de réseaux complexes et de visualisation interactive de données. Les cartographies produites permettent à l'utilisateur d'organiser, de naviguer et d'analyser de grands volumes documentaires afin d'identifier et extraire de l'information d'intérêt.

-> Fiche de l'atelier
->
Workflow GarganText
-> Vidéo de l'intervention

Personnes connectées : 1