13-14 mai 2025 Aix-en-Provence (France)

Programme - 14 Mai 2025

Cette journée sera consacrée à des ateliers, qui seront programmés en fonction des demandes des utilisateurs.
Il y aura plusieurs sessions des ateliers les plus demandés lors de l'inscription.
L'organisation fera ensuite un programme qui permettra de satisfaire le plus grand nombre de participants. 

Le programme de la journée :

08:30-09:00   Accueil
09:00-10:30   Session 1 (3 ateliers en parallèle) :

  • Atelier "Wikimedia Commons - Réutilisation/AI"
  • Atelier "l'IA pour la vectorisation automatique de plans et documents graphiques"

10:30-11:00   Pause
11:00-12:30   Session 2 (3 ateliers en parallèle) :

  • Atelier "Vikus Viewer"
  • Atelier "France Bio Imaging"

12:30-14:00   Pause déjeuner
14:00-15:30   Session 3 (1 atelier) :

  • Atelier "Application de modèles d’IA pour le traitement de documents numérisés"

15:30-16:00   Session de clôture

Ces ateliers seront uniquement en présentiel.

Liste des ateliers

Atelier Wikimedia Commons - Réutilisation/AI 

Wikimedia Commons est une médiathèque qui héberge plus de 100 millions de fichiers (image, audio, video, texte) librement réutilisables provenant de médias créés par les internautes et d'imports en masse de contenus (MédiHAL, NASA, musées, etc.).

L'atelier permettra de s'initier au fonctionnement de cette plateforme et tout particulièrement à l'import en masse d'images en présentant différentes méthodes, les métadonnées exigées, les licences proposées et des outils comme la possibilité d'annoter des images.

Atelier l'IA pour la vectorisation automatique de plans et documents graphiques

ArcheoTrace est une application de bureau open-source en langage Python, en cours de développement, visant à faciliter la transformation de plans papiers numérisés en fichiers de formes vectorielles exploitables pour la génération de plans numériques et l’analyse spatiale dans les SIG. Actuellement, ce processus est réalisé manuellement, ce qui le rend extrêmement chronophage. L'application repose sur un modèle d'intelligence artificielle capable de détecter et de délimiter automatiquement les formes présentes sur les plans. Une interface graphique permet ensuite aux utilisateurs d'ajuster et de modifier ces contours et d’exporter le résultat dans des formats ouverts et compatibles avec les logiciels de dessin vectoriel et les SIG. Bien que conçu pour le traitement de relevés archéologiques faits sur le terrain, cet outil a vocation à être utilisé pour traiter une diversité de documents graphiques, comme les relevés de coupes et d'élévations ou encore les dessins d’objets.

Atelier France Bio Imaging

Description de l'atelier (à venir)

Atelier Application de modèles d’IA pour le traitement de documents numérisés

Atelier pratique dédié à l’utilisation de modèles d’IA pour analyser des documents numérisés. L’atelier s’appuie sur la plateforme open-source Arkindex, développée par TEKLIA, qui permet aux chercheurs de concevoir et d’exécuter des processus de traitement documentaire complexes, à l’aide des technologies les plus récentes en reconnaissance d’image et de texte.

Après une introduction aux concepts de l'IA appliquée au traitement de documents numérisés, cet atelier alterne démonstrations guidées et mises en pratique individuelles, avec pour objectif de rendre accessibles des outils de pointe tout en tenant compte des besoins spécifiques du secteur des humanités numériques et des sciences sociales.

Objectifs :

- Connaître les concepts de bases en IA
- Comprendre comment appliquer des modèles d’IA (OCR, segmentation, reconnaissance d’entités) à des documents patrimoniaux.
- Apprendre à utiliser la plateforme Arkindex pour importer, traiter et annoter des corpus complexes.
- Expérimenter différents types de modèles (Tesseract, YOLO, PyLaia, Microsoft OCR, LLMs, spaCy).

 Programme :

 -Détection de photographies avec YOLO  :  Segmentation automatique d’images à partir d’un corpus Gallica.
- Reconnaissance d’écriture manuscrite avec Microsoft OCR :  application d’un moteur multilingue à des lettres du XIXe siècle.
- Extraction d’informations à l’aide d’un LLM (ChatGPT/OpenAI) : Génération de prompts personnalisés pour interroger des documents structurés.
- Reconnaissance d’écriture imprimée avec PyLaia
- OCR générique avec Tesseract  : Détection de lignes et transcription de documents modernes.
- Extraction d’entités nommées avec spaCy  : Détection automatisée de noms de lieux, personnes et dates à partir de textes transcrits.

 Lien vers l’atelier : https://notes.teklia.com/s/5j2CV_9e8#

Atelier Vikus Viewer

Description de l'atelier

Chargement... Chargement...