Ce projet implémente un benchmark comparant trois solutions d'extraction de contenu de documents sur un ensemble de métriques clés. Les résultats sont visualisables dans une interface interactive.
-
Docling v2
Une solution moderne utilisant des modèles avancés pour extraire et structurer le contenu des documents. -
LayoutParser
Une bibliothèque Python dédiée à l'analyse de la mise en page et à l'extraction de contenu à partir de documents numérisés. -
Tesseract + TableBank
Une combinaison d'OCR via Tesseract et d'extraction de tableaux basée sur TableBank.
-
Temps de Traitement
Mesure la rapidité des solutions pour extraire le contenu d'un document. -
Similarité Textuelle
Compare le contenu extrait à un texte de référence en utilisant des métriques telles que :- Cosine Similarity
- BLEU
- ROUGE
-
data/input/
Contient les documents à traiter (PDF, images, DOCX, etc.). -
data/output/
Stocke les résultats des extractions et des analyses. -
notebooks/benchmark.ipynb
Contient le notebook principal qui exécute :- Le chargement des solutions d'extraction.
- Le calcul des métriques.
- La visualisation des résultats.
Le notebook génère une interface utilisateur permettant de :
- Comparer les résultats des solutions sur des documents donnés.
- Visualiser les annotations, textes extraits et tableaux détectés.
- Explorer les performances des solutions via des graphiques et des métriques.
- Python 3.10 ou supérieur.
- Jupyter Notebook.
- Clonez le dépôt :
git clone [<URL-DU-REPO>](https://github.com/Artemis-IA/benchmark-idp.git) cd benchmark-idp