Edit Banana : Le Guide Complet pour Convertir des Graphiques Statiques en Diagrammes Éditables

Chaque chercheur et analyste a connu cette frustration : trouver le graphique parfait dans un PDF mais ne pas pouvoir le modifier — couleurs, données, mise en page. Edit Banana résout ce problème en utilisant SAM 3 et des LLMs multimodaux pour convertir des images statiques en fichiers DrawIO (XML) et PowerPoint (PPTX) entièrement éditables.
Développé par BIT-DataLab (Beijing Institute of Technology), avec 3 800+ étoiles GitHub et 233 forks, Edit Banana est à la pointe du domaine émergent du dérendering de graphiques.
Qu'est-ce qu'Edit Banana ?
Edit Banana est un Ré-éditeur Universel de Contenu : « Rendez l'inéditable, éditable. » L'outil prend une image statique (PNG/JPG) ou un PDF contenant des graphiques et produit un fichier éditable où chaque élément peut être déplacé, stylisé et modifié individuellement.
Statistiques Clés
| Métrique | Valeur |
|---|---|
| Étoiles GitHub | 3 800+ |
| Forks | 233 |
| Langage | Python |
| Licence | AGPL-3.0 |
| Créé | Janvier 2026 |
| Démo en ligne | editbanana.anxin6.cn |
Comment Ça Marche : Le Pipeline
Étape 1 : Entrée
Images PNG/JPG ou fichiers PDF contenant des graphiques ou diagrammes.
Étape 2 : Segmentation SAM 3
Un décodeur de masque SAM 3 fine-tuné identifie chaque élément : formes, lignes, flèches, zones de texte, remplissages de couleur.
Étape 3 : Extraction de Texte (parallèle)
- OCR local (Tesseract) — localisation du texte standard, fonctionne hors ligne
- Pix2Text — reconnaissance de formules mathématiques et conversion LaTeX
- Stratégie guidée par recadrage — envoi de cultures haute résolution au moteur texte
Étape 4 : Scan VLM Multi-Rounds
Un LLM multimodal (Qwen-VL/GPT-4V) analyse les relations logiques, la direction des flux et la hiérarchie des éléments.
Étape 5 : Génération XML/PPTX
Fusion des données spatiales SAM 3 et des résultats OCR pour produire des fichiers DrawIO XML ou PPTX éditables.
Fonctionnalités Clés
- Reconstruction haute fidélité : logique de mise en page, couleurs, hiérarchie, précision du texte
- Manipulation individuelle : chaque élément peut être déplacé, redimensionné, restylisé
- Support formules mathématiques : LaTeX via Pix2Text
- Interfaces multiples : CLI, serveur FastAPI, démo web
- Concurrence multi-utilisateurs : verrou global GPU + cache LRU + système de crédits
Installation
git clone https://github.com/BIT-DataLab/Edit-Banana.git
cd Image2DrawIO
mkdir -p input output sam3_output
pip install -r requirements.txt
sudo apt install tesseract-ocr tesseract-ocr-chi-sim
cp config/config.yaml.example config/config.yaml
Utilisation
python main.py -i input/test_diagram.png
# Sortie XML dans output/
Cas d'Usage
- Recherche académique : modifier des graphiques de publications sans les recréer
- Rapports d'entreprise : extraire des graphiques de PDF dans PowerPoint éditable
- Création de contenu : transformer tout graphique en actif personnalisable
- Récupération de données : reconstruire les éléments visuels de rapports anciens
Comparaison avec les Alternatives
| Fonctionnalité | Edit Banana | Pic2Chart | ChartReader | WebPlotDigitizer |
|---|---|---|---|---|
| Étoiles | 3,8K | N/A | 200+ | N/A |
| Entrée | Image + PDF | Image | Image | Image + PDF |
| Sortie | DrawIO + PPTX | PPT SVG | Tableaux | Données |
| SAM 3 | ✅ | ❌ | ❌ | ❌ |
| LaTeX | ✅ Pix2Text | ❌ | ❌ | ❌ |
| VLM | ✅ Qwen-VL/GPT-4V | ❌ | ✅ | ❌ |
| Diagramme éditable | ✅ Tous éléments | ✅ Partiel | ❌ Données seules | ❌ Données seules |
FAQ
Quels types de diagrammes sont supportés ?
Organigrammes, diagrammes d'architecture, graphiques statistiques, UML, cartes mentales.
Ai-je besoin d'un GPU ?
Un GPU CUDA est fortement recommandé. Le mode CPU est possible mais plus lent.
Quelle est la précision du texte ?
Haute précision grâce à la stratégie de recadrage guidé et au double moteur Tesseract + Pix2Text.
Conclusion
Edit Banana représente une percée dans le dérendering de graphiques. En combinant segmentation SAM 3, LLMs multimodaux et double moteur OCR, il convertit des images statiques en diagrammes entièrement éditables. Avec 3 800+ étoiles et le soutien du BIT-DataLab, ce projet comble un besoin que les chercheurs et analystes ont depuis des années.
