CheXpert Dataset
CheXpert est un jeu de données d’imagerie médicale de grande ampleur, développé par Stanford. Il contient plus de 220 000 radiographies thoraciques annotées automatiquement puis validées, servant à entraîner et évaluer des modèles d’intelligence artificielle pour la détection de pathologies pulmonaires.
Plus de 224 000 radiographies thoraciques, format DICOM
Accès gratuit sur demande, réservé à la recherche académique et non commerciale (licence spécifique Stanford University)
Description
Le dataset comprend :
- 224,316 radiographies thoraciques de plus de 65 000 patients
- Des images en format DICOM, issues d’un hôpital universitaire
- Des annotations portant sur 14 pathologies : pneumonie, œdème pulmonaire, fracture de côtes, cardiomégalie, etc.
- Des niveaux d’incertitude pour certaines étiquettes, intégrables dans l’entraînement de modèles probabilistes
CheXpert est l’un des benchmarks les plus utilisés pour la classification automatisée d’images médicales en radiologie.
À quoi sert ce dataset ?
CheXpert est utilisé dans plusieurs cas d’usage :
- L’entraînement de modèles de classification et détection de pathologies pulmonaires sur radiographie
- Le benchmarking d’algorithmes d’analyse d’imagerie médicale (CNN, ViT, multimodalité…)
- Le développement d’outils d’aide au diagnostic pour les radiologues
- L’évaluation de la précision des systèmes IA face à l’incertitude des annotations médicales
- La recherche sur la fiabilité et la robustesse des modèles en santé
Peut-on l’enrichir ou l’améliorer ?
Oui, plusieurs approches sont possibles :
- Ajouter des annotations cliniques complémentaires ou des diagnostics définitifs
- Fusionner avec d’autres datasets (MIMIC-CXR, NIH ChestX-ray14) pour renforcer la diversité
- Intégrer des métadonnées (âge, sexe, antécédents) pour des modèles contextuels
- Utiliser des approches d’apprentissage semi-supervisé ou à incertitude pour exploiter les labels faibles
🔗 Source : CheXpert Dataset
Questions fréquemment posées
Les annotations sont-elles faites par des radiologues ?
Les annotations initiales sont générées automatiquement à partir des rapports, puis validées sur un sous-ensemble par des médecins pour évaluer les performances.
CheXpert couvre-t-il des cas pédiatriques ?
Non, le dataset est basé sur des patients adultes. Pour les cas pédiatriques, d’autres datasets comme PadChest ou PedChestXray sont plus appropriés.
Existe-t-il un leaderboard pour CheXpert ?
Oui, Stanford met à disposition une évaluation standardisée pour comparer les performances des modèles sur un jeu de test fermé.