LUNA16
LUNA16 (LUng Nodule Analysis 2016) est un dataset de référence pour le développement d’algorithmes de détection de nodules pulmonaires. Il comprend des images médicales issues de tomodensitométries thoraciques (CT scans) anonymisées et annotées pour entraîner et évaluer des systèmes d’aide au dépistage du cancer du poumon.
Plus de 1000 scans thoraciques 3D, format DICOM
Accès gratuit pour usage académique, sous réserve d’inscription et d’acceptation des conditions de la compétition LUNA (LUng Nodule Analysis)
Description
Le dataset est dérivé de la base LIDC-IDRI (Lung Image Database Consortium) et contient :
- 888 patients avec au total plus de 1000 scans CT haute résolution
- Des annotations manuelles par plusieurs radiologues sur les nodules pulmonaires
- Des métadonnées précises (taille, emplacement, degré de malignité)
- Des volumes 3D complets permettant des approches de deep learning volumique
Il est structuré pour faciliter les comparaisons de performances entre modèles d’analyse d’images médicales.
À quoi sert ce dataset ?
LUNA16 est utilisé dans des contextes variés :
- L’entraînement de modèles de détection et classification de nodules pulmonaires
- La validation d’approches de segmentation 3D en radiologie
- Le développement de systèmes d’aide au diagnostic en oncologie thoracique
- La participation à des compétitions scientifiques sur le dépistage du cancer du poumon
- La recherche en IA médicale, traitement d’image et médecine prédictive
Peut-on l’enrichir ou l’améliorer ?
Oui, par exemple :
- Croiser les données avec des suivis cliniques pour prédire l’évolution des nodules
- Enrichir les annotations avec des labels plus granulaires (forme, texture, vascularisation…)
- Combiner avec d’autres datasets comme NSCLC-Radiogenomics ou TCIA
- Utiliser des modèles multimodaux associant image, texte et historique patient
🔗 Source : LUNA16 Dataset
Questions fréquemment posées
Quelle est la différence entre LUNA16 et LIDC-IDRI ?
LUNA16 est un sous-ensemble filtré et préformaté de LIDC-IDRI, spécifiquement structuré pour l’analyse automatique de nodules pulmonaires dans un cadre compétitif.
Les annotations sont-elles fiables ?
Oui, les nodules ont été annotés par jusqu’à 4 radiologues, et seuls les nodules > 3 mm sont inclus dans l’évaluation finale.
Le dataset contient-il des informations cliniques ?
Non. Seules les images et les annotations des nodules sont incluses. Pour des données cliniques, il faut se tourner vers des bases comme MIMIC-CXR ou TCGA-LUAD.