MM-IMDb (Multimodal IMDb Dataset)
MM-IMDb (Multimodal IMDb) est un dataset multimodal combinant des informations textuelles (résumés de films), des images (affiches de films), et des labels de genres. Il est conçu pour l'entraînement et l’évaluation de modèles capables de traiter plusieurs modalités en parallèle, dans des tâches de classification, recommandation ou génération.
Plus de 25000 films, avec métadonnées textuelles, affiches (images) et labels multilabels (genres)
Utilisation libre pour la recherche académique, sous licence MIT
Description
Le dataset comprend pour chaque film :
- Un résumé textuel (synopsis IMDb)
- Une affiche en image (JPEG)
- Une liste de genres (jusqu’à 23 genres possibles : drame, action, comédie, etc.)
- Des métadonnées : titre, date, durée, etc.
Le dataset est structuré pour être utilisé dans des approches multimodales (texte + image), avec des splits standardisés pour l’entraînement, la validation et le test.
À quoi sert ce dataset ?
MM-IMDb peut être utilisé pour :
- L’entraînement de modèles de classification multimodale (affiche + synopsis → genres)
- Le développement de systèmes de recommandation de films
- La fusion de représentations texte/image (multi-embedding)
- L’analyse de la contribution respective du texte et de l’image à la classification
- La validation d’architectures comme CLIP, ViLT, ou multimodal BERT
Peut-on l’enrichir ou l’améliorer ?
Oui :
- Ajouter des informations sur le casting, les récompenses ou les critiques
- Compléter les images par des captures de scènes (frames)
- Introduire des features audio pour une analyse tri-modale
- Améliorer les labels via crowdsourcing ou modèles de re-labeling plus récents
🔗 Source : MM-IMDb Dataset on GitHub
Questions fréquemment posées
Le dataset peut-il être utilisé pour tester CLIP ou BLIP ?
Oui, c’est un excellent benchmark pour tester des modèles vision-langage sur la tâche de classification ou d’alignement sémantique.
Les images sont-elles de qualité uniforme ?
Les affiches sont extraites automatiquement depuis IMDb. Certaines peuvent être de qualité variable, mais elles restent globalement propres et exploitables.
Est-ce que le dataset est multilingue ?
Non. Les synopsis sont en anglais uniquement.