MM-IMDb (Multimodal IMDb Dataset)

MM-IMDb (Multimodal IMDb) est un dataset multimodal combinant des informations textuelles (résumés de films), des images (affiches de films), et des labels de genres. Il est conçu pour l'entraînement et l’évaluation de modèles capables de traiter plusieurs modalités en parallèle, dans des tâches de classification, recommandation ou génération.

Télécharger le dataset

Taille

Plus de 25000 films, avec métadonnées textuelles, affiches (images) et labels multilabels (genres)

Licence

Utilisation libre pour la recherche académique, sous licence MIT

Description

‍
Le dataset comprend pour chaque film :

Un résumé textuel (synopsis IMDb)
Une affiche en image (JPEG)
Une liste de genres (jusqu’à 23 genres possibles : drame, action, comédie, etc.)
Des métadonnées : titre, date, durée, etc.

‍

Le dataset est structuré pour être utilisé dans des approches multimodales (texte + image), avec des splits standardisés pour l’entraînement, la validation et le test.

‍

À quoi sert ce dataset ?

‍
MM-IMDb peut être utilisé pour :

L’entraînement de modèles de classification multimodale (affiche + synopsis → genres)
Le développement de systèmes de recommandation de films
La fusion de représentations texte/image (multi-embedding)
L’analyse de la contribution respective du texte et de l’image à la classification
La validation d’architectures comme CLIP, ViLT, ou multimodal BERT

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui :

Ajouter des informations sur le casting, les récompenses ou les critiques
Compléter les images par des captures de scènes (frames)
Introduire des features audio pour une analyse tri-modale
Améliorer les labels via crowdsourcing ou modèles de re-labeling plus récents

‍

🔗 Source : MM-IMDb Dataset on GitHub

‍

Questions fréquemment posées

Le dataset peut-il être utilisé pour tester CLIP ou BLIP ?

Oui, c’est un excellent benchmark pour tester des modèles vision-langage sur la tâche de classification ou d’alignement sémantique.

Les images sont-elles de qualité uniforme ?

Les affiches sont extraites automatiquement depuis IMDb. Certaines peuvent être de qualité variable, mais elles restent globalement propres et exploitables.

Est-ce que le dataset est multilingue ?

Non. Les synopsis sont en anglais uniquement.

Datasets similaires

Text

GLUE Benchmark

Sary

DOTA (Dataset for Object Detection in Aerial Images)

Multimodal

LibriSpeech