Amin'ny alalan'ny fanindriana ny "Accept", manaiky ny hotehirizina ao amin'ny fitaovanao ianao mba hanatsarana ny dian'ny tranonkala, hanadihady ny fampiasana azy ary handray anjara amin'ny ezaka ara-barotra ataonay. Jereo ny politikan'ny tsiambaratelontsika raha mila fanazavana fanampiny.
Open Datasets
HowTo100M
Multimodal

HowTo100M

HowTo100M est un vaste dataset multimodal extrait de vidéos tutoriels YouTube. Il associe des données visuelles (vidéo), auditives (audio/voix), et textuelles (sous-titres automatiques) pour permettre l'entraînement de modèles d’alignement vidéo-texte, de compréhension d’instructions, et de recherche multimodale. Il s'agit d'une ressource clé pour le pré-entraînement de modèles vision-langage à grande échelle.

Télécharger le dataset
Taille

Environ 136 millions de paires audio/texte, issues de 1,2 million de vidéos YouTube (environ 20 000 heures de contenu)

Licence

Accès libre pour la recherche académique, sous licence MIT. Certaines vidéos sont sujettes aux conditions d'utilisation de YouTube

Description


Le dataset contient :

  • 1,2 million de vidéos "How-To" issues de YouTube
  • Des segments vidéo alignés automatiquement avec les sous-titres transcrits par YouTube
  • Une grande variété de domaines : cuisine, bricolage, beauté, sport, etc.
  • Données audio (voix, ambiance), vidéo (images extraites), texte (transcriptions brutes)
  • Des extractions sous forme de triplets synchronisés (image-clé, texte, timestamp)

Bien que les sous-titres soient générés automatiquement, leur volume massif permet un apprentissage robuste avec supervision faible.

À quoi sert ce dataset ?


HowTo100M est conçu pour :

  • L'entraînement de modèles multimodaux (texte + vidéo + audio)
  • Le pré-entraînement pour des tâches comme la recherche vidéo, la légende automatique, ou la compréhension d’instructions
  • La construction de représentations partagées entre vision et langage (ex. VideoCLIP, Florence, Flamingo)
  • L’amélioration des assistants vidéo-guidés (ex. pour robots, tutoriels vocaux)
  • La recherche zero-shot sur données vidéo-textes

Peut-on l’enrichir ou l’améliorer ?


Oui, par exemple :

  • Améliorer l’alignement texte-vidéo avec des modèles de transcription plus précis (ex. Whisper)
  • Annoter manuellement des segments pour des benchmarks en supervision forte
  • Ajouter des tags sémantiques ou des catégories d'action par frame
  • Utiliser pour le fine-tuning de modèles génératifs multimodaux (vidéo-to-text ou text-to-video)

🔗 Source : HowTo100M Dataset GitHub

Questions fréquemment posées

Les sous-titres sont-ils fiables ?

Ils sont générés automatiquement, donc parfois bruités. Cependant, leur volume massif permet de compenser l’imprécision au niveau global.

Peut-on utiliser ce dataset pour l'entraînement de modèles génératifs ?

Oui, il est idéal pour l'entraînement ou le fine-tuning de modèles vidéo-to-text ou multimodaux de nouvelle génération.

Quelles architectures ont été pré-entraînées avec HowTo100M ?

Des modèles comme VideoCLIP, Frozen, MIL-NCE, ou encore XCLIP ont utilisé ce corpus pour le pré-entraînement vision-langage à grande échelle.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.