Aller au contenu

Centre de Recherche & Innovation

Comprendre le modèle Text-to-Video SORA (OpenAI)

Autrice : Dr Ella Jewison

L’article explore les architectures de modèles dans SORA d’OpenAI, un système transformant des prompts textuels en vidéos. Il couvre les Vision Transformers (ViT, NaViT), modèles de diffusion (DiT), et techniques comme la réduction de la dimensionnalité et le recaptioning. SORA combine ces technologies pour gérer les défis de cohérence temporelle et de diversité des données.