Aller au contenu

Intelligence Artificielle

Comprendre le modèle Text-to-Video SORA (OpenAI)

Autrice : Dr Ella Jewison

L’article explore les architectures de modèles dans SORA d’OpenAI, un système transformant des prompts textuels en vidéos. Il couvre les Vision Transformers (ViT, NaViT), modèles de diffusion (DiT), et techniques comme la réduction de la dimensionnalité et le recaptioning. SORA combine ces technologies pour gérer les défis de cohérence temporelle et de diversité des données.