Dr. Salim Khazem
Introduction
Depuis une décennie, l’entraînement supervisé sur ImageNet [1] a dicté la recherche en vision : des modèles optimisés pour la classification/segmentation avec des labels (étiquettes) humains de haute qualité, un protocole d’évaluation clair (top-1/top-5) Accuracy, et un transfert efficace vers d’autres tâches. Ce cadre a forgé un écosystème complet (benchmarks, recette, hardware) et catalysé d’immenses progrès scientifiques. Cependant, ce paradigme a fini par montrer ses limites :
- Le coût de l’annotation : La création de datasets de la taille d’ImageNet et JFT est extrêmement coûteuse et laborieuse, nécessitant des milliers d’heures d’annotation humaine. Passer à l’échelle supérieure devenait prohibitif.
- Le vocabulaire fermé : Les modèles sont intrinsèquement limités aux catégories (par exemple, 1k pour ImageNet classique et 21k pour le plus grand ImageNet) vues durant l’entrainement. Ils ne possèdent aucune flexibilité pour comprendre ou identifier des concepts absents de cet ensemble sémantique prédéfini.
- La faible généralisation “Zero-Shot“ : C’est une conséquence directe du point précédent. Ces modèles sont incapables d’identifier des concepts hors distribution (Out-of-Distribution, OOD) ou de réaliser des tâches de classification pour lesquelles aucune donnée d’entraînement n’a été explicitement fournie (classification « Zero-shot »).
Pour surmonter ces obstacles, un changement majeur s’est opéré en 2020. Au lieu de s’appuyer sur des labels manuels et couteux, ce nouveau paradigme exploite les corpus « Web-scale » composés de milliards de paires image-texte bruitées, collectées passivement sur internet. Des datasets comme CC12m [2], Coyo-700m [3], YFcc100m [4], Laion-5b [5] et plus récemment WebLi ont été déterminants.
L’objectif n’est plus la classification dans un espace de labels fermé, mais l’alignement sémantique image <-> texte, souvent réalisé via des objectifs contrastifs.
Cette transition a inauguré l’ère des Vision-Language Models (VLMs). Des modèles comme CLIP [6], Align [7], Siglip [8, 9] ont redéfini les standards en démontrant des capacités de généralisation et de classification zero-shot inédites. Plus récemment, des modèles multimodaux comme LLaVa [10] ou PaliGemma [11, 12], qui couplent des encodeurs (ceux utilisés dans SigLip, CLIP) à des grands modèles de langage (LLMs), redéfinissant notre manière de concevoir, d’entraîner et d’évaluer la vision.
Du paradigme ImageNet au web-scale image-texte
La transition du paradigme basé sur des datasets comme ImageNet vers les VLMs web-scale (Figure 1) représente un changement fondamental dans l’apprentissage de représentations visuelles. L’approche précédente, bien qu’efficace, reposait sur une supervision dense et propre (ex : ILSVRC) avec des objectifs discriminatifs (classification), où le transfert vers des tâches aval se faisait quasi-exclusivement par finetuning. Même l’essor puissant des méthodes auto-supervisées (Self-Supervised Learning) comme SimCLR [13], DINO [14,15] ou MAE [16], qui ont appris des représentations visuelles robustes sans étiquettes, est resté largement centré sur une approche « Vision-only ». Le nouveau paradigme abandonne cette curation manuelle coûteuse au profit d’un pré-entraînement sur des paires image-text massives, bruitées, et collectées passivement sur le Web, postulant que l’échelle (des milliards de paires) compense le bruit des annotations textuelles.
Les pipelines de collecte ont évolué, passant de la curation manuelle intensive à des filtres automatiques légers ou à un filtrage basé sur des modèles. Cet effort a été rendu possible par une série de datasets de plus en plus massifs : de CC12m et YFcc100m (un pivot historique incluant photos et vidéos sous licence Creative Commons), en passant par Coyo-700m (une alternative open-source à grande échelle), jusqu’au monumental LAION-5b (5.85 milliards de paires), qui a démocratisé l’entraînement à très grande échelle pour la communauté scientifique. Des corpus propriétaires encore plus vastes, comme WebLi de Google (un ensemble multilingue utilisé par PaliGemma), continuent de repousser ces frontières. Côté méthodologie, ce changement de données a forcé l’innovation : ALIGN a prouvé que des filtres minimaux sur les données (plutôt qu’une curation complexe) étaient suffisants si l’échelle était extrême (plus d’un milliard de paires).
Plus récemment, SigLIP a optimisé la fonction de perte, remplaçant la softmax contrastive standard (utilisée par CLIP) par une fonction sigmoïde pairwise, démontrant une meilleure scalabilité et efficacité, notamment avec des tailles de batch plus importantes. L’impact collectif de ce basculement est profond : il a débloqué des capacités de généralisation zero-shot robustes, permis la création d’embeddings sémantiques universels alignant vision et texte, et fait évoluer le domaine d’une « vision pour la vision » (classification, segmentation) à une « vision pour le langage et le raisonnement », fondant ainsi les bases des modèles multimodaux actuels.

Architectures et principes du nouveau paradigme
Le basculement vers les modèles vision-langage a profondément transformé la manière dont les systèmes de vision sont conçus. Alors que les modèles classiques tels que ResNet [17]
étaient entraînés pour produire une seule représentation visuelle destinée à une tâche discrète (classification, détection ou segmentation), les nouveaux modèles s’appuient sur une double architecture : (i) un encodeur visuel qui extrait des représentations riches et (ii) un module linguistique qui permet au modèle de raisonner, de dialoguer et de produire des réponses textuelles à partir d’une image. Cette séparation explicite entre perception (vision) et cognition (langage) constitue l’un des fondements du nouveau paradigme.
La première brique essentielle est l’encodeur vision-langage entraîné par alignement contrastif entre images et textes. Des architectures comme CLIP, ALIGN ou plus récemment SigLip 1 et 2 utilisent un double flux : une image est projetée dans un espace vectoriel par un réseau visuel de type Vision Transformer (ViT) [18], tandis que le texte associé est encodé par un Transformer Linguistique. L’objectif d’apprentissage consiste à rapprocher ces deux représentations lorsqu’elles correspondent, et à les éloigner lorsque l’image et le texte ne dérivent pas le même contenu. CLIP utilise une loss contrastive basée sur une softmax croisée sur l’ensemble du batch, tandis que SigLip replace cette formulation par une perte sigmoïde binaire plus simple et plus efficace à grande échelle. Cette modification rend le modèle moins dépendant de la structure du batch et plus stable lorsque la taille des données dépasse le milliard d’exemples. Ce type d’entraînement permet d’obtenir un espace commun image-text dans lequel des tâches comme la reconnaissance zero-shot, la recherche d’image (Retrieval) ou la similarité sémantique deviennent possibles sans apprentissage spécifique par tâche (Dowstream tasks finetuning).
Cependant, ces encodeurs ne suffisent pas à produire des réponses structurées ou à raisonner sur une image. C’est là qu’intervient la deuxième composante du nouveau paradigme : la connexion de l’encodeur visuel à un modèle de langage de grande taille. Le principe consiste à projeter les représentations issues du modèle visuel dans l’espace d’embedding du LLM, pour qu’elles puissent être traitées comme des tokens à part entière. Dans LLaVA par exemple, l’image est d’abord convertie en une séquence de vecteurs par un ViT préentraîné via CLIP (Figure 2). Ces vecteurs sont ensuite transformés par une simple couche linéaire afin de correspondre à la dimension attendue par LLaMA. Le modèle de langage peut alors « voir » l’image sous forme de tokens visuels et générer des réponses textuelles en prenant en compte le contenu visuel. L’entraînement se fait alors non plus via une perte contrastive, mais via du « visual instruction tuning » : on fournit au modèle des dialogues image-texte question-réponse, souvent générés automatiquement à l’aide de GPT-4, afin de lui apprendre à suivre des instructions visuelles.

PaliGemma (Figure 3), développé par Google, illustre une version plus avancée de cette architecture. Le modèle combine un encodeur visuel SigLip ou SigLip-2 et un LLM de la famille Gemma [19, 20]. La fusion entre les deux modalités ne se limite pas à une simple projection linéaire, mais utilise des mécanismes de cross-attention qui permettent au modèle de croiser dynamiquement les informations visuelles et textuelles tout au long de la génération. PaliGemma est également entraîné sur des données massives issues du dataset WebLI, puis affiné sur des conversations multimodales, des tâches de question-réponse visuelle, mais aussi des tâches plus complexes comme l’OCR, la compréhension de graphiques ou la localisation d’objets dans l’image. La logique n’est plus uniquement de reconnaître des objets, mais de manipuler des concepts visuels comme des entités dans un raisonnement linguistique.
Ces architectures se différencient des anciens pipelines vision par leur structuration en deux blocs distincts, mais densément interconnectés. L’encodeur visuel n’est plus la fin du processus : il devient une étape de « perception universelle » dont la sortie doit être intelligible pour un modèle de langage. Le LLM, de son côté, n’est plus alimenté uniquement par du texte brut, mais par un flux multimodal qui inclut des représentations visuelles, parfois audio ou temporelles. La frontière entre vision, langage et raisonnement se dissout progressivement.
Enfin, une tendance émergente consiste à enrichir ces modèles avec des représentations plus denses que le simple token global de l’image. Des modèles comme SigLIP-2 produisent non seulement un embedding global, mais également des cartes de caractéristiques spatiales qui peuvent être injectées dans le LLM afin de permettre le référencement d’objets locaux, la segmentation ou le grounding. Cela ouvre la voie à une nouvelle génération de systèmes capables non seulement de décrire une image, mais aussi de raisonner sur des régions précises, d’annoter des zones, de planifier des actions, ou même d’interagir dans un environnement visuel.

Défis et limites des modèles multimodaux
Malgré leurs performances impressionnantes, les modèles vision–langage actuels présentent plusieurs limites structurelles. La première concerne la nature même des données utilisées pour leur pré entraînement. Les ensembles comme LAION, COYO ou WebLI sont massifs, mais souvent bruités, partiellement redondants, et dépourvus de contrôle sur la fiabilité des légendes, les biais culturels ou l’inclusion de contenus sensibles. Ces données peuvent contenir des stéréotypes, des erreurs factuelles ou des légendes hors-contexte, ce qui fragilise la robustesse et la fiabilité des modèles en situation réelle. Un deuxième défi réside dans leur dépendance au scaling (mise à l’échelle) : l’amélioration des performances repose encore principalement sur l’augmentation de la taille des données, du modèle et du calcul, ce qui engendre des coûts computationnels très élevés ainsi qu’une empreinte environnementale non négligeable. Sur le plan fonctionnel, ces modèles restent majoritairement réactifs : ils excellent à décrire, associer ou comparer des contenus visuels, mais peinent à planifier, à raisonner de manière symbolique ou à interagir avec leur environnement.
Enfin, l’évaluation de ces systèmes reste difficile. Les métriques classiques issues d’ImageNet ne sont plus adaptées, tandis que les benchmarks multimodaux existants (VQAv2, GQA, ScienceQA, etc.) peuvent contenir des fuites de données ou ne refléter que partiellement des capacités de raisonnement visuel réalistes.
Perspectives et travaux futurs
L’évolution des VLMs se dirige vers trois grandes transformations. La première concerne la qualité des données : plutôt que d’accumuler des milliards d’images brutes, les travaux actuels cherchent à construire des jeux de données moins bruités, plus diversifiés culturellement, mieux documentés et filtrés à l’aide de modèles eux-mêmes multimodaux. Parallèlement, l’émergence de pipelines de “data curation active” permet de sélectionner dynamiquement les exemples les plus utiles pour affiner les modèles. La deuxième transformation touche l’architecture. Des approches comme SigLip-2, PaliGemma-2 commencent à exploiter des représentations visuelles plus denses et structurées, capables de raisonner spatialement sur des régions de l’image et non plus uniquement sur un embedding global. Cela prépare l’intégration naturelle de tâches plus complexes telles que la segmentation, le grounding, l’OCR contextuel ou les instructions multimodales interactives. Enfin, le troisième axe concerne l’intégration de ces systèmes dans des environnements réels. Les futurs modèles devront non seulement interpréter des images, mais aussi interagir, planifier des actions, fournir des justifications vérifiables et respecter des contraintes éthiques et légales. Cela implique une meilleure gouvernance des données, la traçabilité des décisions, et l’apparition de nouveaux benchmarks évaluant l’équité, la sécurité, la robustesse aux attaques ainsi que la capacité d’explication.
Conclusion
Le passage du paradigme supervisé basé sur des données annotées manuellement et des tâches fermées au paradigme web-scale multimodal marque une rupture dans la manière de concevoir la vision. Les modèles comme CLIP, SigLip, LLaVA ou PaliGemma ne se contentent plus de reconnaître des objets : Ils lient perception visuelle et langage, ouvrant ainsi l’accès au zero-shot learning. Ce changement d’échelle et de nature des données a permis l’émergence de modèles généralistes, capables de transférer leurs connaissances bien au-delà des protocoles supervisés traditionnels. Néanmoins, ce nouveau paradigme introduit des défis majeurs : bruit des données web, évaluation encore immature, coût énergétique, risque de bias et de mésinformation. L’avenir de ces systèmes dépendra de notre capacité à concilier performance et responsabilité, à passer d’une vision descriptive à une vision capable de raisonner, d’agir et de s’inscrire dans un cadre transparent et contrôlable.
Références
[1] Russakovsky, Olga, et al. « Imagenet large scale visual recognition challenge. » International journal of computer vision 115.3 (2015): 211-252.
[2] Changpinyo, Soravit, et al. « Conceptual 12m: Pushing web-scale image-text pre-training to recognize long-tail visual concepts. » Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.
[3] Byeon, Minwoo, et al. « Coyo-700m: Image-text pair dataset. » 2022.
[4] Thomee, Bart, et al. « Yfcc100m: The new data in multimedia research. » Communications of the ACM 59.2 (2016): 64-73.
[5] Schuhmann, Christoph, et al. « Laion-5b: An open large-scale dataset for training next generation image-text models. » Advances in neural information processing systems 35 (2022): 25278-25294.
[6] Radford, Alec, et al. « Learning transferable visual models from natural language supervision. » International conference on machine learning. PmLR, 2021.
[7] Jia, Chao, et al. « Scaling up visual and vision-language representation learning with noisy text supervision. » International conference on machine learning. PMLR, 2021.
[8] Zhai, Xiaohua, et al. « Sigmoid loss for language image pre-training. » Proceedings of the IEEE/CVF international conference on computer vision. 2023.
[9] Tschannen, Michael, et al. « Siglip 2: Multilingual vision-language encoders with improved semantic understanding, localization, and dense features. » arXiv preprint arXiv:2502.14786 (2025).
[10] Liu, Haotian, et al. « Visual instruction tuning. » Advances in neural information processing systems 36 (2023): 34892-34916.
[11] Chen, Xi, et al. « Pali-x: On scaling up a multilingual vision and language model. » arXiv preprint arXiv:2305.18565 (2023).
[12] Steiner, Andreas, et al. « Paligemma 2: A family of versatile vlms for transfer. » arXiv preprint arXiv:2412.03555 (2024).
[13] Chen, Ting, et al. « A simple framework for contrastive learning of visual representations. » International conference on machine learning. PMLR, 2020.
[14] Caron, Mathilde, et al. « Emerging properties in self-supervised vision transformers. » Proceedings of the IEEE/CVF international conference on computer vision. 2021.
[15] Oquab, Maxime, et al. « Dinov2: Learning robust visual features without supervision. » arXiv preprint arXiv:2304.07193 (2023).
[16] He, Kaiming, et al. « Masked autoencoders are scalable vision learners. » Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
[17] He, Kaiming, et al. « Deep residual learning for image recognition. » Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
[18] Dosovitskiy, Alexey. « An image is worth 16×16 words: Transformers for image recognition at scale. » arXiv preprint arXiv:2010.11929 (2020).
[19] Team, Gemma, et al. « Gemma: Open models based on gemini research and technology. » arXiv preprint arXiv:2403.08295 (2024).
[20] Team, Gemma, et al. « Gemma 3 technical report. » arXiv preprint arXiv:2503.19786 (2025).