Vers un apprentissage Auto-supervisé : Enjeux, Méthodes et Applications

Dr. Salim Khazem

Introduction

L’essor du deep learning a été largement porté par l’apprentissage supervisé, qui repose sur de vastes ensembles de données annotées. Toutefois, l’obtention de ces annotations est coûteuse et chronophage, limitant ainsi l’évolutivité des modèles. Une alternative prometteuse est l’apprentissage auto-supervisé (Self-Supervised Learning, SSL), qui permet aux modèles d’apprendre des représentations pertinentes sans recourir à des labels explicites [1]. Inspiré par les mécanismes d’apprentissage biologiques, le SSL exploite des tâches prétextes pour structurer l’apprentissage des représentations. Cette approche a révolutionné divers domaines, notamment la vision par ordinateur et le traitement du langage naturel (NLP). Des modèles comme SimCLR [2], MoCo [3] et BERT [4] et BYOL [16] ont montré que des représentations de haute qualité peuvent être apprises sans supervision explicite. Ces modèles ont montré de bonnes performances sur divers benchmarks.

Cet article explore les fondements théoriques du SSL, ses méthodes clés et ses applications, tout en abordant les défis et perspectives futurs.

Fondements Théorique du SSL

L’apprentissage auto-supervisé (SSL) constitue une voie prometteuse pour la progression de l’apprentissage automatique. Contrairement à l’apprentissage supervisé, limité par la disponibilité de données annotées, les approches SSL exploitent de vastes ensembles de données non annotées [2, 5]. Cette approche a joué un rôle clé dans l’essor du deep learning en traitement du langage naturel (NLP), facilitant des avancées majeures allant de la traduction automatique à l’entraînement de modèles de grande taille sur des corpus web à l’échelle massive [6, 7]. Dans le domaine de la vision par ordinateur, le SSL a été un moteur d’innovation en permettant l’entraînement de modèles sur des volumes de données inédits, à l’image du modèle SEER entrainé sur un milliard d’images [8]. Ces approches ont atteint, voire dépassé, les performances des modèles supervisés sur des benchmarks compétitifs tels qu’ImageNet [10, 9, 3].

L’apprentissage auto-supervisé repose sur la définition d’une tâche appelée prétexte, exploitant des données non annotées afin de produire des représentations riches et interprétables [11, 12]. En traitement du langage, un des objectifs communs du SSL consiste à masquer un mot dans un texte et à prédire les mots environnants, ce qui pousse le modèle à capturer les relations linguistiques sans avoir besoin d’annotations. Les représentations ainsi obtenues peuvent ensuite être réutilisées pour des tâches variées telles que le résumé de texte, la traduction automatique ou encore la génération de contenu.

Dans le domaine du traitement d’image, des objectifs similaires existent, à titre d’exemple, les modèles BYOL ou MAE apprennent en prédisant des zones masquées d’une image ou ses représentations [16, 13]. D’autres objectifs peuvent être utilisés, notamment ceux qui encouragent l’alignement des représentations de deux vues d’une même image, obtenues par des transformations telles que l’ajout de couleurs ou le recadrage (crop).

D’autres objectifs peuvent être utilisés, des objectifs qui encouragent deux vues d’une même image, formées en ajoutant des couleurs, ou en effectuant un recadrage (crop) d’aligner leurs représentations.
L’exploitation de données massives non annotées apporte de nombreux avantages. Alors que l’apprentissage supervisé repose sur une tâche définie a priori en fonction des labels disponibles, le SSL apprend des représentations génériques, réutilisables dans divers contextes. Cette flexibilité est particulièrement précieuse dans des domaines comme la médecine, où les annotations sont coûteuses et où les tâches d’analyse peuvent évoluer. Par ailleurs, des études montrent que les modèles SSL sont plus robustes face aux attaques adversariales, à la corruption des labels et aux perturbations d’entrée. De plus, ils tendent à présenter moins de biais que leurs homologues supervisés [14, 19]. Ce qui fait que le SSL suscite un intérêt croissant au sein de la communauté scientifique et industrielle. Cependant, son entraînement reste un art complexe nécessitant une expertise avancée. Malgré cela, l’apprentissage auto-supervisé ouvre des perspectives fascinantes pour l’intelligence artificielle et ses applications. L’apprentissage auto-supervisé repose sur la construction de signaux d’entraînement à partir des données elles-mêmes, sans supervision humaine. Il repose sur plusieurs principes fondamentaux :

La prédiction de parties manquantes : Les modèles apprennent en prédisant des parties manquantes de l’entrée. Cette approche permet de créer des représentations robustes et informatives. Par exemple, BERT masque certains mots dans une phrase et apprend à les reconstituer [4]. De manière similaire, les autoencodeurs masqués (Masked Autoencoders, MAE) [13] utilisent cette technique pour reconstruire des images en supprimant une partie des pixels.

L’apprentissage contrastif : Les représentations sont apprises en rapprochant les vues augmentées d’une même image tout en les distinguant des autres images. Cette technique repose sur la maximisation de la similarité entre les vues d’un même objet sous différentes transformations tout en minimisant la similarité entre objets différents. SimCLR et MoCo sont des exemples d’approches contrastives [2,3].

L’alignement intermodal : Dans les contextes multimodaux, le SSL apprend des correspondances entre différents type de données. Par exemple, CLIP [15] apprend à associer des images et des descriptions textuelles, ce qui permet d’améliorer considérablement la compréhension du contenu visuel.

Fondements Théorique du SSL

Famille contrastive

Les approches contrastives, comme SimCLR et MoCo, s’appuient sur une fonction de perte contrastive qui rapproche les représentations d’instances similaires et éloigne celles d’instances différentes. L’efficacité de cette approche repose sur l’exploitation d’ensembles de données non étiquetées et sur la diversité des transformations appliquées aux échantillons. Le choix de la fonction de perte est crucial : la perte InfoNCE (Noise Contrastive Estimation) est largement utilisée pour optimiser ces modèles. Les travaux récents explorent également des variantes adaptées aux tâches multimodales et aux représentations textuelles [20, 21]. La Figure 1 illustre le framwork pour le contrastive learning utilisé par SimCLR.

Ces approches s’appuient sur le principe de favoriser la similarité entre différentes versions sémantiquement transformées d’une même entrée. Cette approche s’appuie sur la notion de perte contrastive. Dans le cadre de l’apprentissage contrastif, un réseau est entraîné à prédire si deux entrées appartiennent à la même classe ou non, en rapprochant leurs représentations dans l’espace d’embedding ‘z’ lorsqu’elles sont similaires, et en les éloignant dans le cas contraire. Comment les données ne sont pas labelisées, on identifie généralement des entrées similaires en appliquant des transformations connues qui préservent le sens sémantique notamment la mise en échelle (resizing), recadrage (cropping), floutage. Ces variantes d’une même entrée sont appelées paires positives, tandis que les échantillons que l’on cherche à rendre dissemblables sont appelés négatifs.

Famille Auto-distillation

Les approches d’auto-distillation, telles que BYOL [16], SimSIAM [22] et DINO [23] reposent sur un principe simple. Ces méthodes prennent deux vues différentes d’une même entrée, traitées par deux encodeurs distincts, et cherchent à aligner les représentations obtenues grâce un prédicteur. Le défi majeur dans ces approches est d’éviter l’effondrement du modèle . C’est-à-dire, une situation où les encodeurs produisent des sorties constantes indépendamment des entrées. Pour y remédier, plusieurs stratégies sont mises en place. Une technique largement utilisée consiste à mettre à jour les poids de l’un des encodeurs en effectuant une moyenne glissante (running average) des poids de l’autre. La figure 2 met en évidence l’architecture utilisé dans les travaux de [16].

La famille de l’analyse canonique des corrélations en apprentissage auto-supervisé trouve son origine dans le cadre des travaux introduits par [24]. L’objectif des CCA est d’extraire et de comprendre les relations entre deux ensembles de variables en étudiants leurs matrices de covariance croisée. Dans cette famille, plusieurs approches ont été développées, notamment VICReg [25], Barlow Twins [26] et SWAV [27]. La figure 3 illustre le pipeline SSL proposé par VICReg.

Applications du SSL

L’apprentissage auto-supervisé (SSL) s’est imposé comme une approche incontournable dans plusieurs domaines de l’intelligence artificielle, permettant d’exploiter de vastes quantités de données non annotées et de réduire la dépendance aux labels. En vision par ordinateur, des modèles comme SimCLR, BYOL, VICReg et MoCo ont montré que des représentations de haute qualité pouvaient être apprises sans supervision explicite, atteignant des performances comparables à celles des méthodes supervisées sur des tâches comme la classification d’images et la détection d’objets. L’auto-supervision est également devenue essentielle en traitement du langage naturel (NLP), avec des architectures telles que BERT et GPT, qui apprennent à prédire des segments de texte et sont ensuite transférables vers de nombreuses tâches, notamment la traduction automatique et la génération de texte. Dans le domaine médical, le SSL facilite l’analyse d’images médicales, où les annotations sont souvent rares et coûteuses, en permettant par exemple d’entraîner des modèles pour la détection de pathologies sur des scanners ou IRM sans supervision explicite. De même, en robotique, l’auto-supervision est exploitée pour apprendre des représentations visuelles et sensorielles sans étiquetage, facilitant ainsi l’adaptation des robots à des environnements variés.

Perspectives et futurs travaux

Bien que l’apprentissage auto-supervisé ait démontré son efficacité dans de nombreux domaines, plusieurs défis restent à relever afin d’améliorer ses performances et son applicabilité à grande échelle. Tout d’abord, la complexité computationnelle des modèles SSL, en particulier dans le domaine de la vision et du traitement du langage naturel, demeure un obstacle majeur. La conception de méthodes plus efficaces et accessibles constitue donc un axe de recherche prioritaire. Par ailleurs, si le SSL permet d’apprendre des représentations robustes et exploitables sans supervision, la question de la généralisation reste ouverte : les modèles actuels peuvent encore être sensibles aux variations hors distribution et aux biais présents dans les données d’entraînement. De plus, les approches actuelles sont principalement développées pour des données unimodales (images, textes, signaux…), et l’extension vers des modèles véritablement multi-modaux représente un défi majeur, bien que des avancées notables aient été réalisées avec des modèles comme CLIP. Un autre axe de recherche prometteur concerne l’intégration du SSL avec d’autres paradigmes d’apprentissage, notamment l’apprentissage par renforcement ou les modèles causaux, qui pourraient permettre de structurer plus efficacement l’apprentissage des représentations en fonction des interactions avec l’environnement. Enfin, dans des secteurs critiques tels que la médecine ou la finance, l’interprétabilité des modèles SSL constitue un enjeu fondamental : il est impératif de développer des techniques permettant d’expliquer et de valider les décisions prises par ces modèles, afin de garantir leur adoption dans des contextes sensibles. Ces défis, bien que complexes, ouvrent la voie à des avancées majeures et structurantes pour l’avenir de l’intelligence artificielle auto-supervisée.

Conclusion

L’apprentissage auto-supervisé (SSL) représente une avancée majeure dans le domaine de l’intelligence artificielle, en permettant d’exploiter de vastes quantités de données non annotées pour apprendre des représentations riches et transférables. Son efficacité a été démontrée dans des domaines variés, allant de la vision par ordinateur au traitement du langage naturel, en passant par la médecine, la robotique et l’industrie. En réduisant la dépendance aux labels, le SSL ouvre de nouvelles perspectives pour l’entraînement de modèles à grande échelle, tout en offrant une meilleure robustesse et une meilleure généralisation des représentations apprises. Toutefois, plusieurs défis demeurent, notamment en matière de complexité computationnelle, de généralisation hors distribution et d’interprétabilité des modèles. L’intégration du SSL avec d’autres paradigmes d’apprentissage, ainsi que son extension vers des approches multi-modales, constituent des axes de recherche prometteurs qui façonneront l’avenir de l’IA. Malgré ces défis, l’auto-supervision s’impose comme une alternative crédible et efficace aux méthodes supervisées, et son adoption croissante au sein de la communauté scientifique et industrielle témoigne de son potentiel transformateur pour l’intelligence artificielle de demain.

Références

[1] Bengio, Yoshua, Aaron Courville, and Pascal Vincent. « Representation learning: A review and new perspectives. » IEEE transactions on pattern analysis and machine intelligence 35.8 (2013): 1798-1828.

[2] Chen, Ting, et al. « A simple framework for contrastive learning of visual representations. » International conference on machine learning. PMLR, 2020.

[3] He, Kaiming, et al. « Momentum contrast for unsupervised visual representation learning. » Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.

[4] Devlin, Jacob. « Bert: Pre-training of deep bidirectional transformers for language understanding. » arXiv preprint arXiv:1810.04805 (2018).

[5] Misra, Ishan, and Laurens van der Maaten. « Self-supervised learning of pretext-invariant representations. » Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.

[6] Brown, Tom, et al. « Language models are few-shot learners. » Advances in neural information processing systems 33 (2020): 1877-1901.

[7] Popel, Martin, et al. « Transforming machine translation: a deep learning system reaches news translation quality comparable to human professionals. » Nature communications 11.1 (2020): 1-15.

[8] Goyal, Priya, et al. « Self-supervised pretraining of visual features in the wild. » arXiv preprint arXiv:2103.01988 (2021).

[9] Tomasev, Nenad, et al. « Pushing the limits of self-supervised resnets: Can we outperform supervised learning without labels on imagenet?. » arXiv preprint arXiv:2201.05119 (2022).

[10] Deng, Jia, et al. « Imagenet: A large-scale hierarchical image database. » 2009 IEEE conference on computer vision and pattern recognition. Ieee, 2009.

[11] Hastie, Trevor, et al. « Overview of supervised learning. » The elements of statistical learning: Data mining, inference, and prediction (2009): 9-41.

[12] Goodfellow, Ian. « Deep learning. » (2016).

[13] He, Kaiming, et al. « Masked autoencoders are scalable vision learners. » Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[14] Hendrycks, Dan, et al. « Using self-supervised learning can improve model robustness and uncertainty. » Advances in neural information processing systems 32 (2019).

[15] Radford, Alec, et al. « Learning transferable visual models from natural language supervision. » International conference on machine learning. PMLR, 2021.

[16] Grill, Jean-Bastien, et al. « Bootstrap your own latent-a new approach to self-supervised learning. » Advances in neural information processing systems 33 (2020): 21271-21284.

[17] Touvron, Hugo, et al. « Training data-efficient image transformers & distillation through attention. » International conference on machine learning. PMLR, 2021.

[18] Radford, Alec, et al. « Learning transferable visual models from natural language supervision. » International conference on machine learning. PMLR, 2021.

[19] Goyal, Priya, et al. « Vision models are more robust and fair when pretrained on uncurated images without supervision. » arXiv preprint arXiv:2202.08360 (2022).

[20] Oord, Aaron van den, Yazhe Li, and Oriol Vinyals. « Representation learning with contrastive predictive coding. » arXiv preprint arXiv:1807.03748 (2018).

[21] Dosovitskiy, A., Beyer, L., Kolesnikov, A., et al. (2020). « An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. » ICLR.

[22] Chen, Xinlei, and Kaiming He. « Exploring simple siamese representation learning. » Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.

[23] Caron, Mathilde, et al. « Emerging properties in self-supervised vision transformers. » Proceedings of the IEEE/CVF international conference on computer vision. 2021.

[24] Hotelling, Harold. « Relations between two sets of variates. » Breakthroughs in statistics: methodology and distribution. New York, NY: Springer New York, 1992. 162-190.

[25] Bardes, Adrien, Jean Ponce, and Yann LeCun. « Vicreg: Variance-invariance-covariance regularization for self-supervised learning. » arXiv preprint arXiv:2105.04906 (2021).

[26] Zbontar, Jure, et al. « Barlow twins: Self-supervised learning via redundancy reduction. » International conference on machine learning. PMLR, 2021.

[27] Caron, Mathilde, et al. « Unsupervised learning of visual features by contrasting cluster assignments. » Advances in neural information processing systems 33 (2020): 9912-9924.

Vers un apprentissage Auto-supervisé : Enjeux, Méthodes et Applications

Articles similaires