Dr. Ahmad Chamma
Au cours de la dernière décennie, nous avons assisté à une énorme révolution dans le domaine des systèmes d’IA en incorporant des LLM dans des applications réelles dans le cadre de différentes tâches pour un large public. Presque tout le monde a eu une interaction avec l’un des agents intelligents pour un brainstorming rapide, une paraphrase efficace ou simplement pour se détendre dans un échange contextuel. Ces systèmes ont démontré une grande capacité à générer un langage humain convaincant (et un contenu/comportement dans les cas multimodaux), ce qui en fait l’un des plus grands jalons pour une meilleure compréhension de la nature humaine. Par conséquent, que peuvent nous apprendre les LLM sur le langage ? Dans ce qui suit, nous essayons de résumer le travail effectué dans le cadre du prix du meilleur article de l’ACL 2024 par (Kallini et al., 2024) du département NLP de Stanford intitulé: « Mission: Impossible Language Models ».
I- Grands modèles de langage et langage humain
Noam Chomsky, l’un des linguistes les plus influents depuis 1950, a déclaré à une occasion : « Les grands modèles de langage ont une propriété fondamentale qui démontre qu’ils ne peuvent rien dire sur le langage et la pensée. Cette propriété est très simple : son principe intégré ne peut pas être modifié, à savoir qu’ils fonctionnent aussi bien pour les langues impossibles que pour les langues possibles » (Noam Chomsky, 2023). Selon cette déclaration, les LLM ne peuvent pas faire la distinction entre les langues possibles et les langues impossibles, car ces modèles ne sont pas capables de comprendre les informations structurelles sous-jacentes du langage humain. En outre, à une autre occasion, il a déclaré ce qui suit : « … [les LLM] sont incapables de distinguer le possible de l’impossible… » (Chomsky et al., 2023). En plus de ses pensées, d’autres linguistes ont suivi le travail de Noam en critiquant le rôle des LLM tels que Moro et al., 2023 publiant que « … la distinction entre les langues possibles et les langues impossibles ne peut pas être formulée par définition pour les LLM » et Bolhuis et al., 2024 soulignant que « les LLM peuvent produire des langues “impossibles” […] tout aussi bien (sinon mieux) que la sortie de la langue naturelle ».
Pour que des affirmations aussi importantes de la part de la communauté linguistique soient acceptées par l’ensemble des congrégations, une analyse formelle approfondie et/ou des preuves expérimentales sont nécessaires pour les étayer. Or, Chomsky n’a cité aucun travail lié aux architectures de transformateurs et a basé ses idées sur les travaux de Mitchell and Bowers, 2020. Cette étude utilise l’architecture des réseaux neuronaux récurrents (RNN) formés sur diverses langues non naturelles telles que des phrases inversées et des vocabulaires aléatoires, et montre une grande précision sur la tâche d’accord sujet-verbe. D’autre part, les déclarations de Chomsky ont ébranlé les explorations antérieures visant à comprendre la généralisation des principes syntaxiques à partir de données telles que la sensibilité des modèles basés sur les transformateurs à l’ordre des mots et à la structure des phrases (Alleman et al., 2021; Galke et al., 2024), la capacité des modèles basés sur les transformateurs à apprendre à partir des seules informations syntaxiques (Huang et al., 2023), l’impact de la tokenisation, des ajustements de pré-entraînement et de l’encodage positionnel dans la récupération des informations sur l’ordre des mots à partir de langues mélangées (Sinha et al., 2021) et les indices lexicaux seuls peuvent ne pas toujours être suffisants pour obtenir de bonnes performances (Devlin et al., 2019).
Par conséquent, s’il s’avère que ces affirmations sont vraies, c’est-à-dire que les LLM apprennent aussi bien les langues possibles que les langues impossibles, ils ne peuvent rien nous apprendre sur le langage. Cela aurait des conséquences importantes pour la méthodologie linguistique et la viabilité des LLM en tant que base pour des capacités linguistiques robustes. Les auteurs de ce travail ont été motivés pour tester ces affirmations en développant un ensemble de langues synthétiques impossibles de complexité différente, chacune conçue en altérant systématiquement les données anglaises avec des ordres de mots et des règles grammaticales non naturels.
II- Quelles sont les langues possibles et impossibles ?
La notion de langue impossible est difficile à cerner, car il n’y a pas de consensus sur les propriétés universelles et celles qui sont « impossibles ». En d’autres termes, il n’y a pas d’accord au sein de la communauté linguistique sur les « universaux des langues », les propriétés communes à toutes les langues telles que la cohérence. Pour encadrer le domaine des langues impossibles, il est bon de commencer par révéler la définition des langues possibles telle qu’énoncée par Chomsky, 2002, 1965, 1957: « toutes les langues humaines ont des structures syntaxiques hiérarchiques générées par des règles récursives ». Pour mieux illustrer cette définition, prenons un exemple : « The student presents her awesome project ». Dans cette phrase, les mots peuvent être représentés dans un format hiérarchique en divisant ses composants en sous-arbres, comme le montre la figure 1. Ces sous-arbres, qui aident à traduire le sens complet de la phrase, représentent ce que l’on appelle des « constituants ».

Fig.1: La composition hiérarchique d’une phrase donnée dans les langues anglaises.
Si les langues possibles sont définies par des règles hiérarchiques et récursives, alors comment les langues impossibles peuvent-elles être définies ? Les premières initiatives ont été introduites par Moro et al., 2023 en utilisant le concept de langues opposées. Pour les langues naturelles, il est connu que les mots suivent un certain ordre linéaire en respectant la position des déterminants, du sujet, des verbes, etc. Ainsi, les langues opposées introduisent un déplacement des positions connues des composants pour produire une structure linguistique non naturelle. En outre, Musso et al., 2003 fournissent quelques exemples concrets qui impliquent le comptage des positions des mots pour marquer les caractéristiques grammaticales. Si nous revenons à l’exemple ci-dessus, nous introduisons une règle qui viole la structure de cohérence de la phrase où, au lieu d’avoir le marqueur de verbe « s » directement après le verbe, il sera déplacé deux mots après. Ce modèle n’est certes pas naturel, mais il diffère très peu d’une langue naturelle dans laquelle la structure restante de la phrase est la même.
L’exemple fourni montre le cas d’une règle grammaticale basée sur le comptage, mais les auteurs testent un éventail plus large de langues impossibles, dans le cadre d’un « continuum de langues impossibles », comme le montre la figure 2. Le continuum complet s’inspire à la fois de la théorie linguistique (c’est-à-dire l’adhésion à des structures grammaticales hiérarchiques) et de la théorie de l’information (c’est-à-dire le taux d’entropie). Il va des classes intrinsèquement impossibles (côté rouge) aux fonctions irréversibles jusqu’à la règle impossible en linguistique (côté violet), tout en marquant la limite entre les classes de langues perturbées et les langues attestées ou documentées (langues possibles). Cette frontière fait également l’objet d’un consensus au sein de la communauté linguistique.

Fig.2: Le continuum linguistique impossible avec différents niveaux de complexité des fonctions de perturbation introduites.
III- Les langues expérimentales impossibles
Après avoir passé en revue la définition des langues possibles telle qu’elle a été énoncée par Chomsky à différentes occasions, et les manières possibles de dériver les définitions des langues impossibles, nous passons aux définitions expérimentales de ces langues. Elles sont spécifiées en définissant des fonctions de perturbation des phrases anglaises où les phrases d’entrée sont d’abord mises en correspondance avec des séquences de jetons (par exemple, les jetons GPT-2), puis suivies par l’application de l’une des classes développées : *Shuffle, *Reverse et *Hop, en se concentrant sur différents attributs tels que l’ordre du langage naturel ou les règles basées sur le comptage.
A- Les langues *Shuffle (Mélangées)
Les langues *Shuffle impliquent différents mélanges de phrases anglaises sous forme de séquences de jetons. Ces classes permettent de tester la sensibilité du modèle à l’ordre des mots, à la réversibilité et à la localité de l’information. Prenons un exemple d’entrée : « He cleans his very messy bookshelf ».
1. La première classe est NoShuffle, qui représente le groupe de contrôle dans lequel l’entrée est simplement sous forme de jetons. ([He]-[cleans]-[his]-[very]-[messy]-[books]-[he]-[lf]-[.]).
2. La deuxième classe est NonDetermenisitcShuffle, un mélange aléatoire est appliqué aux jetons de la phrase qui renvoie un sac de mots en détruisant le signal d’entrée sous-jacent ([messy]-[books]-[his]-[he]-[very]-[.]-[lf]-[He]-[cleans]). Cette fonction est irréversible car aucun modèle ou heuristique possible ne peut guider l’entrée initiale.
3. La troisième classe est DetermenisticShuffle. Il s’agit à nouveau d’un mélange aléatoire non linguistique appliqué à la séquence d’entrée, mais cette fois-ci en fonction de la longueur de l’entrée, c’est-à-dire que deux phrases différentes ayant la même longueur et la même graine aléatoire ont la même correspondance ([cleans]-[He]-[messy]-[books]-[he]-[lf]-[very]-[.]-[his]). Bien qu’il s’agisse d’un modèle difficile et irréalisable dans la nature humaine, cette classe reste réversible par rapport à la classe précédente.
4. La quatrième classe est LocalShuffle, un mélange local aléatoire est appliqué cette fois-ci de manière à mettre en évidence l’importance de la localité de l’information ([his]-[He]-[cleans]-[books]-[very]-[messy]-[.]-[he]-[lf]).
5. La cinquième classe est EvenOddShuffle, un mélange contrôlé où les positions impaires sont placées en premier avant les positions paires ([He]-[his]-[messy]-[he]-[.]-[cleans]-[very]-[books]-[lf]). Cette classe préserve une partie de l’ordre linéaire des mots et introduit de nouvelles dépendances à longue distance.
B- Les langues *Reverse (Inversées)
Les langues *Reverse impliquent l’inversion de tout ou partie des phrases d’entrée. Ces classes testent la sensibilité du modèle à l’ordre des mots de gauche à droite.
1. La première classe est NoReverse, qui représente également le groupe de contrôle ([He]-[cleans]-[his]-[very]-[messy]-[books]-[R]-[he]-[lf]-[.]). Nous constatons cette fois qu’un jeton d’inversion spécial « R » est placé au hasard dans la phrase.
2. La deuxième classe est PartialReverse, une inversion partielle de la phrase comprenant tous les jetons après le jeton d’inversion spécial « R » ([He]-[cleans]-[his]-[very]-[messy]-[books]-[R]-[.]-[lf]-[he]). Elle présente des dépendances à longue distance.
3. La troisième classe est FullReverse, une inversion complète de la séquence d’entrée, y compris le jeton d’inversion « R » ([.]-[lf]-[he]-[R]-[books]-[messy]-[very]-[his]-[cleans]-[He]). Dans cette catégorie, des concepts linguistiques de plus haut niveau, tels que l’anaphore, seraient fortement perturbés lorsqu’un pronom fait référence à un nom ou à une entité déjà mentionnés, par exemple. Nous devons mentionner que le jeton « R » contrôle l’entropie introduite par son placement aléatoire dans la séquence d’entrée.
C- Les langues *Hop (Avec un comptage)
Les langues *Hop perturbent l’inflexion des verbes en utilisant des règles de comptage. Ces classes testent la capacité du modèle à apprendre des règles de grammaire qui impliquent le comptage de la position des mots ou des jetons (unités atomiques pour le comptage dans les LLM).
1. La première classe est NoHop, qui représente le groupe de contrôle, mais avec un prétraitement supplémentaire. Une lemmatisation de tous les verbes à la 3e personne du présent est effectuée pour dériver la racine du verbe et le marqueur de verbe comme « s » est remplacé par un jeton spécial « S » ([He]-[clean]-[S]-[his]-[very]-[messy]-[books]-[he]-[lf]-[.]). Le pluriel est défini de manière analogue lorsque le jeton marqueur de verbe est désigné par « P ».
2. La deuxième classe est TokenHop, un placement spécial du jeton marqueur de verbe est effectué 4 jetons après le verbe correspondant ([He]-[clean]-[his]-[very]-[messy]-[books]-[S]-[he]-[lf]-[.]).
3. La troisième classe est WordHop, un placement spécial du marqueur de verbe est réalisé 4 mots après le verbe correspondant ([He]-[clean]-[his]-[very]-[messy]-[books]-[he]-[lf]-[S]-[.]).
IV- Les expériences
Pour construire l’ensemble de données synthétiques de langues impossibles, chaque fonction de perturbation d’une langue impossible donnée est appliquée à chaque phrase du 100M BabyLM (Warstadt et al., 2023), qui se rapproche de la quantité de données linguistiques disponibles pour un enfant anglophone. Dans les expériences suivantes, ils entraînent un petit modèle GPT-2 (Radford et al., 2019, 2018) à partir de zéro – pour empêcher toute compréhension de la langue anglaise obtenue précédemment grâce à l’ingestion du contenu public – pour chaque ensemble de données synthétiques tout en répétant 5 fois pour les intervalles de confiance en utilisant différentes graines aléatoires.
A- Expérience 1 : Les modèles linguistiques reflètent le continuum d’impossibilité
L’objectif de cette expérience est de vérifier si le processus de formation du modèle déployé peut refléter le niveau de difficulté tel que mentionné ci-dessus dans le continuum. Elle utilise les perplexités de l’ensemble de test (c’est-à-dire l’inverse de la probabilité de l’ensemble de test, normalisé par le nombre de mots) comme mesure d’évaluation générale pour comparer la manière dont chaque modèle de langue impossible a appris sa propre langue perturbée. Les perplexités sont mesurées au cours des étapes d’apprentissage du modèle, créant ainsi des trajectoires de l’efficacité du modèle dans l’apprentissage de la langue. L’hypothèse de cette expérience est que les modèles formés sur des langues possibles atteindront plus rapidement des perplexités moyennes plus basses que ceux formés sur des langues impossibles.
1. Pour la langue *Shuffle, la classe NonDetermenisticShuffle obtient les perplexités moyennes les plus élevées car l’information dans le signal d’entrée est détruite par le mélange totalement aléatoire. La classe DeterministicShuffle obtient des perplexités plus faibles, car il est suggéré que le modèle crée une sorte d’heuristique à partir du corpus où la même longueur des séquences d’entrée peut être trouvée dans plusieurs exemples. La classe LocalShuffle permet également d’obtenir des perplexités plus faibles, en particulier avec des fenêtres de petite taille, car le fait de conserver les mots proches les uns des autres favorise l’apprentissage. Enfin, la classe EvenOddShuffle montre que la préservation d’une partie de l’ordre linéaire favorise également l’apprentissage.
2. Pour la langue *Reverse, la classe FullReverse présente les perplexités les plus élevées en raison des principes linguistiques supérieurs qui sont perturbés.
3. Pour la langue *Hop, des différences minimes sont présentées entre les modèles de contrôle et les modèles perturbés. Cependant, les résultats mettent également en évidence des perplexités plus élevées dans les premières étapes de la formation.
B- Expérience 2 : les modèles de langage désapprouvent les règles de comptage
Cette expérience vise à répondre à la question suivante : [Les modèles de langage apprennent-ils mieux les structures grammaticales naturelles que les grammaires impossibles ?]. Elle utilise des surprises (surprisals) pour mesurer la capacité des modèles *Hop à prédire l’emplacement de leurs marqueurs verbaux, c’est-à-dire à quel point le modèle est surpris par le fait de prédire le prochain marqueur compte tenu du contexte précédent. La surprise (surprisal) est définie comme le log négatif de la probabilité d’un mot compte tenu des mots précédents. Nous commençons par mesurer la surprise moyenne des jetons marqueurs (c’est-à-dire -log2 p([S] | [He][clean]) dans l’exemple précédent) dans les exemples de test, qui devrait être plus faible pour la langue de contrôle que pour les langues impossibles. Ce résultat est mis en évidence dès les premières étapes de l’apprentissage, où la surprise du marqueur de verbe atteint son score le plus élevé avec le modèle de contrôle.
Ensuite, il mesure la différence de surprise moyenne entre toutes les paires de tests (c’est-à-dire la surprise du jeton marqueur verbal – la surprise du jeton suivant si le jeton marqueur verbal est supprimé) qui devrait être plus importante pour les langues possibles que pour les langues impossibles. Les résultats montrent que les langues expérimentales impossibles n’ont pas rattrapé l’apprentissage des langues possibles où la règle dans la langue de contrôle est plus facile à apprendre pour les LLM. Cependant, nous devons mentionner qu’il y a une distinction entre TokenHop et WordHop où le modèle a obtenu un score de différence plus élevé avec les unités de comptage de jetons.
C- Expérience 3 : les modèles de langage élaborent des solutions naturelles à des modèles non naturels
Bien que GPT-2 favorise les règles de grammaire naturelle (comme le montre l’expérience 2), il est également capable d’acquérir des règles de grammaire basées sur le nombre, comme celles observées dans les modèles de marquage des verbes des langues *Hop. Pour approfondir les mécanismes internes du processus de formation du modèle, cette expérience met en œuvre l’analyse d’abstraction causale qui offre un cadre d’interprétabilité pour l’identification et l’examen des mécanismes causaux dans les modèles neuronaux (Geiger et al., 2021, 2020). Ainsi, une invention d’échange est réalisée pour identifier les mécanismes causaux dans les modèles *Hop en utilisant une tâche d’accord sujet-verbe comme illustré dans la Fig.3.

Fig.3: La technique d’intervention de l’échange qui met l’accent sur l’exploration du mécanisme interne du modèle.
Dans cette technique, nous avons deux instances du modèle GPT-2 avec deux types d’entrée : l’entrée de base fournissant un sujet singulier et l’entrée source fournissant un sujet pluriel qui implique tous les jetons avant le jeton marqueur du verbe et qui devrait avoir les jetons marqueurs du singulier et du pluriel comme prédictions respectivement. Une fois intégrés dans les modèles, ils échangent les représentations cachées et observent l’effet sur la sortie pour chaque couche et chaque position de jeton. D’après la figure 3, la représentation de la deuxième couche et de la deuxième position du jeton a un effet causal sur le comportement du modèle. Pour les résultats, ils utilisent l’Interchange Intervention Accuracy (IIA) où ils mesurent la capacité du modèle à prédire correctement le marqueur de pluriel, à la suite de l’application de l’intervention d’interchange.
Pour le groupe de contrôle, ils ont constaté que les premières couches se concentrent sur le jeton sujet tandis que les dernières couches se concentrent sur le jeton verbe tout en obtenant un score complet pour la prédiction de la tâche d’accord sujet-verbe. Pour les langues impossibles, le modèle développe une solution modulaire dans laquelle les couches ultérieures dépendent du jeton situé juste avant le jeton marqueur du verbe. Cependant, l’IIA est globalement plus faible que dans le groupe de contrôle, mais il atteint tout de même un score de l’ordre de 70 à 80 %.
V- Conclusion
En conséquence de ces expériences allant d’une méta-perspective du niveau de difficulté du continuum de la langue impossible, plongeant dans la préférence des structures grammaticales par rapport aux structures non grammaticales et explorant finalement les mécanismes internes du modèle déployé avec l’analyse de l’abstraction causale, GPT-2 peut faire la distinction entre les langues possibles et impossibles, les langues possibles étant plus faciles à apprendre. Même si les LLM n’ont pas d’a priori linguistiques forts intégrés, ils peuvent apprendre des structures syntaxiques complexes basées sur l’architecture et les encodages. En outre, ils soutiennent dans ce travail qu’il est utile de comprendre ce que les systèmes tels que les LLM peuvent et ne peuvent pas apprendre, remettant en question les affirmations antérieures non fondées. Cependant, nous devons souligner le fait que les conclusions sur les compétences linguistiques des LLM et leur préférence pour les langues naturelles doivent être éclairées par une compréhension des façons dont les modèles diffèrent fondamentalement des humains : le GPT-2 peut effectuer des opérations qui impliquent le comptage de jetons alors qu’il est peu probable que les humains s’appuient sur des mots atomiques ou des morphèmes de la même manière.
Enfin, étant donné que les langues possibles étaient plus faciles à apprendre par GPT-2, il est important de comprendre le biais inductif de GPT-2 qui correspond au langage naturel. Une suggestion naturelle est la localité de l’information, c’est-à-dire la propriété selon laquelle lorsque des parties de texte se prédisent mutuellement, elles sont souvent proches les unes des autres (Futrell, 2019; Mansfield and Kemp, 2023). La préférence pour la localité est induite par l’objectif de formation à la modélisation causale du langage de GPT-2, qui construit de manière incrémentale des représentations de phrases. Les LLM peuvent donc aider à identifier la limite entre les langues possibles et les langues impossibles, comme illustré précédemment dans le continuum.
Références
Alleman, M., Mamou, J., A Del Rio, M., Tang, H., Kim, Y., Chung, S., 2021. Syntactic Perturbations Reveal Representational Correlates of Hierarchical Phrase Structure in Pretrained Language Models, in: Proceedings of the 6th Workshop on Representation Learning for NLP (RepL4NLP-2021). https://doi.org/10.18653/v1/2021.repl4nlp-1.27
Bolhuis, J.J., Crain, S., Fong, S., Moro, A., 2024. Three reasons why AI doesn’t model human language. Nature 627, 489. https://doi.org/10.1038/d41586-024-00824-z
Chomsky, N., 2002. On Nature and Language. Cambridge University Press, Cambridge. https://doi.org/10.1017/CBO9780511613876
Chomsky, N., 1965. Aspects of the Theory of Syntax. The MIT Press.
Chomsky, N., 1957. Syntactic Structures. De Gruyter Mouton.
Chomsky, N., Roberts, I., Watumull, J., 2023. Opinion | Noam Chomsky: The False Promise of ChatGPT. The New York Times.
Devlin, J., Chang, M.-W., Lee, K., Toutanova, K., 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, in: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Presented at the NAACL-HLT 2019. https://doi.org/10.18653/v1/N19-1423
Futrell, R., 2019. Information-theoretic locality properties of natural language, in: Proceedings of the First Workshop on Quantitative Syntax (Quasy, SyntaxFest 2019). https://doi.org/10.18653/v1/W19-7902
Galke, L., Ram, Y., Raviv, L., 2024. What makes a language easy to deep-learn? Deep neural networks and humans similarly benefit from compositional structure. https://doi.org/10.48550/arXiv.2302.12239
Geiger, A., Lu, H., Icard, T., Potts, C., 2021. Causal Abstractions of Neural Networks, in: Advances in Neural Information Processing Systems. Curran Associates, Inc., pp. 9574–9586.
Geiger, A., Richardson, K., Potts, C., 2020. Neural Natural Language Inference Models Partially Embed Theories of Lexical Entailment and Negation, in: Proceedings of the Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP. https://doi.org/10.18653/v1/2020.blackboxnlp-1.16
Huang, Q., Zelikman, E., Chen, S.L., Wu, Y., Valiant, G., Liang, P., 2023. Lexinvariant Language Models. https://doi.org/10.48550/arXiv.2305.16349
Kallini, J., Papadimitriou, I., Futrell, R., Mahowald, K., Potts, C., 2024. Mission: Impossible Language Models. https://doi.org/10.48550/arXiv.2401.06416
Mansfield, J., Kemp, C., 2023. The emergence of grammatical structure from inter-predictability. https://doi.org/10.31234/osf.io/cjbzu
Mitchell, J., Bowers, J., 2020. Priorless Recurrent Networks Learn Curiously, in: Proceedings of the 28th International Conference on Computational Linguistics. Presented at the COLING 2020, International Committee on Computational Linguistics. https://doi.org/10.18653/v1/2020.coling-main.451
Moro, A., Greco, M., Cappa, S.F., 2023. Large languages, impossible languages and human brains. Cortex 167, 82–85. https://doi.org/10.1016/j.cortex.2023.07.003
Musso, M., Moro, A., Glauche, V., Rijntjes, M., Reichenbach, J., Büchel, C., Weiller, C., 2003. Broca’s area and the language instinct. Nat Neurosci 6, 774–781. https://doi.org/10.1038/nn1077
Noam Chomsky, 2023. , Conversations with Tyler Podcast.
Radford, A., Narasimhan, K., Salimans, T., Sutskever, I., 2018. Improving Language Understanding by Generative Pre-Training.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I., 2019. Language Models are Unsupervised Multitask Learners.
Sinha, K., Jia, R., Hupkes, D., Pineau, J., Williams, A., Kiela, D., 2021. Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little, in: Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. https://doi.org/10.18653/v1/2021.emnlp-main.230
Warstadt, A., Mueller, A., Choshen, L., Wilcox, E., Zhuang, C., Ciro, J., Mosquera, R., Paranjabe, B., Williams, A., Linzen, T., Cotterell, R., 2023. Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora, in: Proceedings of the BabyLM Challenge at the 27th Conference on Computational Natural Language Learning. Presented at the CoNLL 2023. https://doi.org/10.18653/v1/2023.conll-babylm.1