Les significations “d’open source” dans le contexte de l’intelligence artificielle

Dr. Steve Bellart et Dr. Arnaud Deleruyelle

L’open source est souvent présenté comme une révolution informatique, offrant liberté, transparence et collaboration. Grâce à son modèle basé sur le partage du code, il permet des innovations rapides et une indépendance vis-à-vis des éditeurs propriétaires. De nombreux logiciels et infrastructures majeurs reposent aujourd’hui sur l’open source, illustrant son succès et son impact global [Weber, 2005].

Cependant, cette vision optimiste masque des ambiguïtés et des limites souvent méconnues. Derrière la gratuité apparente, des coûts cachés existent, tandis que certaines entreprises exploitent l’open source à leur avantage sans réellement jouer le jeu du partage. Loin d’être un modèle parfait, il soulève des questions éthiques, économiques et sécuritaires [Moody, 2001; Shaikh & Henfridsson, 2017].

L’objectif de cet article est donc d’apporter un éclairage global sur l’open source, en explorant ses différentes facettes, avant de nous concentrer sur un domaine où l’open source joue un rôle grandissant : l’intelligence artificielle.

1. L’OpenSource

1.1. Open Source et gratuité

L’un des arguments les plus séduisants de l’open source est sa gratuité. Contrairement aux logiciels propriétaires, il est possible de télécharger, utiliser et modifier de nombreux outils open source sans frais [Open Source Initiative, 2021]. Cela permet aux entreprises et aux particuliers de réduire leurs coûts et de bénéficier de solutions performantes.

Cependant, cette gratuité est parfois trompeuse. Beaucoup de logiciels open source nécessitent des services payants pour le support technique, la maintenance ou l’hébergement. Par exemple, Red Hat Enterprise Linux est open source, mais son support professionnel est facturé. De même, MySQL, bien que gratuit dans sa version communautaire, propose une version payante avec des fonctionnalités avancées. Par ailleurs, certaines entreprises adoptent une stratégie « open core » : elles publient un logiciel de base en open source, mais réservent les fonctionnalités essentielles aux versions commerciales, comme c’est le cas avec ElasticSearch ou Redis.

L’open source ne signifie pas forcément « zéro coût », mais plutôt une approche différente des modèles économiques traditionnels, où les dépenses peuvent se situer ailleurs, comme dans le support, la maintenance ou l’intégration. Pour bien évaluer ces coûts cachés, il est essentiel d’analyser les besoins réels, de comparer les offres existantes (open source et propriétaires), d’anticiper les frais éventuels (formation, compatibilité) et de s’assurer qu’une communauté active ou un support fiable est disponible pour garantir la pérennité du logiciel.

1.2. Open Source et Logiciel Libre

L’’open source et le logiciel libre sont souvent perçus comme synonymes, mais ils reposent sur des philosophies légèrement différentes. Le logiciel libre, défini par la Free Software Foundation (FSF), garantit aux utilisateurs quatre libertés fondamentales : utiliser, étudier, modifier et redistribuer un programme sans restriction [Stallman, 2010]. L’open source, selon sa définition de 1990 par l’OSI, met principalement l’accent sur l’accès au code source et la collaboration, sans forcément exiger que toutes les modifications restent ouvertes [Open Source Initiative, 2021].

Cette distinction peut sembler technique, mais elle a un impact majeur sur la façon dont les logiciels sont développés et adoptés [Weber, 2005]. L’approche open source a favorisé une adoption massive par les entreprises, qui peuvent ainsi collaborer sur des projets communs sans obligation de publier l’ensemble de leurs modifications. Cela a permis l’émergence d’outils majeurs tels que Linux, Kubernetes, Apache et Python, qui bénéficient d’améliorations continues grâce à des contributions du monde entier. L’open source facilite également l’innovation rapide, réduit la dépendance aux éditeurs propriétaires et garantit une plus grande transparence en matière de sécurité et de confidentialité.

Cependant, cette ouverture apparente peut être nuancée par plusieurs réalités. Certains logiciels sont publiés sous licence open source, mais leur développement reste fortement contrôlé par une entreprise ou un groupe restreint. Par exemple, Android est techniquement open source, mais Google prend toutes les décisions majeures, imposant ainsi ses services aux fabricants de smartphones. De même, certaines entreprises choisissent des licences spécifiques pour limiter la réutilisation de leur code par des concurrents. MongoDB, ElasticSearch et Redis ont ainsi modifié leurs licences pour empêcher les fournisseurs de cloud comme AWS d’exploiter leur technologie sans contrepartie.

Ces licences ont impulsé un vaste écosystème de projets collaboratifs (p. ex. Linux, Mozilla Firefox) et une nouvelle culture du développement [Weber, 2005]. La mise en place d’un écosystème ouvert pour le développement d’un outil permet de profiter de plusieurs avantages comme :

Une innovation accélérée : la mise en commun des contributions est un gain de temps considérable.

La transparence : le code peut être audité, favorisant la sécurité et la confiance.

La souveraineté numérique : les États ou organisations peuvent adapter les logiciels à leurs besoins spécifiques [Shaikh & Henfridsson, 2017].

2. Open Source et IA

2.1 Pourquoi faire de l’Open source en IA ?

L’open source a toujours été un moteur d’innovation dans l’informatique, et son rôle devient encore plus stratégique avec l’essor de l’intelligence artificielle générative [Metzinger, 2021]. Ce qui était autrefois un terrain d’expérimentation pour des chercheurs indépendants est désormais un enjeu majeur pour les grandes entreprises technologiques. Aujourd’hui, même des géants comme Meta, Google et Microsoft investissent massivement dans des projets open source liés à l’IA [Microsoft, 2023].

Pourquoi cet intérêt ? Parce que l’open source permet une accélération sans précédent du développement de l’IA. En ouvrant leurs modèles et en encourageant la collaboration, ces entreprises profitent de l’intelligence collective pour améliorer leurs technologies à une vitesse inégalée. Prenons l’exemple de Meta, qui a publié LLaMA 3, un modèle de langage avancé destiné à rivaliser avec GPT-4, sous une licence permissive [Meta, 2024]. Hugging Face, de son côté, est devenu une plateforme centrale où chercheurs et entreprises partagent librement leurs modèles et innovations en IA [ServiceNow & Hugging Face, 2023].

L’open source en IA favorise également une démocratisation de la technologie. Des modèles comme Stable Diffusion ont permis à des milliers de créateurs d’accéder à la génération d’images, une technologie auparavant réservée aux laboratoires spécialisés [Rombach et al., 2022]. De plus, la transparence du code et des modèles permet une meilleure compréhension des algorithmes, réduisant ainsi le risque de décisions opaques et biaisées dans les systèmes d’IA.

2.2 Le problème de la puissance de calcul

Si les modèles d’intelligence artificielle open source sont de plus en plus nombreux, leur exploitation reste limitée par la puissance de calcul nécessaire. Entraîner une IA générative comme GPT-4 ou LLaMA 3 nécessite des milliers de GPU spécialisés, coûtant plusieurs millions d’euros [OpenAI, 2023; Touvron et al., 2023]. Même pour des usages plus modestes, exécuter un modèle avancé sur un ordinateur standard est souvent impossible, forçant les utilisateurs à dépendre d’infrastructures coûteuses.

Pour remédier à cette barrière, plusieurs solutions émergent. Les modèles allégés, comme LLaMA 3-8B, nécessitent moins de ressources et sont plus accessibles aux développeurs [Meta, 2024]. L’utilisation du cloud computing (Hugging Face, Google Colab) permet d’exécuter ces modèles sans posséder de matériel dédié. Enfin, des avancées en optimisation logicielle réduisent la consommation en mémoire et en énergie, rendant ces technologies plus exploitables sur du matériel standard.

L’open source en IA apporte une transparence et une liberté inédites, mais sans solutions adaptées à la puissance de calcul, il risque de rester entre les mains de ceux qui en ont les moyens.

3. Les différents modèles open sources en IA

L’open source en IA ne signifie pas toujours un contrôle total sur les modèles. Si certaines IA génératives sont mises à disposition en open source, le niveau d’ouverture varie considérablement. En théorie, un véritable modèle open source devrait permettre trois niveaux d’accès : le code source, les poids du modèle (c’est-à-dire les paramètres appris lors de l’entraînement) et les données d’entraînement. Or, dans la pratique, cet accès est souvent partiel.

Avec l’avènement des grands modèles de langage (LLMs), différents projets adoptent des stratégies variées : certains misent sur la transparence absolue, tandis que d’autres préfèrent un contrôle partiel ou total. Par ailleurs, au-delà du choix de la licence, nous verrons que la dimension éthique prend une importance grandissante : comment encadrer les usages malveillants ? Peut-on imposer des restrictions pour éviter la désinformation ou la discrimination ?

3.1. Falcon : l’adoption de la licence Apache 2.0

Développé par l’Institut d’Innovation Technologique d’Abu Dhabi (TII) et popularisé via Hugging Face, Falcon est un grand modèle de langage open source et hautement performant. Plusieurs déclinaisons existent (Falcon-7B, Falcon-40B, etc.) [TII, 2023].

Licence, droits et éthique

Licence Apache 2.0 :
Usage commercial autorisé : intégration dans des produits marchands.
Redistribution : possible, en conservant la mention de la licence et du copyright.
Clause de non-responsabilité : vous devez inclure l’avis de non-garantie.
Poids du modèle : Diffusés sous la licence Apache 2.0
Données d’entraînement : Pas totalement publiées ; l’équipe mentionne des corpus généraux (Internet, Wikipedia, etc.) qui sont dans disponible publiquement sur internet. Nous n’avons aucune information sur de potentiels données utilisées en interne en plus de ces données publiques.

Implications éthiques :

Apache 2.0 ne prévoit pas de restrictions explicites contre les usages malveillants.
TII fournit néanmoins un code de conduite et des recommandations visant à encourager un usage responsable.

3.2. Mistral : une variante Apache 2.0 adaptée

Mistral est développé par une startup française (Mistral AI), fondée par d’anciens ingénieurs et chercheurs d’instituts réputés. Elle vise la performance et l’efficacité (taille réduite, rapidité d’inférence) [Mistral AI, 2023].

Licence, droits et éthique

Base : Apache 2.0
Clauses additionnelles : incluent parfois des dispositions liées à l’usage (p. ex. interdire explicitement des utilisations illicites ou des contenus haineux).
Poids du modèle : Diffusés, sous réserve du respect de ces amendements.
Données d’entraînement : Non intégralement dévoilées (surtout des corpus open source comme The Pile, Wikipedia, etc.).

Implications éthiques :

La startup insère souvent quelques lignes directrices pour éviter les usages non éthiques (désinformation, harcèlement, etc.).
Ces restrictions peuvent cependant être limitées (et difficiles à faire respecter).

3.3. Bloom : le modèle BigScience et les licences RAIL

Bloom est le fruit du projet collaboratif BigScience, lancé en 2021. Des milliers de chercheurs et bénévoles ont uni leurs forces pour créer un grand modèle de langage multilingue (plus de 40 langues), entièrement ouvert et axé sur la recherche [BigScience, 2022].

Les licences RAIL

Bloom est distribué sous la licence RAIL (Responsible AI License), spécialement conçue pour intégrer des considérations éthiques [Licenses.ai, 2022]. Les objectifs de RAIL sont :

Permettre une large utilisation du modèle et de ses poids.
Interdire ou restreindre certains usages contraires à l’éthique ou à la loi (ex. discrimination, harcèlement, utilisation militaire offensante, etc.).

Les différentes déclinaisons (par ex. “BigScience RAIL-M License”) peuvent spécifier :

L’obligation de respecter les valeurs éthiques mentionnées.
La révocation du droit d’utilisation en cas d’usage malveillant.
Des lignes directrices sur la publication de dérivés (audits, signalement de biais, etc.).

Données d’entraînement

BigScience a cherché à être transparent :

Publication d’une grande partie du corpus (sources diverses multilingues), tout en excluant des contenus protégés ou sensibles.
Documentation poussée sur la provenance et la nature des données (fichiers d’opt-out, etc.).

3.4. LLaMA 3 : l’ouverture sous licence propriétaire communautaire

Meta (ex-Facebook) a lancé la première version de LLaMA (Large Language Model Meta AI) début 2023, puis a évolué vers LLaMA 2, et plus récemment LLaMA 3. Cette dernière vient avec un cadre de licence particulier : META LLAMA 3 COMMUNITY LICENSE AGREEMENT [Meta, 2024].

Licence, droits et éthique

Poids du modèle : Téléchargeables, mais soumis à une acceptation de la licence.
Usage commercial : Parfois restreint ou conditionné (la licence peut interdire la vente directe ou exiger l’approbation de Meta).
Code : Une partie seulement est publiée (notamment pour l’inférence), tandis que d’autres parties restent propriétaires.
Données d’entraînement : Meta ne divulgue pas toute la base, en se contentant de redonner les sites internet publiques

Implications éthiques :

La licence communautaire inclut des directives et restrictions d’usage (similaires à RAIL sur la non-discrimination, par exemple), bien que moins détaillées que chez BigScience.
Meta se réserve le droit d’examiner et, éventuellement, de révoquer l’accès en cas de non-respect des conditions.

3.5. OpenAI (GPT-4, GPT-3.5, etc.) : un accès via API seulement

OpenAI, à travers GPT-3, GPT-4 et consorts, représente l’approche inverse à celle de l’ouverture totale. Les modèles ne sont pas distribués publiquement [OpenAI, 2023] :

Un modèle fermé

Code : Fermé. Seules bibliothèques clientes sont open source.
Poids du modèle : Inaccessibles. Aucun téléchargement ni modification.
Données d’entraînement : Non divulguées dans leur ensemble (quelques généralités seulement).

Accès par l’API

On ne peut interagir qu’au moyen d’une API payante, qui permet d’appeler GPT-4 ou GPT-3.5. OpenAI garde un contrôle intégral :

Monétisation : facturation à l’appel.
Maintenance : mises à jour centralisées.
Politique d’usage : OpenAI fait signer un accord (TOS – Terms of Service) interdisant certains usages (ex. incitation à la haine, désinformation, etc.).

Implications éthiques :

Le contrôle par l’API permet à OpenAI de bloquer ou limiter les demandes non conformes via des filtres (modération de contenu).
Toutefois, la communauté ne peut pas auditer ou adapter elle-même le modèle, ce qui soulève d’autres interrogations sur la transparence.

L’argumentation d’OpenAI sur la non-divulgation des données, code et poids et de leurs modèles et que d’après eux cela permet plus facilement d’en contrôler les usages, alors que l’ouverture d’un écosystème d’IA permet irrémédiablement son détournement à des usages non éthiques et cela sans vrai contôle. En effet, bien que la pluspart des modèles open source intégre des éléments légaux sur l’usage de leurs IA pour prévenir de tels comportement, il est en pratique impossible de garder le contrôle sur ces modèles. En contre-partie, l’ouverture des modèles permets de mieux les comprendre et donc peut faciliter la détection de production issu de ces modèles.

3.6. Tableau récapitulatif

Le tableau ci-dessous synthétise les principales licences et la manière dont elles affectent le code, les poids, les données d’entraînement, ainsi que la présence de dispositions éthiques explicites (et contraignantes).

4. Conclusion

Le paysage des licences pour les grands modèles de langage (LLMs) est désormais marqué non seulement par des différences d’ouverture (code, poids, données) mais aussi par le niveau de prise en compte des enjeux éthiques. On observe :

Des licences open source classiques (Apache 2.0) : grande liberté d’usage, mais peu de garde-fous éthiques.

Des adaptations plus récentes (Mistral, LLaMA 3) : tentatives d’ajouter des restrictions / obligations.

Licences RAIL (Bloom) : volonté explicite de responsabiliser les utilisateurs et de restreindre légalement les usages malveillants.

Modèles fermés (OpenAI) : contrôle total via une API, mais très peu de transparence. L’éthique est gérée par la modération interne et les conditions d’utilisation.

D’un point de vue recherche et innovation, les modèles ouverts (code, poids, données) favorisent la reproductibilité et la collaboration. Mais ils posent la question de la maîtrise des risques (biais, désinformation, etc.) lorsque aucune clause éthique n’est véritablement contraignante. Les licences RAIL, quant à elles, sont une tentative pour concilier ouverture et responsabilité. Elles ne sont toutefois pas la norme, et leur applicabilité à large échelle reste à prouver.

De plus, outre le traitement ou non des usages commerciaux/éthiques dans les licences, il est important de noter que l’on vulgarise souvent l’accès à un modèle comme “ouvert” alors que nous n’avons que la plupart du temps que les poids (et éventuellement le code) de ce dernier, permettant en effet de contrôler un comportement du modèle en l’état par la communauté mais sans pouvoir faire de lien avec les données ou son processus d’entraînement bloquant des analyses trop profondes. En conséquence, ces solutions IA exigent d’avoir une bonne puissance de calcul à disposition pour toute analyse ou modification sur ces dernières mettant un coût à l’entrée.

En fin de compte, chaque acteur (chercheur, développeur, entreprise) doit examiner avec soin la licence choisie par le modèle d’IA pour s’assurer qu’elle est compatible avec ses besoins (techniques, commerciaux, éthiques) – et, surtout, être conscient des répercussions potentielles sur la société et l’écosystème IA.

References

Black, S., Gao, L., Wang, P., Leahy, C., & Biderman, S. (2022). GPT-NeoX-20B: An Open-Source Autoregressive Language Model. arXiv preprint arXiv:2204.06745.

Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877–1901.

Licenses.ai. (2022). Responsible AI License (RAIL). https://www.licenses.ai

Meta. (2024). LLaMA 3: Advancing Large Language Models for Research and Innovation. Meta AI Blog.

Microsoft. (2023). Azure OpenAI Service. https://azure.microsoft.com/en-us/products/cognitive-services/openai-service/

Mistral AI. (2023). Mistral 7B: Open & Efficient LLM. https://github.com/mistralai/

Metzinger, T. (2021). The Ethics of Artificial Intelligence: On the Future of AI and the Self-Image of Humanity. Frontiers in Artificial Intelligence, 4, Article 730767.

Moody, G. (2001). Rebel Code: Inside Linux and the Open Source Revolution. Basic Books.

Open Source Initiative. (2021). The Open Source Definition. https://opensource.org/osd

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. arXiv preprint arXiv:2112.10752.

ServiceNow & Hugging Face. (2023). StarCoder: Open-Source Code Model. https://huggingface.co/bigcode

Shaikh, M., & Henfridsson, O. (2017). Governing Open Source Software Through Coordination Processes. Information and Organization, 27(2), 116–135.

Stallman, R. (2010). Free Software, Free Society: Selected Essays of Richard M. Stallman. Free Software Foundation.

Technology Innovation Institute (TII). (2023). Falcon-40B Model Release. https://huggingface.co/tiiuae/falcon-40b

Touvron, H., Lavril, T., Izacard, G., et al. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv preprint arXiv:2302.13971.

Weber, S. (2005). The Success of Open Source. Harvard University Press.

Apache Software Foundation. (2004). Apache License, Version 2.0. https://www.apache.org/licenses/LICENSE-2.0

BigScience. (2022). BigScience RAIL Licenses. https://github.com/bigscience-workshop/rail-license

BigScience. (2022). BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. https://bigscience.huggingface.co/blog/bloom

Mistral AI. (2023). Mistral Models on Hugging Face. https://huggingface.co/mistralai

Meta AI. (2023). LLaMA: Open and Efficient Foundation Language Models. https://ai.facebook.com/blog/large-language-model-llama-meta-ai/

OpenAI. (2023). GPT-4 Technical Report. https://openai.com/research/gpt-4

OpenGPT-X. (2023). OpenGPT-X: HPC Europe’s Large-Scale Open Source Language Model. https://opengpt-x.de

TII. (2023). Falcon LLM on GitHub. https://github.com/tiiuae/falcon

Les significations “d’open source” dans le contexte de l’intelligence artificielle

Articles similaires