Aller au contenu

La révolution de l’IA générative dans les milieux artistiques 

Dr. Anis Trabelsi

L’émergence de l’intelligence artificielle générative (IAG) ces dernières années a impacté de nombreux secteurs, y compris le milieu artistique. Une impression sur toile intitulée Portrait d’Edmond de Belamy a été adjugée pour la somme de 432 500 dollars, soit plus de 40 fois son estimation initiale. Le tableau représente le portrait d’un homme en costume dont les traits sont abstraits (cf. Figure 1). Cette œuvre n’a pas été réalisée par un artiste humain mais par un algorithme. Le collectif français Obvious a utilisé plus de 15 000 peintures pour entraîner cet algorithme à générer ce portrait. 

Quelques années plus tard, en 2022, une autre œuvre générée par IAG, le Théâtre d’Opéra Spatial (cf. Figure 1), a remporté le premier prix de la compétition d’art numérique de la foire de l’État du Colorado. L’œuvre a été jugée aux côtés de créations humaines par des experts en art qui n’étaient pas au courant du caractère artificielle de celle-ci. Désormais, l’intelligence artificielle ne se contente plus de reproduire les créations humaines, elle est capable de produire des œuvres que certains experts considèrent comme surpassant celles de l’homme. 

L’IA générative ne transforme pas seulement le monde de l’illustration. Tous les arts visuels (comme la photographie, le cinéma ou les jeux vidéo), les arts littéraires (comme la poésie et les scénarios) et même les arts appliqués (comme l’architecture, le design d’intérieur, et la mode) sont touchés par cette technologie. 

Son adoption parmi les artistes divise. L’IAG représente-t-elle un outil permettant aux créateurs d’élargir les horizons de leur expression artistique, ou bien une menace qui risque de les remplacer ?  
 
Dans cet article, nous présentons l’évolution de l’IAG dans le milieu artistique, ses enjeux, ses opportunités, ainsi que les perspectives d’une adoption éthique et durable. 

Figure 1 – À gauche l’impression sur toile « Portrait d’Edmond de Belamy » ; à droite l’œuvre numérique « Théâtre d’Opéra Spatial » 

  1. Des débuts plutôt mitigés 

Au départ, les créations générées par l’IAG étaient très limitées. Les premiers algorithmes n’étaient capables que de produire des œuvres aux motifs simples ou d’imiter des styles artistiques existants. Ils avaient du mal à complexifier leur réalisation et créer des images détaillées (cf. Figure 2) ou composer des musiques cohérentes. Les artistes n’avaient pas d’intérêt à utiliser ce type de technologie et il était difficile d’imaginer créer de l’art qui rivalise avec la créativité humaine. 

Figure 2 – L’une des toutes premières images générées par un GAN 

Cependant, c’était sans compter sur l’évolution fulgurante des algorithmes d’IAG. En l’espace de cinq ans seulement, la technologie s’est améliorée et est devenue capable de produire des créations pratiquement indiscernables d’œuvres originales. L’un des algorithmes qui illustre cette avancée est StyleGAN [2]. Il s’agit d’une architecture particulière de réseau de neurones capable de concevoir des images artificielles. StyleGAN peut générer des visages très réalistes, qui sont pourtant entièrement artificiels. De plus, il ne se limite pas aux illustrations réalistes, il peut aussi être utilisé pour appliquer le style d’une œuvre dans une image (cf. Figure 3). 

Figure 3 – Un exemple de portrait photoréaliste [3] et de portrait abstrait [4]  

Dès lors, on a vu apparaître de plus en plus de créations générées par IAG sur Internet. D’abord réalisées par des amateurs de nouvelles technologies, puis peu à peu par des artistes désireux de s’y essayer. Par exemple, Mario Klingemann, considéré comme l’un des pionniers de l’usage de l’IAG dans l’art, a été l’un des premiers à réaliser des expositions d’œuvres entièrement réalisées par intelligence artificielle. 

  1. Comment l’IAG crée-t-elle de l’art ? 

La technologie qui a véritablement apporté un bond en avant dans l’IAG repose sur les réseaux de neurones. Les réseaux de neurones sont des algorithmes inspirés du cerveau humain qui représentent les fondements de l’apprentissage profond, une branche de l’intelligence artificielle. Pour que les réseaux de neurones soient capables de réaliser des tâches complexes, comme générer une image, il est nécessaire de les entraîner sur des vastes bases de données. Cet entraînement leur permet ainsi « d’apprendre » de manière autonome. Il existe des dizaines d’architectures de réseaux de neurones, parmi chacune de ces architectures il existe de nombreuses variantes. Les architectures qui sont au cœur des capacités créatives de l’IAG sont les réseaux antagonistes génératifs (GANs) et les modèles de diffusion. 

Introduits par Ian Goodfellow en 2014, les GANs reposent sur une dualité entre deux réseaux de neurones : le générateur et le discriminateur. Le générateur a pour mission de créer des images, de la musique ou d’autres contenus créatifs, tandis que le discriminateur évalue ces productions en les comparant avec des données issues du monde réel. Ce mécanisme forme une boucle dans laquelle le générateur affine continuellement ses créations pour tromper le discriminateur en lui faisant croire que ses œuvres sont authentiques. Le discriminateur, de son côté, devient de plus en plus expert à distinguer les données réelles de celles générées (cf. Figure 4). 

Figure 4 – Illustration du fonctionnement d’un GAN. Crédit : Science Focus 

Actuellement, ce sont les modèles de diffusion qui sont les plus couramment utilisés pour la création d’œuvres artistiques. Ces modèles sont utilisés dans la plupart des outils de synthèse « texte-image » comme Midjourney, DALL-E et Stable Diffusion. Contrairement aux GANs, qui génèrent des images par un processus compétitif, les modèles de diffusion partent d’un bruit aléatoire qu’ils affinent progressivement pour obtenir une image fidèle aux descriptions textuelles (cf. Figure 5). 

Figure 5 – Illustration du fonctionnement d’un modèle de diffusion. Crédit : Nvidia 

Les modèles de diffusion ont réellement révolutionné les créations numériques en offrant la possibilité aux utilisateurs, même sans compétences artistiques particulières, de générer des œuvres artistiques de grande qualité uniquement à partir de phrases descriptives. Mais comme les GANs, il est nécessaire d’entraîner ces modèles avec un volume important de données, qui comprennent des millions voire des milliards d’exemples annotés avec des descriptions textuelles. C’est grâce à ce vaste corpus d’entraînement que le modèle peut identifier des corrélations entre les mots et les éléments visuels ou sonores. 

  1. État des lieux actuel de l’IAG dans l’art 

Depuis l’introduction des GANs et des modèles de diffusion, beaucoup d’outils ont été développés pour proposer des solutions d’IAG performantes et simples à utiliser. Il peut s’agir d’applications mobiles ou de logiciels sur ordinateur. Grâce à eux, n’importe qui peut devenir un artiste et ce, même sans disposer de compétences artistiques particulières. Voici un aperçu de quelques-uns des outils d’IAG les plus couramment utilisés dans divers domaines artistiques. 

Création littéraire 

Dans le domaine des arts littéraires, l’IAG est capable d’écrire des récits, des chansons, des poèmes ou tout autre écrit qui demande de l’imagination. Pour ce faire, c’est très simple. L’utilisateur doit simplement décrire le plus précisément possible, sous la forme d’une requête textuelle, le type de contenu qu’il souhaite produire. L’IAG va alors générer un contenu qui se rapproche le plus possible de sa demande en quelques secondes seulement. Par exemple, voici un poème généré par ChatGPT-4o : 

Sous le pinceau dansent des rêves en couleurs, 
Le marbre froid s’éveille en douceur sculptée, 
Chaque trait révèle un secret, une lueur, 
Dans l’atelier naît l’âme d’une beauté. 

Le prompt entré est le suivant : « Génère un quatrain sur le thème de l’art en utilisant un schéma de rimes ABAB. » 

Outils populaires : ChatGPT (OpenAI), Gemini (Google), LLaMA (Meta), Claude (Anthropic), Copilot (Microsoft). 

Création d’illustrations numériques 

C’est sûrement le cas d’usage le plus connu avec la génération de texte. L’IAG est très performante pour générer ou modifier des images. Elle peut être utilisée pour générer tous types d’illustrations numériques (logos, diapositives, affiches publicitaires, etc.) à partir d’une description textuelle. Une autre application fréquemment utilisée est le transfert de style. Cette fonctionnalité permet de transposer le style d’une œuvre dans une autre image. 

Les images de la figure 6 ont été générées à partir du prompt suivant : « A middle-aged woman of Asian descent, her dark hair streaked with silver, appears fractured and splintered, intricately embedded within a sea of broken porcelain. The porcelain glistens with splatter paint patterns in a harmonious blend of glossy and matte blues, greens, oranges, and reds, capturing her dance in a surreal juxtaposition of movement and stillness. Her skin tone, a light hue like the porcelain, adds an almost mystical quality to her form. » 

Outils populaires : Midjourney (Midjourney Inc.), DALL-E (OpenAI), Firefly (Adobe), Stable Diffusion (Stability AI), Imagen 3 (Google). 

Figure 6 – Images générées successivement par DALL-E, Stable Diffusion et Midjourney à partir du même prompt. Crédit : John Angelo Yap. 

Synthèse vocale 

Moins connues que la génération de texte ou d’images, les technologies d’IAG pour la synthèse vocale sont en pleine expansion. Les outils existants proposent le plus souvent deux fonctionnalités. La première est d’offrir la possibilité de convertir un texte en voix. La deuxième permet, à partir d’un enregistrement de quelques secondes, de cloner une voix en reproduisant avec précision son ton, son intonation et son émotion. Aujourd’hui, il est très difficile de faire la différence entre une voix synthétique et une voix originale. Cette technologie est utilisée pour produire des livres audio, des voix-off ou des assistants virtuels.  

Outils populaires : ElevenLabs (ElevenLabs Inc.), Speechify (Speechify Inc.). 

Composition de musique 

L’IAG s’impose également peu à peu dans le monde de la musique. Les applications existantes permettent aux utilisateurs de créer des morceaux de musique dans n’importe quel genre. Il est possible de composer des chansons entières avec des paroles et des voix imitant le style de divers artistes connus, mélangeant harmonieusement les instruments, les paroles et les voix. 

Outils populaires : Suno (Suno Inc.), Jukebox (OpenAI), Amper Music (Amper Music Inc.), AIVA (AIVA Inc.). 

Génération vidéo 

C’est très récemment, en février 2024, que des modèles génératifs capables de créer des vidéos ont émergé, avec notamment l’introduction par OpenAI de Sora [5]. Les IAG spécialisées dans la vidéo fonctionnent sur le même principe que les générateurs d’images. Il suffit de décrire textuellement et précisément le résultat désiré pour obtenir une vidéo correspondante (cf. Figure 7). Cette nouvelle technologie ouvre de nouvelles perspectives, notamment dans le domaine du cinéma et du marketing. Elle permet de réaliser des projets plus ambitieux, de les produire plus rapidement et à moindre coût.  

Figure 7 – Capture d’écran d’une vidéo générée par Sora. Crédit : OpenAI 

La vidéo illustrée en figure 7 a été générée à partir du prompt suivant : « Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. » 

Outils populaires : Sora (OpenAI), Gen-3 (Runway), Dream Machine (Luma Labs), Veo (Google). 

  1. L’IAG comme outil de collaboration artistique 

Grâce à l’accès à toute cette gamme d’outils, des artistes et des entreprises ont commencé à tester l’IAG dans leurs pratiques professionnelles. 

Des médias comme Bloomberg utilisent l’intelligence artificielle pour automatiser la rédaction de certains articles ou de rapports. Cette automatisation permet une diffusion plus rapide et plus large, offrant davantage de temps aux journalistes pour se consacrer à des enquêtes ou analyses plus complexes.  

Le photojournaliste américain, Michael Christopher Brown, a réalisé en 2023 un projet photographique intitulé « 90 miles » [6], qui illustre la révolution cubaine dans les années 1950. L’une des images montre Fidel Castro, jeune, debout au cœur d’une foule à La Havane (cf. Figure 8). La photo semble réelle, pourtant aucun des clichés de ce projet n’a été capturé par un appareil photo classique : elles ont toutes été générées par Midjourney. Le projet de Michael Christopher Brown a été reçu avec controverse. Une image générée par l’IA peut-elle encore être considérée comme une photographie, ou même comme une pièce de journalisme valable ?  

Figure 8 – Image extraite du projet « 90 miles » Michael Christopher Brown 

En 2023, un manga intitulé Cyberpunk: Momotarô a été réalisé à l’aide de Midjourney (cf. Figure 9). L’auteur, Rootport, a rédigé le scénario, mais il a choisi de ne pas faire appel à un illustrateur et d’utiliser à la place l’IAG. Le mangaka a tout de même rencontré des difficultés pour maintenir une continuité visuelle à travers les différentes planches du manga. Pour résoudre ce problème, il a eu l’idée d’attribuer des caractéristiques particulières aux personnages. Le héros par exemple, est reconnaissable à la couleur rose de ses cheveux. L’œuvre, publiée par la maison d’édition Shinshosa, a été la première au Japon à utiliser l’IA pour créer un manga. Ce projet a toutefois provoqué un débat au Japon autour de l’impact de l’IA sur les créateurs de mangas. Certains soulignent que les dessins réalisés par une IAG ne possèdent aucune « âme » et dénaturent l’essence même du manga. 

Figure 9 – Couverture du manga  « Cyberpunk: Momotarô » 

Un autre domaine artistique, plus inattendu pour une collaboration avec l’IAG, est celui de la prestidigitation. Le magicien Romain Lalire utilise l’IAG comme assistant pour générer des contenus visuels ou sonores parfaitement synchronisés avec le déroulement de ses tours de magie, renforçant ainsi l’effet du prestige (le dernier acte d’un tour de magie). Malgré son potentiel, l’IAG reste limitée dans sa capacité à inventer de nouveaux tours de magie. Cela peut s’expliquer par le manque de ressources d’entraînement et de contexte, car contrairement à d’autres formes d’art où les données sont abondantes et accessibles pour entraîner les IAG, le monde de la magie reste secret [7]. 

Toys’R’Us s’est également essayé à l’IAG avec une campagne de publicités vidéo réalisée en utilisant Sora, le générateur de vidéos d’OpenAI [8]. L’idée derrière cette campagne est de connecter les publicités entre elles pour raconter une histoire nostalgique capable de toucher un large public, enfants comme adultes (cf. Figure 10). En plus d’être d’une grande qualité visuelle, ces vidéos sont particulièrement avantageuses d’un point de vue financier pour l’entreprise américaine. La création de ces contenus n’a requis que quelques semaines pour retoucher les éventuels défauts des vidéos, tandis qu’une production classique aurait nécessité des mois entiers de travail. 

Figure 10 – Capture d’écran d’une publicité générée avec Sora. Crédit : Toys’R’Us 

Malgré l’enthousiasme de Toys’R’Us sur l’adoption de l’IAG, la vidéo n’a pas été très bien reçue. L’une des publicités a été publiée sur la chaîne YouTube de l’entreprise et les internautes l’ont très mal évaluée, comme en atteste le pourcentage élevé de dislikes (plus de 83 %). Cette évaluation témoigne d’une certaine réticence du grand public à l’égard de l’usage de l’IAG au détriment d’artistes humains et reflète des inquiétudes plus générales quant aux répercussions de cette technologie sur le monde artistique. 

  1. L’IAG comme une menace dans le monde artistique 

L’une des inquiétudes est que ces outils puissent être détournés de leur usage initial et d’être utilisés à des fins malveillantes. C’est une crainte légitime lorsqu’on sait que l’une des premières applications des modèles GANs a été leur détournement pour générer des vidéos de deepfakes (cf. notre article sur les deepfakes). 

Une autre préoccupation majeure de l’IAG dans le domaine artistique concerne les questions de droits sur la propriété intellectuelle des œuvres. Les contenus générés par l’IAG reposent souvent sur des ensembles de données d’entraînement composés de millions d’œuvres créées par des artistes, des musiciens, des écrivains, etc. C’est une étape essentielle pour que les IAG soient capables de générer de nouveaux contenus. Cependant, cela soulève également de sérieuses questions juridiques et éthiques sur la propriété et la paternité des créations générées. Lorsqu’une création est réalisée par une IAG, il n’est pas précisé quelles œuvres originales ont été exploitées. De nombreux auteurs, dont George R.R. Martin, l’auteur de la série de romans Le Trône de fer, ou même de grands médias comme le New York Times ont intenté des actions en justice contre l’entreprise OpenAI pour violation de droits d’auteur [9].  

Figure 11 – Comparaison du texte généré par GPT-4 avec un article original du New York Times mettant en évidence les similarités entre les deux textes 

Par ailleurs, l’identification de l’auteur d’une œuvre devient plus compliquée. Par exemple, si une IAG est entraînée sur une collection d’œuvres d’un artiste spécifique et produit ensuite une œuvre qui imite son style, à qui appartiennent les droits de cette nouvelle création ? Est-ce l’artiste dont le style a été utilisé, le concepteur de l’IAG, ou l’utilisateur qui a saisi le prompt ayant conduit au résultat final ?  

Une autre source de préoccupation face à l’essor de l’IAG et probablement la plus médiatisée, est le potentiel de cette technologie à remplacer les créateurs. Les artistes, quels que soient leur domaine d’expertise, redoutent de ne plus être sollicités à mesure que les outils d’intelligence artificielle se perfectionnent. Ces systèmes peuvent effectuer leurs tâches à des coûts et dans des délais souvent beaucoup plus faibles que ceux d’un humain. 

Ce sentiment de menace s’est récemment manifesté avec la grève des scénaristes aux États-Unis entre le 2 mai 2023 et le 27 septembre 2023. Durant ce laps de temps, la production télévisuelle et cinématographique a été paralysée. Les scénaristes ont fait part de leurs craintes face à l’utilisation croissante de l’IAG pour créer des scripts à leur place. Ils ont insisté sur le fait que les outils comme ChatGPT devraient être utilisés comme des assistants, et non pour remplacer leur travail. 

En France, les comédiens de doublage ont aussi pris une initiative similaire en lançant une pétition sous le hashtag #TouchePasMaVF contre l’utilisation grandissante de l’IAG dans le secteur de l’audiovisuel. Tout comme les scénaristes américains, ils ont mis en avant les dangers pour leur profession et ont réclamé des mesures de protection juridique aux autorités françaises face à ces technologies qui reproduisent leur voix sans leur accord [10]. 

  1. Favoriser une IAG de confiance 

Face à ces préoccupations, différentes solutions ont été envisagées afin de trouver un équilibre entre les bénéfices de l’IAG et la protection de la créativité humaine. L’une des solutions proposées est l’élaboration de lignes directrices et de cadres juridiques plus clairs. Cela pourrait inclure l’obligation pour les entreprises d’IAG de rendre publiques les sources de leurs données d’entraînement et d’obtenir le consentement des artistes dont les œuvres sont utilisées pour entraîner les modèles.  

L’Union européenne, ainsi que d’autres institutions, ont commencé à formuler des lois qui imposent des standards plus stricts de transparence et de responsabilité dans la conception des technologies d’intelligence artificielle, en particulier à travers la législation européenne sur l’IA [11]. Aboutir à un meilleur encadrement de l’IAG est essentiel. C’est notamment grâce à l’établissement de nouvelles règles encadrant l’usage de l’IAG que la grève des scénaristes américains a abouti à un accord et que la production de contenu cinématographique a pu reprendre [12]. 

En complément des mesures législatives, l’adoption de solutions techniques commence aussi à être envisagée. L’implémentation de filigranes numériques ou de métadonnées indiquant quand un contenu a été généré ou modifié par IAG aide à différencier les œuvres créées par des humains de celles créées artificiellement. Certaines plateformes, comme Instagram et LinkedIn, se sont déjà engagées dans cette voie, expérimentant des systèmes pour identifier et signaler les contenus générés par IAG. LinkedIn, par exemple, trace l’origine des médias créés par IA [13]. Instagram, de son côté, appose une étiquette spécifique sur tout contenu créé via les outils d’IA de Meta (cf. Figure 12). Par ailleurs, des sanctions peuvent être imposées si des utilisateurs publient des contenus générés ou modifiés par IAG sans les avoir préalablement étiquetés [14]. 

Figure 12 – Illustration des libellés de contenu généré par AI sur LinkedIn (à gauche) et sur Instagram (à droite) 

  1. Quel avenir pour l’IAG dans l’art ? 

Avec le développement de l’intelligence artificielle générative ces dernières années, le monde de l’art traditionnel commence à être redéfini. Peu importe la forme d’expression artistique, que ce soit une image, une vidéo ou une création littéraire, chaque artiste est concerné. 

D’abord considérée comme un outil de second plan par les artistes, l’IAG a rapidement évolué pour devenir un concurrent sérieux. À mesure que la technologie progressait et que les créations générées par IAG se rapprochaient de la qualité des œuvres des artistes humains, des inquiétudes ont émergé. Ces inquiétudes se sont concrétisées lorsque l’IAG est devenue accessible au grand public dans des outils permettant à n’importe qui de créer des œuvres d’une qualité comparable à celle d’un artiste. 

Pour beaucoup d’artistes, cette situation est perçue comme une concurrence déloyale qui menace leurs emplois. Fort heureusement, bien que le public soit globalement enthousiaste à l’égard de ces innovations, il demeure réticent lorsque des entreprises utilisent ces outils génératifs au lieu de recourir à de véritables artistes, comme en témoignent de nombreuses réactions sur les réseaux sociaux lorsque du contenu créé par IAG est diffusé par une marque. 

L’enjeu est alors de trouver un équilibre permettant à la fois l’innovation technologique et la préservation de la créativité humaine. En utilisant l’IAG en tant que partenaire plutôt qu’en tant qu’adversaire, elle représente un nouveau vecteur de créativité pour les artistes.  

Pour atteindre cet équilibre, il est nécessaire d’encourager la transparence et la responsabilité éthique de la part des développeurs d’outils d’IAG. Les plateformes de réseaux sociaux ont également un rôle à jouer et doivent clairement signaler les contenus créés par l’IAG et mentionner leur source, pour éviter la désinformation et créditer les artistes humains. Les institutions, quant à elles, doivent instaurer un cadre réglementaire pour garantir une utilisation juste et équitable. 

En fin de compte, l’avenir de l’art résidera dans les choix que feront les artistes, les institutions étatiques et l’ensemble de la société pour interagir avec l’intelligence artificielle. 

Références 

[1] Goodfellow, I., et al. (2014). Generative adversarial networks. In Advances in Neural Information Processing Systems (Vol. 27).  

[2] Karras, T., et al. (2019). A style-based generator architecture for generative adversarial networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 4401-4410). 

[3] This Person Does Not Exist. https://thispersondoesnotexist.com 

[4] Gal, R., et al. (2022). StyleGAN-NADA: CLIP-guided domain adaptation of image generators. In ACM Transactions on Graphics (TOG) 

[5] Video generation models as world simulators. https://openai.com/index/video-generation-models-as-world-simulators/ 

[6] 90 Miles. https://michaelchristopherbrown.com/90miles 

[7] Allaire, A., et Cervoni, L. (2023). Magical Simulacra and Simulating Magic: A Baudrillardian Perspective on the Recognizing and Creating Magic Using Generative Artificial Intelligence. Polish Journal of Aesthetics, (71). 

[8] Watch the story of a dream come true: The creation of Toys »R »Us and Geoffrey the Giraffe. https://www.toysrus.com/pages/studios 

[9] https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf 

[10] TouchePasMaVF : Pour un doublage créé par des humains pour des humains. https://lesvoix.fr/touchepasmavf-petition-doublage-par-des-humains-pour-des-humains/ 

[11] Législation sur l’IA. https://digital-strategy.ec.europa.eu/fr/policies/regulatory-framework-ai 

[12] Summary of the 2023 WGA MBA. https://www.wga.org/contracts/contracts/mba/summary-of-the-2023-wga-mba 

[13] LinkedIn Adopts C2PA Standard. https://www.linkedin.com/pulse/linkedin-adopts-c2pa-standard-patrick-corrigan-kwldf 

[14] Our Approach to Labeling AI-Generated Content and Manipulated Media. https://about.fb.com/news/2024/04/metas-approach-to-labeling-ai-generated-content-and-manipulated-media/