Retour sur Devoxx 2025 : IA & Data

Talan était sponsor de l’édition 2025 de Devoxx Paris. Nous en avons profité pour aller voir plusieurs conférences.
Voici un résumé des conférences qui nous ont marquées, sur la thématique de l’intelligence artificielle et de la data.

Mission IApossible : arrêtez le train légo

Afin de proposer un POC de train légo capable de reconnaitre les panneaux et d’agir en conséquence, le présentateur explique en détail les technologies utilisées qu’on ne soupçonnerait pas : Tekton pipelines, bootc et toute une stack openshift…

L’Intelligence Artificielle n’existe pas

Luc Julia, l’un des co-créateurs de Siri, nous explique que “l’IA générale n’existera jamais” à travers plusieurs exemples tirés de l’histoire de l’évolution de l’IA. Son premier exemple, le “Machine Learning” qui émerge entre 1990 et 1995 a besoin de 100 000 et 1 million d’images de chats pour reconnaître un chat à 90% “là où un humain de 2 ans en a besoin de 2”.

Son point de vue est que “l’IA générative n’est pas créative”, “ce n’est qu’un outil qui ne crée rien”.

Il montre par la suite que les entrainements des modèles actuels ont besoin de plus en plus de données pour les entrainer, que l’on arrive à la limite de tout ce qui a été écrit sur Internet et que malgré ça, les modèles actuels génèrent encore des choses fausses (à 63,4% de vrai pour ChatGPT selon une étude de février 2023) et qu’il faut ruser (utilisation de Fine Tuning, RAG) pour obtenir des résultats pertinents.

GitHub Copilot : Aller encore plus loin que la complétion de code

Kim-Adeline Miguel et Sandra Parlant présentent les nouvelles fonctionnalités de GitHub Copilot :

Instructions personnalisées,
Mode Chat (avec choix de modèles comme ChatGPT ou Claude), génération de workflows,
Intéractions plus poussées via les modes Agent (actions automatiques) et Multi-edit (modifications sur plusieurs fichiers).
Copilot propose aussi des revues de code et détecte les failles de sécurité avec GitHub Advanced Security.

Iceberg: pourquoi devez-vous connaitre ce nouveau format de stockage de données?

Présentation du format de stockage de donnée Iceberg (metadata en avro + json et data en parquet) à travers un cas d’usage chez Doctolib : pouvoir faire de l’analyse de leur BDD Postgresql de production (avec une fraicheur raisonnable de moins d’1h), sachant que la volumétrie de cette dernière est bien trop grosse pour le faire directement sur la base.

La solution présentée réside dans un export au fil de l’eau des WAL de Postgresql, déversé dans un Kafka, lui-même déversé dans un sink Iceberg. Ce format permet de pouvoir requêter très rapidement (stockage colonne) et de “voyager dans le temps” grâce aux différents snapshots pris.

Vibe testing

Le présentateur explorait la question suivante : l’IA peut-elle devenir un bon assistant pour les testeurs ? À travers plusieurs démonstrations, il a montré comment utiliser des prompts pour générer automatiquement des tests fonctionnels, de performance, de sécurité (à partir du code, d’API, de Swagger ou d’interfaces web), ainsi que des tests d’accessibilité, parfois même sans accès direct au code, en se basant uniquement sur des captures d’écran.
Selon lui, un testeur assisté par l’IA pourrait, à terme, remplacer un testeur traditionnel, tout en précisant que l’IA ne remplacera jamais totalement l’humain. Il émet également une projection similaire pour les développeurs : l’IA deviendra un puissant assistant, sans pour autant se substituer entièrement aux compétences humaines.

Apache Kafka en 2025, vers l’infini et au-delà

En 2025, Apache Kafka confirme sa position de leader du data streaming, en alternative au batch processing. Son adoption massive s’explique par sa scalabilité, sa flexibilité et l’absence initiale de solutions de streaming performantes.

Kafka structure les événements en topics (conteneurs immuables sans index), divisés en partitions, avec une architecture basée sur des brokers simples. Historiquement, il dépendait de Zookeeper pour la gestion des métadonnées et la coordination.

Évolutions clés en 2025 :

Suppression de Zookeeper, remplacé par KRaft, un algorithme inspiré de Raft, qui simplifie la gestion des métadonnées et améliore la scalabilité.
Tiered Storage : séparation entre données chaudes (locales) et froides (moins coûteuses)
Fetch from Follower : les consommateurs peuvent lire depuis les réplicas, améliorant la disponibilité.
Nouveau protocole des groupes de consommateurs : allocation des partitions gérée côté serveur pour plus de flexibilité.
Queues for Kafka : modèle de file d’attente permettant une gestion fine de l’ordre et de l’allocation des messages.
Central Governance : orchestration centralisée accrue côté serveur.

Kafka est massivement utilisé sur les grandes plateformes cloud (AWS, Azure, Google Cloud), avec des déploiements résilients basés sur les Availability Zones.

John Doe et Jhon Doe sont dans un bateau : la magie derrière l’Entity Resolution

Le présentateur montre les différentes manières de rapprocher plusieurs bases de données dont les entrées ne seraient pas exactement les mêmes, mais dont certaines correspondraient effectivement à un même objet.

Dans le cas de la fusion entre 2 bases de données de clients, les informations concernant les clients peuvent être stockées de plusieurs manières différentes. Par exemple, une adresse postale peut être stockée sous plusieurs formes :

En un bloc
<numéro de rue> <rue> <code postal> <ville>
Séparé en deux
<numéro de rue> <rue>
<code postal> <ville>
Avec un geopoint

Il présente dans ce talk plusieurs manières possibles de faire correspondre différentes entrées correspondant à la même adresse.

Duck DB : le canard qui a révolutionné le Datalake

Cette base de données n’est pas un concurrent des SGBDR traditionnels : c’est un couteau suisse de l’analyse de données permettant de charger en mémoire des fichiers CSV, Parquet, Iceberg dans une représentation colonne ou vectorielle et de les interroger directement en SQL. L’outil est gratuit, extensible et peut mettre être utilisé dans un navigateur (WASM). L’analyse et le traitement prennent une autre dimension.

Optimisation des requêtes PostgreSQL : parlons performance

Laetitia AVROT est une experte de PostgreSQL qui vit et respire PostgreSQL depuis des années, notamment en y contribuant.

Elle nous explique comment les requêtes SQL sont optimisées par PostgreSQL, en particulier grâce aux statistiques, et comment il est possible d’éviter ses optimisations, parfois couteuse en temps, en écrivant correctement ses requêtes. Un outil utile pour comprendre ces dernières : https://explain.depesz.com/

Apache Arrow, l’analyse de données haute performance et interopérable

Sylvain Wallez d’Elastic nous présente Apache Arrow, ce nouveau format d’échange de données en colonne qui propose notamment du “zero-copy read and zero serialization” pour faire communiquer les différentes briques des écosystèmes BigData entre elles.

Il présente son historique (pourquoi ça a été créé), sa structure, ses avantages et sa comparaison avec Parquet notamment et termine avec l’écosystème existant autour d’Arrow et notamment ses avantages pour Open Telemetry.

Génération d’images locale et contrôlée avec Stable Diffusion et ComfyUI

Hajer Mabrouk joue la PO (en tant que prof de yoga) d’une application permettant de générer des images de postures de yoga pour son site web.

Raphaël Semeteys en tant que développeur va chercher à répondre aux exigences de Hajer. Ensemble ils nous présentent la manière dont ils ont creusé Stable Diffusion et l’interface visuelle ComfyUI pour mener à bien cette mission qui n’est pas facile car les postures de yoga doivent être très précises au niveau des gestes, ce que ne fait pas Stable Diffusion en l’interrogeant naïvement.

À travers leurs pérégrinations, on découvre les CLIP Models, les Embeddings, Image-to-Image, ControlNets, LoRA (Low Rank Adaptator), Face ID et FaceDetailer.

Vous pouvez retrouver plusieurs articles sur d’autres thématiques abordées durant Devoxx Paris 2025 :