Auteur : Dr. Raphael Sturgis
Qu’est-ce que les données géographiques ?
Les données géographiques, également appelées données spatiales, désignent toutes les informations qui contiennent une dimension liée à l’espace, c’est-à-dire à un lieu ou une position précise sur la surface terrestre. Ces données sont souvent représentées par des coordonnées géographiques, la latitude et la longitude, mais elles peuvent également inclure une multitude d’autres attributs contextuels liés à cette localisation ou à l’émetteur de ces données. Par exemple, les attributs liés à une localisation peuvent inclure l’altitude, la densité de population, les types de sols, les infrastructures existantes. Pour les attributs liés à l’objet émetteur, les exemples incluent très souvent la date d’émission (on parlera ici de séries temporelles), mais également d’autres éléments comme la vitesse, la consommation de carburant, le statut, etc.
Le rôle des données géographiques est central dans de nombreux domaines, allant de la planification urbaine à la gestion des ressources naturelles, en passant par la logistique, la sécurité publique et l’analyse environnementale. Elles permettent aux décideurs et aux chercheurs de mieux comprendre les dynamiques spatiales, d’anticiper les changements, et de mettre en œuvre des stratégies adaptées aux spécificités locales.
Avec l’essor de l’intelligence artificielle (IA) et du machine learning (ML), l’analyse des données géographiques est en plein essor. Ces technologies permettent de traiter d’énormes volumes de données spatiales en temps réel, d’identifier des patterns complexes et de formuler des prédictions avec une précision accrue. Cependant, l’efficacité de ces modèles repose en grande partie sur la qualité et la représentativité des données utilisées et sont très sensibles aux biais qu’ils contiennent.
Les données géographiques ont la particularité de présenter des biais bien particuliers, les biais géographiques, c’est-à-dire des représentations incomplètes ou déséquilibrées d’une réalité spatiale. Ces biais peuvent surgir lorsque les données sont collectées de manière non-représentative, par exemple en se concentrant uniquement sur certaines zones au détriment d’autre régions. Ce type de biais n’est pas exclusif aux données géographiques, mais est un enjeu majeur dans ce contexte. Comprendre ces biais, ainsi que les limitations qu’ils imposent, est donc essentiel pour une analyse géospatiale rigoureuse.
Qu’appelle-t-on » biais géographique » ?
Le biais géographique désigne les distorsions ou les erreurs qui surviennent lorsque les données géographiques ne représentent pas fidèlement la réalité spatiale qu’elles sont censées décrire. Ces biais peuvent se manifester de diverses manières, par exemple lorsque certaines régions sont surreprésentées ou sous-représentées dans les ensembles de données, ou lorsque les informations collectées sont influencées par des perspectives spécifiques, par exemple quand l’accès aux technologies de collecte et d’analyse des données est inégalement distribué.
Ces distorsions peuvent avoir des conséquences significatives, notamment quand les données sont ensuite utilisées dans un contexte de machine learning. En effet, comme tout type de biais elle peuvent réduire la capacité à généraliser nos modèles et donc à réduire leurs performances. Cela est encore plus prononcé lorsque l’on cherche à exploiter un modèle qui a été entraîné avec des données issues de certaines zones non-représentatives de l’ensemble de données global auquel il peut être confronté.
Comment pouvons-nous contourner ces biais ?
Contourner les biais géographiques est un défi essentiel pour garantir la précision et la fiabilité des modèles de machine learning et des analyses basées sur des données géospatiales notamment dans des régions où peu de données existent. Voici quatre méthodes que l’on peut utiliser pour atténuer ces biais, chacune avec ses avantages et inconvénients.
- Acquérir des données bien distribuées sur le globe
L’approche la plus directe pour réduire le biais géographique consiste à acquérir des données qui sont bien distribuées à travers différentes régions du globe. Cela permet d’assurer que les modèles de machine learning sont exposés à une diversité de contextes géographiques. Par exemple, pour un modèle de reconnaissance d’images, inclure des données provenant de diverses régions, avec des paysages, des infrastructures et des environnements urbains variés, permet au modèle de mieux généraliser et de ne pas être biaisé en faveur de certaines zones géographiques spécifiques.
Avantages :
- Réduction du biais global : Une meilleure représentation des différentes régions du monde permet de créer des modèles plus généralistes et applicables à une plus grande variété de contextes.
- Précision accrue : Les modèles basés sur des données bien réparties géographiquement ont tendance à offrir des prédictions plus robustes et fiables.
Inconvénients :
- Coûts élevés : La collecte de données à l’échelle mondiale peut être coûteuse et complexe à mettre en œuvre.
- Accès limité aux données : Dans certaines régions, il peut être difficile, voire impossible d’obtenir des données de haute qualité en raison de limitations technologiques ou politiques.
- Ne pas considérer l’aspect géographique des données
Une autre approche consiste à ignorer l’aspect géographique des données lors de l’entraînement des modèles, en traitant les données comme étant indépendantes de leur contexte spatial.
Avantages :
- Simplicité : Cette méthode peut simplifier le modèle en éliminant la nécessité de gérer des dimensions géographiques complexes.
- Évitement du biais géographique direct : En n’incorporant pas la géographie dans le modèle, on peut éviter dans certains cas les distorsions associées à une représentation inégale des données spatiales.
Inconvénients :
- Perte d’information : Ignorer les aspects géographiques peut entraîner une perte d’informations précieuses, notamment dans des contextes où la géographie joue un rôle crucial. Par exemple, si l’on cherche à faire de la prédiction de trajectoire, la dimension spatiale de celle-ci est primordiale.
- Généralisation limitée : Les modèles pourraient manquer de précision lorsqu’ils sont appliqués à des problèmes où la géographie a un impact direct.
- Conservation de certains biais géographiques : Certains biais géographiques ne sont pas liés directement aux coordonnées géographiques, mais viennent d’un manque de représentativité de données de certaines régions. Dans ce cas, enlever l’aspect géographique des données ne réduira pas le biais.
- Le feature engineering pour exploiter les informations présentes dans les données sans subir les effets des biais
Le feature engineering consiste à transformer les données brutes en caractéristiques plus pertinentes pour le modèle, tout en minimisant l’influence des biais géographiques. Cela peut inclure la normalisation des données ou la création de nouvelles variables qui réduisent l’impact des biais. Si l’on prend encore une fois la prédiction de trajectoire comme exemple, on peut normaliser chaque trajectoire en les forçant à démarrer à un point de coordonnée (0, 0), gardant ainsi la forme de la trajectoire, mais pas sa localisation.
Avantages :
- Optimisation des performances : Le feature engineering permet de maximiser l’utilisation des informations disponibles tout en limitant l’impact des biais.
- Flexibilité : Cette approche permet d’adapter les modèles aux spécificités des données tout en atténuant les problèmes liés à la géographie.
Inconvénients :
- Complexité accrue : Le processus de feature engineering peut être complexe et nécessite une expertise sur les données en question et sur leur modélisation.
- Résultats imprévisibles : Une mauvaise conception des caractéristiques peut introduire de nouveaux biais ou atténuer les avantages de la méthode.
- Augmentation de données
L’augmentation de données consiste à créer de nouvelles données synthétiques ou dérivées pour compenser les lacunes dans les ensembles de données existantes. Cette technique est très utilisée dans le domaine de la vision par ordinateur. Dans ce contexte, on génère des images plausibles à partir de notre ensemble de données d’apprentissage en appliquant des transformations à celles-ci. Des exemples de transformation peuvent inclure de : retourner l’image, zoomer de manière aléatoire sur une partie, appliquer une rotation, changé la saturation, etc… Dans le contexte des biais géographiques, il s’agit de produire de nouvelles données à d’autres endroits du globe tout en gardant une cohérence dans les données, ce qui est très dépendant du contexte particulier et de la tâche.
Avantages :
- Élargissement des ensembles de données : L’augmentation permet de pallier le manque de données dans certaines régions, réduisant ainsi le biais géographique.
- Amélioration de la robustesse : Les modèles formés sur des ensembles de données élargis sont souvent plus robustes face à la variabilité géographique.
Inconvénients :
- Qualité des données : Les données augmentées peuvent ne pas refléter fidèlement la réalité, ce qui peut introduire de nouveaux biais ou erreurs dans les modèles.
- Complexité : La création de données augmentées dans un contexte géographique peut nécessiter des méthodes sophistiquées et coûteuses en énergie, telles que les réseaux de neurones génératifs.
Chacune de ces approches ont leurs avantages et leurs inconvénients, il est donc crucial de choisir la bonne méthode pour un problème spécifique.
Cas d’étude : la détection de comportement de navire
Pour illustrer les défis posés par le biais géographique et les différentes approches pour les contourner, nous nous penchons sur un cas concret : la détection de comportements de navires à partir de données AIS (Automatic Identification System). Ce cas d’étude explore comment les biais géographiques affectent la capacité à généraliser des modèles de machine learning et comment des techniques telles que le feature engineering et l’augmentation de données peuvent améliorer les performances des modèles dans ce contexte complexe.
Les données AIS (Automatic Identification System) sont utilisées pour surveiller les mouvements des navires en temps réel. Ces données reposent sur des transmissions à intervalle semi-régulier d’information liée au mouvement de navire. Ces données peuvent être visualisées gratuitement sur http://www.marinetraffic.com. Ces transmissions sont faites par des transpondeurs et sont soumises à une réglementation internationale. Elles comprennent des informations telles que la position géographique, la vitesse du navire appelé aussi SOG – Speed over ground, le cap du navire appelé COG – Course Over Ground, qui décrit la direction de mouvement du navire, et l’orientation du navire ou le heading. Ces données sont cruciales pour la sécurité maritime et permettent d’analyser les comportements des navires. Les données AIS sont difficiles à trouver en grande quantité en libre accès, néanmoins les garde-côtes américains mettent en libre accès leurs données (à travers la plateforme de http://www.marinecadastre.com). Elles sont cependant limitées aux eaux territoriales américaines.
La détection des comportements des navires consiste à identifier des comportements prédéfinis que peuvent utiliser les navires. Par exemple, un bateau de pêche peut être en train de naviguer, à l’arrêt ou être engagé dans des activités de pêche. Il y a de nombreuses applications à ce type de détection de comportement tel que la surveillance maritime, l’étude de pattern de navigation ou bien le calcul d’émission de CO2. C’est un aspect important également de la sécurité maritime pour bien quantifier les risques de collisions entres les navires. Les données AIS sont ne sont pas annotées de manière fiable et requiert donc une labélisation par des experts qui est coûteuse. Le biais géographique peut apparaître ici dû à un accès limité des données. En effet, il est très compliqué d’obtenir des données globales labellisées. Le challenge est donc de pouvoir concevoir des modèles qui peuvent fonctionner sur des données partout sur le globe alors même que nous n’avons accès qu’à des données dans une zone géographique spécifique pour l’entraînement. Ce biais affecte les prédictions basées sur la position, mais aussi certains features que l’on suspect moins comme le COG et le heading. Pour la position, il peut paraître évident que si un modèle utilise des données de position directement, il risque d’apprendre des patterns locaux, par exemple l’emplacement des quais, qui vont l’aider à avoir de bonnes performances sur les données locales, mais ne pourra pas généraliser à des zones complètement différentes. C’est moins évident pour le COG et le heading, mais ces features sont également biaisés par la géographie. Par exemple, un quai peut avoir une orientation particulière ce qui va causse les navires à quai à présenter cette même orientation dans leurs heading et COG ce qui est un moyen valable de détecter des navires à quai. Cela n’est pas viable pour d’autres zones géographiques ou les quais peuvent avoir d’autres orientations en revanche.
Bien que l’acquisition de données labellisées dans diverses régions du globe réduirait le biais géographique, cela est difficile à réaliser. Les données en accès libre sont limitées géographiquement, rendant cette approche impraticable pour une couverture mondiale. Le coût pour obtenir des données chez des fournisseurs serait également très élevé.
L’aspect géographique contient des informations primordiales sur les comportements des navires. L’ignorer pourrait donc nuire à la précision des modèles. En effet, la forme de la trajectoire est riche de sens pour cette tâche.
Pour réduire l’impact du biais géographique tout en exploitant les données disponibles, nous pouvons utiliser des méthodes de feature engineering en extrayant des caractéristiques telles que les écart-types de la position, COG et du heading. Ces caractéristiques capturent la variabilité des mouvements des navires, permettant une meilleure détection des comportements.
L’augmentation de données peut être réalisée en appliquant des rotations géométriques aux points de position et aux COG/heading, simulant ainsi des trajectoires dans différentes régions du globe. Cette méthode permet de diversifier les données d’entraînement sans avoir besoin de nouvelles données réelles.
Conclusion
En conclusion, réduire l’impact des biais géographiques est crucial pour assurer la fiabilité et la généralisation des modèles de machine learning basés sur des données géospatiales. Les méthodes abordées, allant de l’acquisition de données globales à l’augmentation de données, présentent chacune des avantages et des défis spécifiques. Le cas d’étude sur la détection des comportements de navires illustre bien ces enjeux, démontrant l’importance d’une approche réfléchie et adaptée pour traiter les données géographiques. En intégrant judicieusement ces techniques, il est possible de créer des modèles plus robustes, capables de s’adapter à divers contextes géographiques tout en minimisant les distorsions induites par les biais. Cela est essentiel pour des applications critiques, telles que la sécurité maritime, où la précision des analyses peut avoir des implications significatives sur les décisions prises. Par exemple, la mise en œuvre d’une méthode d’augmentation de données et de features engineering nous permet de prédire le comportement des navires dans des régions non couvertes par les données initiales, améliorant ainsi la capacité du modèle à généraliser à l’échelle mondiale.